En la medida en que el volumen total de datos continúe aumentando, el volumen de datos erróneos también aumentará si no se hace nada al respecto. La mala calidad de los datos afecta negativamente a las empresas. La buena calidad de los datos es un activo estratégico, que puede ser una ventaja competitiva. Veremos por qué es importante preocuparse por la calidad de los datos, los problemas más comunes y lo que podemos hacer para resolverlos.
Calidad de datos: La base del éxito para la modernización de sistemas de información
La ponencia tratará los aspectos más importantes a considerar para llevar a cabo una exitosa migración de datos de una organización en la modernización de los sistemas de información o la adquisición de nuevos sistemas o aplicaciones. Se cubren aspectos como la metodología, buenas prácticas y el proceso para la migración de bases de datos, haciendo énfasis en el análisis de la calidad de los datos.
Ponente; Magda Meléndez
Asegurando la calidad del dato en mi entorno de business intelligenceMary Arcia
El aseguramiento de la calidad de datos es el proceso que más demanda tiempo, gente y dinero dentro de nuestros proyectos de BI. Entendiendo el efecto clave en el proceso de la toma de decisiones que genera el” business intelligence”, no puede tratarse la calidad de los datos como un proceso tardío. En esta sesión vamos a conocer cómo tras una metodología de calidad de datos, los servicios de Data Quality Services de Microsoft SQL Server nos ayuda en este proceso de ahorrar tiempo y garantizar datos sanos y correctos para nuestros sistemas de BI.
Laboratorio práctico: La sazón del científico de datosSoftware Guru
Este taller pretende hacer una conexión entre el arte y la ciencia necesarias para desarrollar un modelo correcto. Nos enfrentaremos a datos agrios y modelos aguados, pero entenderemos el camino para corregir.
Calidad de datos: La base del éxito para la modernización de sistemas de información
La ponencia tratará los aspectos más importantes a considerar para llevar a cabo una exitosa migración de datos de una organización en la modernización de los sistemas de información o la adquisición de nuevos sistemas o aplicaciones. Se cubren aspectos como la metodología, buenas prácticas y el proceso para la migración de bases de datos, haciendo énfasis en el análisis de la calidad de los datos.
Ponente; Magda Meléndez
Asegurando la calidad del dato en mi entorno de business intelligenceMary Arcia
El aseguramiento de la calidad de datos es el proceso que más demanda tiempo, gente y dinero dentro de nuestros proyectos de BI. Entendiendo el efecto clave en el proceso de la toma de decisiones que genera el” business intelligence”, no puede tratarse la calidad de los datos como un proceso tardío. En esta sesión vamos a conocer cómo tras una metodología de calidad de datos, los servicios de Data Quality Services de Microsoft SQL Server nos ayuda en este proceso de ahorrar tiempo y garantizar datos sanos y correctos para nuestros sistemas de BI.
Laboratorio práctico: La sazón del científico de datosSoftware Guru
Este taller pretende hacer una conexión entre el arte y la ciencia necesarias para desarrollar un modelo correcto. Nos enfrentaremos a datos agrios y modelos aguados, pero entenderemos el camino para corregir.
In this opportunity I spoke about the distinct way that we have on azure to manage data pipelines and what are the best practices. I showed to the audience some bid data, stream data and transnational data architecture using Azure services
Objetivo: Aplicar técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfNubiral
Conoce cómo esta disciplina aporta un marco de trabajo y herramientas para alinear los equipos de ingeniería y de análisis de datos para mejorar la gestión del ecosistema de datos en la organización.
Estimados usuarios. Bienvenidos a nuestro sitio virtual de la UNIVERSIDAD MAGISTER en Slide Share donde podrá encontrar los resultados de importantes trabajos de investigación prácticos producidos por nuestros profesionales. Esperamos que estos Mares Azules que les ponemos a su disposición sirvan de base para otras investigaciones y juntos cooperemos en el Desarrollo Económico y Social de Costa Rica y otras latitudes. Queremos ser enfáticos en que estos trabajos tienen Propiedad Intelectual por lo que queda totalmente prohibida su reproducción parcial o total, así como ser utilizados por otro autor, a excepción de que los compartan como citas de autor o referencias bibliográficas. Toda esta información también quedará a su disposición desde nuestro sitio web www.umagister.com, Disfruten con nosotros de este magno contenido bibliográfico Magister esperando sus amables comentarios, no sin antes agradecer a nuestro Ing. Jerry González quien está administrando este sitio. Rectoría, Universidad Magister. – 2015.
Transparencias de la ponencia realizada por el Dr. Ismael Caballero, director de formación de DQTeam el 7 de marzo de 2017 en el desayuno organizado por AFSM. La ponencia realizada giró en torno a la figura del Chief Data Officer (CDO) como principal responsable del programa de gobierno de datos de las organizaciones, contextualizando este rol junto a la importancia de la calidad de los datos como uno de los componentes básicos del valor organizacional de los datos.
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosAlex Rayón Jerez
Primer Webinar de SNOLA (Spanish Network Of Learning Analytics,http://snola.deusto.es/), titulado "Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos"
Disponible también en vídeo aquí: https://plus.google.com/u/0/events/c5keobqquhp1k1h3o7dekd561bo?cfem=1
In this opportunity I spoke about the distinct way that we have on azure to manage data pipelines and what are the best practices. I showed to the audience some bid data, stream data and transnational data architecture using Azure services
Objetivo: Aplicar técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos.
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfNubiral
Conoce cómo esta disciplina aporta un marco de trabajo y herramientas para alinear los equipos de ingeniería y de análisis de datos para mejorar la gestión del ecosistema de datos en la organización.
Estimados usuarios. Bienvenidos a nuestro sitio virtual de la UNIVERSIDAD MAGISTER en Slide Share donde podrá encontrar los resultados de importantes trabajos de investigación prácticos producidos por nuestros profesionales. Esperamos que estos Mares Azules que les ponemos a su disposición sirvan de base para otras investigaciones y juntos cooperemos en el Desarrollo Económico y Social de Costa Rica y otras latitudes. Queremos ser enfáticos en que estos trabajos tienen Propiedad Intelectual por lo que queda totalmente prohibida su reproducción parcial o total, así como ser utilizados por otro autor, a excepción de que los compartan como citas de autor o referencias bibliográficas. Toda esta información también quedará a su disposición desde nuestro sitio web www.umagister.com, Disfruten con nosotros de este magno contenido bibliográfico Magister esperando sus amables comentarios, no sin antes agradecer a nuestro Ing. Jerry González quien está administrando este sitio. Rectoría, Universidad Magister. – 2015.
Transparencias de la ponencia realizada por el Dr. Ismael Caballero, director de formación de DQTeam el 7 de marzo de 2017 en el desayuno organizado por AFSM. La ponencia realizada giró en torno a la figura del Chief Data Officer (CDO) como principal responsable del programa de gobierno de datos de las organizaciones, contextualizando este rol junto a la importancia de la calidad de los datos como uno de los componentes básicos del valor organizacional de los datos.
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosAlex Rayón Jerez
Primer Webinar de SNOLA (Spanish Network Of Learning Analytics,http://snola.deusto.es/), titulado "Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos"
Disponible también en vídeo aquí: https://plus.google.com/u/0/events/c5keobqquhp1k1h3o7dekd561bo?cfem=1
My presentation about "Happy product pages" in first "Making-Customers-Happy" eCommerce meetup in Barcelona. You have the power to make customers happy: What you do is important. In star wars aproach, this is a light side of the force view of Ecommerce User Experience.
Elección de Magento como plataforma E-commerceJordi Rosell
Mi presentación de la charla sobre la elección de Magento como plataforma E-commerce, realizada en Openexpo & EcommBeears especial de plataformas opensource de E-commerce.
Rendimiento de Magento
Magento y Cloud
APC y Memcached
Combinación JS y CSS
Ineficiencia en módulos
Configuración de infraestructura
Uso de caché
Eliminar consultas innecesarias
Cuellos de botella con xhprof
Inteligencia Artificial y Ciberseguridad.pdfEmilio Casbas
Recopilación de los puntos más interesantes de diversas presentaciones, desde los visionarios conceptos de Alan Turing, pasando por la paradoja de Hans Moravec y la descripcion de Singularidad de Max Tegmark, hasta los innovadores avances de ChatGPT, y de cómo la IA está transformando la seguridad digital y protegiendo nuestras vidas.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
Diagrama de flujo basada en la reparacion de automoviles.pdf
¿Por qué preocuparse por mejorar la calidad de los datos?
1. 1 / 42
¿Por qué preocuparse por
mejorar la calidad de los datos?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/
12. 12 / 42
¿Lo hacen a propósito o usan
malos instrumentos?
Es preciso
pero inexacto
Ni preciso
ni exacto
Es exacto
pero impreciso
Es exacto
y preciso
14. 14 / 42
Una pregunta rápida: ¿Cómo
defines el open rate de un
email?
Para responder:
●
Abre https://slido.com
●
Introduce el event code: A388
●
Join y contesta la pregunta.
15. 15 / 42
Faltan datos: datos incompletos
o pérdida de datos
Grado en el que están todos los datos
que deberían estar
16. 16 / 42
¿Qué zonas del avión
deberíamos reforzar?
17. 17 / 42
Datos sin actualizar
Aunque necesitemos datos del día anterior,
hay datos de los que sólo dispondremos
pasados unos días.
18. 18 / 42
Poca confianza en los datos
¿Se puede confiar en los datos mostrados?
19. 19 / 42
Si un registro está duplicado,
¿cuál es el bueno?
21. 21 / 42
No conocemos los datos
¿Qué qué significan los datos?
¿Significan otra cosa de la esperada?
●
Suele ser señal de que la estructura es
demasiado compleja
22. 22 / 42
En fuentes de datos de
terceros, pueden cambiar la
definición de los datos
An improvement to our data
collection was applied from 1/1/16
23. 23 / 42
Variedad de las fuentes
¿Cuántas fuentes de datos se integran?
●
Cuando se trata de integrar datos de una
gran variedad de fuentes de datos, es
necesario un gran esfuerzo previo de
modelización antes de poder limpiar y cruzar
la información de forma adecuada
24. 24 / 42
¿Cuántos pedidos hubo el
último mes?
No es lo mismo lo que diga el CMS que lo que
diga Google Analytics.
●
En este caso, una rectificación del pedido era
un nuevo pedido para el CMS y no para
Google Analytics
25. 25 / 42
Errores del sistema
Caídas de servidores, funcionamiento
anómalo, datos que han quedado huérfanos
o duplicados, etc.
26. 26 / 42
¿Y que podemos hacer para
mejorar la calidad de los
datos?
27. 27 / 42
Para mejorar algo, primero
hay que medirlo
●
Extrae los últimos 100 registros creados o editados
en una hoja de cálculo. Deja sólo los 10-15 campos
críticos de cada registro.
●
Reúnete 1h-2h con 2-3 personas más que conozcan
los datos.
●
Registro por registro, se marcan los errores evidentes
en rojo. (Ej: Un nombre mal escrito, columna
incorrecta, formatos incorrectos, valores fuera de
rango, datos falsos para evadir un control, etc)
●
¿El registro esta completamente correcto? SI/NO
●
El KPI será el porcentaje de registros completamente
correctos
28. 28 / 42
Calcula tu propio KPI de
gestión de calidad de datos
29. 29 / 42
Una vez ya se ha usado el
dato erróneo
Ya está hecho el daño
Puede implicar:
●
Haber tomado decisiones en base a datos
incorrectos.
●
Pérdidas de tiempo.
●
Devoluciones de pedidos.
●
Instatisfacción o incluso pérdida del cliente.
●
etc
30. 30 / 42
Arreglar la mala calidad de
los datos
Un «cortafuegos» para reducir el riesgo
de que se produzcan incidencias
●
Reglas automáticas para limpiar, deduplicar,
etc
●
Equipo de validación y corrección de
possibles errores detectados via Inteligencia
Artificial o modelos probabilísticos
31. 31 / 42
Prevención de errores en la
introducción de datos
Son la mayor fuente de datos erróneos
●
Por ejemplo, por errores tipográficos o por
equivocaciones al transcribir desde el
teléfono o copiar del papel
35. 35 / 42
1. Inventariado de los datos, acordar
definiciones y requerimientos
2. Identifica las causas de la mala
calidad de los datos
3. Diseña, desarrolla y ejecuta los
procesos de mejora de calidad
(limpieza, homologación,
enriquecido...)
4. Monitoriza el progreso en la mejora
de la calidad de los datos
36. 36 / 42
Air France-KLM corrige más de 1
millón de registros cada mes
●
Emails y teléfonos de los pasajeros
●
Reconciliación de fuentes online y offline
●
Recopilado y procesado de datos personales
desde multiples fuentes para programas de
fidelidad
●
Hacer anónima información sensible para
aquellos que no tengan acceso autorizado
37. 37 / 42
Save The Children UK mejorando la
calidad de los datos mejora la
comunicación con sus socios y
donantes
●
Desduplicación de las importaciones de
donaciones realizadas para evitar envíos
multiples al mismo socio.
●
Relacionar adecuadamente los datos de
donantes y de socios.
●
Poder unificar cartas postales para los
habitantes de un mismo piso
38. 38 / 42
Travis Perkins mejorando la calidad
del catálogo de productos de su sitio
web mejoró la conversión un 30%
●
La información de producto no era
consistente (distintos proveedores)
●
Se realizó un proceso para estanderizar
datos, campos y valores ya que aunque
hubiera un equipo no llegaba a todo
●
Detección probailística de duplicados y uso
de barcodes
●
Todo ello, resultó en un sitio web con
información de producto más precisa y
consistente
39. 39 / 42
Amazon mejora de la calidad de los
datos de su buscador para convertir
el doble que sus competidores
40. 40 / 42
¿Y qué conseguimos mejorando la
calidad de los datos?
41. 41 / 42
Que los datos sean un
activo para el negocio
●
Tener un visión única de los datos.
●
Enriquecidos desde distintas fuentes de datos
de forma controlada.
●
Ser operativamente solventes, para poder
ofrecer datos completos y consistentes
●
Trabajar estratégicamente, consiguiendo
unos datos valiosos para su función.
●
Cumplimiento normativo (Multas de 2% de
facturación).
42. 42 / 42
¡Gracias! ¿Preguntas?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/