In this opportunity I spoke about the distinct way that we have on azure to manage data pipelines and what are the best practices. I showed to the audience some bid data, stream data and transnational data architecture using Azure services
2. ELENA LÓPEZ
• ING. DE SISTEMAS DESDE MUCHO ANTES DE WINDOWS 7
• DATOS, DATOS Y MÁS DATOS
• CURIOSA, EMPRENDEDORA, AUTODIDACTA
• DATA PLATFORM MICROSOFT MVP
• HUMOR, CERVEZA, NATURALEZA
8. RETOSRELACIONADOS A LOS DATOS
• Valores nulos
• Valores vacíos
• Valores por defecto
Completit
ud
• Estandarizados
• Legibles
Conformidad
• No se contradicenConsistencia
• Veracidad de los datosPrecisión
• Redundancia
• Valor que representa un mismo
dato en diferente formato
Duplicidad
• ¿Podemos usar y confiar en los
datos que tenemos?Integridad
70-80% del tiempo se invierte en la limpieza y recolección de los datos.
9. TEAM DATA SCIENCE PROCESSMetodología de trabajo desarrollada y recomendada por Microsoft
Entendimiento del negocio
Se identifican junto al cliente las
preguntas que se buscan resolver con el
proyecto
Levantamiento de riesgos, supuestos,
beneficios
Objetivos del proyecto
Formación del equipo
Definición de métricas de éxito
(específicas, medibles, alcanzables,
relevantes y con límite de tiempo
Se identifican
las fuentes de
datos
Adquisición y entendimiento
de los datos
Selección de conjuntos de datos
Exploración de los datos, uso de
estadística descriptiva para evaluar
calidad de los datos
Análisis de correlación para identificar
variables
Limpieza y calidad de datos en caso de
requerirse (datos duplicados, presencia
de valores nulos, valores atípicos)
Modelamiento y Desarrollo
Ingeniería de atributos
Desarrollo de Extracción,
Transformación y Carga de los datos
(ETL).
Diseño lógico/conceptual del almacén
de datos o data warehouse (topología
de esquema estrella)
Diseño de estructuras
multidimensionales o cubos
Diseño de Reportes, dashboards, KPIs y
alertas
Calidad
Despliegue
Visualizadores Web
Hojas de cálculos
Notificaciones vía correo electrónico
Herramientas comerciales de
autoservicio de datos (Power BI por
ejemplo)
17. Los sistemas deben seguir los lineamientos de los procesos empresariales y garantizar la calidad
de los datos.
Notas del editor
La baja calidad de los datos es la razón principal por la que el 40% de las iniciativas de negocio son abandonadas, impactando negativamente el crecimiento, la competividad y los ingresos.