Cursillo Básico sobre bigdata y machine learning. Parte 1: Iniciamos con conceptos generales sobre los temas de analytics, como también con lo que se denomina Analítica tradicional, para posteriormente mostrar ejemplos de aplicabilidad del bigdata en la industria y definir lo que se denomina el ciclo de análisis para la generación de modelos de datascience. Los temas particulares son: Definición BigData, las 5V’s, Tipos de Analitica, Traditional BI & BigData, Ciclo de Analisis, BigData y BusinessCase.. MinTIC bdguidance arcitura 2016.
2. QUÉ ES BIGDATA
- Dedicado al análisis, procesamiento, y storage de largaas colecciones de datos
LAS 5 V’s
- VOLUME: scale of data / data at rest (gran numero de folas o bien, gran numero de
atributos)
- VARIETY: different forms of data / data in many forms (structured, semi-
structured, unstructured): algunas veces se requiere un preprocesameinto para
extraer un vector de características. Cuidadosamente se debe remover el ruido.
- VELOCITY: analysis of streamming data / data in motion (algunas veces no se
pueden acumular datos para el procesameinto)
- VERACITY: uncertainty of data / data in doubt
- VALUE:
- >> Tomado de http://www.ibmbigdatahub.com/infographic/four-vs-big-data
2
3. Conceptos
OLAP
OLTP
DataMart
DataWarehouse
Drilldown / Rollup / Cubo
Schema on Write vs schema on Read
Enfoque BigData
- Otros tipos de orígenes
- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas
- No-estructurados: audio, documentos
3
4. Enfoque BigData
- Otros tipos de orígenes
- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas
- No-estructurados: audio, documentos
- Schema on Write vs schema on Read
- DataLake
4
5. TIPOS DE ANALYTICS
• Descriptiva: Preguntas sobre eventos que ya ocurrieron, ´via ad-hoc
reporting/dashboards (cuánto se vendió los últimos 12 meses)
• Diagnóstico: Determinar la causa o razón detrás de un evento: Por qué se
originaron más reclamos de sooprte en la región Este que en la Oeste; v+ia
visualizaciones, con estructuras ue soporten drilldown/rollup)
• Predictiva: Predecir la llegada de un evento basado en patrones o tendencias
fundadas en datos históricos y actuales (si un cliente compró queso y huevos, cuál
es la probabilidad de que lleve pan?; qué oportunidad hay que un cliente no pague
la deuda dado que la primera cuota no la ha pagado.)
• Prescriptiva: Recomendar accionesa tomar dados los resultados predictivos y por
qué hay que seguirlas para tener mayor ventaja o mitigar riesgos (ej: cuándo es la
mejor fecha para tranzar con determinada acción/stock).
5
6. EJEMPLO1: TARGET
Un Hombre muy enojado acude a una tienda de Target a las afueras de Minneapolis,
solicitando hablar con el Gerente, diciendo:
“Mi hija recibió este mail” dice el hombre, “Ella aún esta en secundaria, y ustedes le
están enviando cupones para descuentos en Ropa de Bebé y Cunas?, están tratando
de animarla a quedar embarazada?”
El gerente dice no tener idea de lo que el hombre le informa. Miró el mail publicitario
y efectivamente, estaba dirigida a la hija del hombre y contenía la publicidad de ropa
de maternidad, cunas y fotografías de bebés sonriendo. El gerente se disculpa y luego
le llamó unos días más tarde para disculparse de nuevo.
Por teléfono el padre suena un tanto desconcertado, responde el padre: “Tuve un
charla con mi hija y resulta que existieron sucesos en mi hogar de los cuales no
estaba completamente enterado, el bebe nacería en agosto, te debo una disculpa”.
Target es una tienda de retail muy popular en U.S. y han entendido muy bien el
comportamiento de compra de sus clientes, asignándoles un ID único a cada cliente,
asociado a sus tarjetas de crédito, para analizar todos los datos de compra a lo largo
del tiempo, y luego, generar cupones de descuento sugiriendo productos que al
6
7. cliente le parezcan coincidentemente muy familiar.
No sería coincidencia que Target enviara un cupón de descuentos en lociones de
cabello, justo en el tiempo que acostumbra agotarse en el hogar.
Se dieron cuenta que ciertos comportamientos de mujeres en su primer trimestre de
embarazo era repetitivo, construyendo un algoritmo que fuera capaz de predecir el
comportamiento de compra de mujeres en estado de embarazo: “Una chica que
compra loción de crema de cacao, suplementos de zinc o magnesio, bolsos gigantes
como para funcionar como bolsa de pañales, tendría un 87% de probabilidades de
que esté embarazada según la tienda Target.”
REF: https://www.linkedin.com/pulse/esto-es-otra-historia-aburrida-de-big-data-
caso-target-morales
REF: http://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html
6
8. EJEMPLO 2: MONEYBALL
un equipo de a liga americana de baseball, tiene bajo presupuesto y se trata de usar
un conjunto de tecnicas estadisticas para indicar un score de jugadores deescartados
por os ojeadores de otros equipos pero que en realidad tenían buenos datos.
Ahora es un campo que cada vez despierta el interés de las ligas (SABERMETRICS)
REF: http://eldedoeneldato.blogspot.com.co/2012/02/analisis-de-moneyball-
rompiendo-las.html
7
9. CICLO
• BusinessCase: plantear la necesidad de negocio, la pregunta del negocio, la
motivación y las metas
• Identification: Identificar las necesidades/sources de información, (internos,
externos)
• Aquisition: RECOLECTAR la data necesaria para el procesamiento (ej: consumir
API’s), filtrar los datos que no hacen parte del objetivo del análisis. Guardar
siempre copias verbatim. Agregar metadata a los orígenes
• Extraction: extraer la data de origenes dispares, transformarlo en un formato ue se
pueda usar para el análisis (parsing)
• Validation: LIMPIAR la data, aplicar reglas de validación, remover datos inválidos o
hacer imputaciones
• Aggregation: Join entre datasets, sumarizarlos
• Analysis: (Confirmatorio o Exploratorio), por medio del cual se ENTRENA, EVALUA y
OPTIMIZA un modelo aplicable al caso estudiado.
• Visualization: técnicas para comunicar los resultados para efectiva interpretación
del usuario objetivo
8
10. • Utilization: Encapsular en modelos o productos o bien usar los resutlados del
análisispara optimizar desempeño del negocio, desempeño de los procesos,
alertas para informar a los usuarios.
OTROS TÉRMINOS
• DataMunging/DataWrangling (extraction, cleansing, filter, desde datos raw hacia
otros que tengan más sentido para el procesamiento)
8
11. BUSINESS JUSTIFICATION
• Tener un roadmap
• Ver el impacto y la necesidad según el negocio; no para todos aplica
• Identificar los insumos de datos
• Saber o calcular cuánto cuesta el cambio;
• un piloto inicial
• recursos entrenados
• La metodología es distinta
• Data Procurement (Buscar/Adquirir/Comprar datasets)
• Data Provenance: Acorde a la fuente, confiablidad del dataset
• Data Privacy: Confidencialidad de datos / Unión de variso datasets
9