SlideShare una empresa de Scribd logo
1 de 12
Descargar para leer sin conexión
1
QUÉ ES BIGDATA
- Dedicado al análisis, procesamiento, y storage de largaas colecciones de datos
LAS 5 V’s
- VOLUME: scale of data / data at rest (gran numero de folas o bien, gran numero de
atributos)
- VARIETY: different forms of data / data in many forms (structured, semi-
structured, unstructured): algunas veces se requiere un preprocesameinto para
extraer un vector de características. Cuidadosamente se debe remover el ruido.
- VELOCITY: analysis of streamming data / data in motion (algunas veces no se
pueden acumular datos para el procesameinto)
- VERACITY: uncertainty of data / data in doubt
- VALUE:
- >> Tomado de http://www.ibmbigdatahub.com/infographic/four-vs-big-data
2
Conceptos
OLAP
OLTP
DataMart
DataWarehouse
Drilldown / Rollup / Cubo
Schema on Write vs schema on Read
Enfoque BigData
- Otros tipos de orígenes
- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas
- No-estructurados: audio, documentos
3
Enfoque BigData
- Otros tipos de orígenes
- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas
- No-estructurados: audio, documentos
- Schema on Write vs schema on Read
- DataLake
4
TIPOS DE ANALYTICS
• Descriptiva: Preguntas sobre eventos que ya ocurrieron, ´via ad-hoc
reporting/dashboards (cuánto se vendió los últimos 12 meses)
• Diagnóstico: Determinar la causa o razón detrás de un evento: Por qué se
originaron más reclamos de sooprte en la región Este que en la Oeste; v+ia
visualizaciones, con estructuras ue soporten drilldown/rollup)
• Predictiva: Predecir la llegada de un evento basado en patrones o tendencias
fundadas en datos históricos y actuales (si un cliente compró queso y huevos, cuál
es la probabilidad de que lleve pan?; qué oportunidad hay que un cliente no pague
la deuda dado que la primera cuota no la ha pagado.)
• Prescriptiva: Recomendar accionesa tomar dados los resultados predictivos y por
qué hay que seguirlas para tener mayor ventaja o mitigar riesgos (ej: cuándo es la
mejor fecha para tranzar con determinada acción/stock).
5
EJEMPLO1: TARGET
Un Hombre muy enojado acude a una tienda de Target a las afueras de Minneapolis,
solicitando hablar con el Gerente, diciendo:
“Mi hija recibió este mail” dice el hombre, “Ella aún esta en secundaria, y ustedes le
están enviando cupones para descuentos en Ropa de Bebé y Cunas?, están tratando
de animarla a quedar embarazada?”
El gerente dice no tener idea de lo que el hombre le informa. Miró el mail publicitario
y efectivamente, estaba dirigida a la hija del hombre y contenía la publicidad de ropa
de maternidad, cunas y fotografías de bebés sonriendo. El gerente se disculpa y luego
le llamó unos días más tarde para disculparse de nuevo.
Por teléfono el padre suena un tanto desconcertado, responde el padre: “Tuve un
charla con mi hija y resulta que existieron sucesos en mi hogar de los cuales no
estaba completamente enterado, el bebe nacería en agosto, te debo una disculpa”.
Target es una tienda de retail muy popular en U.S. y han entendido muy bien el
comportamiento de compra de sus clientes, asignándoles un ID único a cada cliente,
asociado a sus tarjetas de crédito, para analizar todos los datos de compra a lo largo
del tiempo, y luego, generar cupones de descuento sugiriendo productos que al
6
cliente le parezcan coincidentemente muy familiar.
No sería coincidencia que Target enviara un cupón de descuentos en lociones de
cabello, justo en el tiempo que acostumbra agotarse en el hogar.
Se dieron cuenta que ciertos comportamientos de mujeres en su primer trimestre de
embarazo era repetitivo, construyendo un algoritmo que fuera capaz de predecir el
comportamiento de compra de mujeres en estado de embarazo: “Una chica que
compra loción de crema de cacao, suplementos de zinc o magnesio, bolsos gigantes
como para funcionar como bolsa de pañales, tendría un 87% de probabilidades de
que esté embarazada según la tienda Target.”
REF: https://www.linkedin.com/pulse/esto-es-otra-historia-aburrida-de-big-data-
caso-target-morales
REF: http://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html
6
EJEMPLO 2: MONEYBALL
un equipo de a liga americana de baseball, tiene bajo presupuesto y se trata de usar
un conjunto de tecnicas estadisticas para indicar un score de jugadores deescartados
por os ojeadores de otros equipos pero que en realidad tenían buenos datos.
Ahora es un campo que cada vez despierta el interés de las ligas (SABERMETRICS)
REF: http://eldedoeneldato.blogspot.com.co/2012/02/analisis-de-moneyball-
rompiendo-las.html
7
CICLO
• BusinessCase: plantear la necesidad de negocio, la pregunta del negocio, la
motivación y las metas
• Identification: Identificar las necesidades/sources de información, (internos,
externos)
• Aquisition: RECOLECTAR la data necesaria para el procesamiento (ej: consumir
API’s), filtrar los datos que no hacen parte del objetivo del análisis. Guardar
siempre copias verbatim. Agregar metadata a los orígenes
• Extraction: extraer la data de origenes dispares, transformarlo en un formato ue se
pueda usar para el análisis (parsing)
• Validation: LIMPIAR la data, aplicar reglas de validación, remover datos inválidos o
hacer imputaciones
• Aggregation: Join entre datasets, sumarizarlos
• Analysis: (Confirmatorio o Exploratorio), por medio del cual se ENTRENA, EVALUA y
OPTIMIZA un modelo aplicable al caso estudiado.
• Visualization: técnicas para comunicar los resultados para efectiva interpretación
del usuario objetivo
8
• Utilization: Encapsular en modelos o productos o bien usar los resutlados del
análisispara optimizar desempeño del negocio, desempeño de los procesos,
alertas para informar a los usuarios.
OTROS TÉRMINOS
• DataMunging/DataWrangling (extraction, cleansing, filter, desde datos raw hacia
otros que tengan más sentido para el procesamiento)
8
BUSINESS JUSTIFICATION
• Tener un roadmap
• Ver el impacto y la necesidad según el negocio; no para todos aplica
• Identificar los insumos de datos
• Saber o calcular cuánto cuesta el cambio;
• un piloto inicial
• recursos entrenados
• La metodología es distinta
• Data Procurement (Buscar/Adquirir/Comprar datasets)
• Data Provenance: Acorde a la fuente, confiablidad del dataset
• Data Privacy: Confidencialidad de datos / Unión de variso datasets
9
10

Más contenido relacionado

Similar a BigData 101 / Cursillo (Parte1)

INTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptxINTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptxAngelDiaz139823
 
Presentación Analytics Expo mkt 2014 big data great power
Presentación Analytics Expo mkt 2014   big data great powerPresentación Analytics Expo mkt 2014   big data great power
Presentación Analytics Expo mkt 2014 big data great powerBUSINESS ANALYTICS SAC
 
With Big Data comes Great Power
With Big Data comes Great PowerWith Big Data comes Great Power
With Big Data comes Great PowerMarco Casalino
 
Evaluación de las necesidades del marketing
Evaluación de las necesidades del marketingEvaluación de las necesidades del marketing
Evaluación de las necesidades del marketingTessie Alejo
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer CentricKEEDIO
 
Seminario De BI
Seminario De BISeminario De BI
Seminario De BIgrupomitk
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analyticsamdia
 
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015eCommerce Institute
 
Deber Tecnologias Informacion
Deber Tecnologias InformacionDeber Tecnologias Informacion
Deber Tecnologias Informacionguestf15e9ecc
 
Conferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retailConferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retailBUSINESS ANALYTICS SAC
 

Similar a BigData 101 / Cursillo (Parte1) (20)

Data Mining
Data Mining Data Mining
Data Mining
 
INTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptxINTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptx
 
Presentación Analytics Expo mkt 2014 big data great power
Presentación Analytics Expo mkt 2014   big data great powerPresentación Analytics Expo mkt 2014   big data great power
Presentación Analytics Expo mkt 2014 big data great power
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
With Big Data comes Great Power
With Big Data comes Great PowerWith Big Data comes Great Power
With Big Data comes Great Power
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Tema 2 (anexo 03).- MINERIA DATOS.pdf
Tema 2 (anexo 03).- MINERIA DATOS.pdfTema 2 (anexo 03).- MINERIA DATOS.pdf
Tema 2 (anexo 03).- MINERIA DATOS.pdf
 
Evaluación de las necesidades del marketing
Evaluación de las necesidades del marketingEvaluación de las necesidades del marketing
Evaluación de las necesidades del marketing
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric
 
Unidad 1. componentes del sistema
Unidad 1. componentes del sistemaUnidad 1. componentes del sistema
Unidad 1. componentes del sistema
 
Marketing base de_datos
Marketing base de_datosMarketing base de_datos
Marketing base de_datos
 
Introducción a la Minería de Datos (1).pdf
Introducción a la Minería de Datos (1).pdfIntroducción a la Minería de Datos (1).pdf
Introducción a la Minería de Datos (1).pdf
 
Marketing y Big Data - GerenciArte
Marketing y Big Data - GerenciArteMarketing y Big Data - GerenciArte
Marketing y Big Data - GerenciArte
 
Seminario De BI
Seminario De BISeminario De BI
Seminario De BI
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analytics
 
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
 
Intro
IntroIntro
Intro
 
Deber Tecnologias Informacion
Deber Tecnologias InformacionDeber Tecnologias Informacion
Deber Tecnologias Informacion
 
Conferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retailConferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retail
 

Más de andres hurtado

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_courseraandres hurtado
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aiandres hurtado
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoandres hurtado
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystemsandres hurtado
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)andres hurtado
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introductionandres hurtado
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06andres hurtado
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05andres hurtado
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04andres hurtado
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02andres hurtado
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01andres hurtado
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agendaandres hurtado
 
Personal Software Process / Sesion 03
Personal Software Process / Sesion 03Personal Software Process / Sesion 03
Personal Software Process / Sesion 03andres hurtado
 

Más de andres hurtado (17)

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_coursera
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware ai
 
estimacion
estimacionestimacion
estimacion
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologico
 
Docker 101
Docker 101Docker 101
Docker 101
 
DevOps 101
DevOps 101DevOps 101
DevOps 101
 
Git 101
Git 101Git 101
Git 101
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystems
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agenda
 
Personal Software Process / Sesion 03
Personal Software Process / Sesion 03Personal Software Process / Sesion 03
Personal Software Process / Sesion 03
 

Último

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 

Último (10)

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 

BigData 101 / Cursillo (Parte1)

  • 1. 1
  • 2. QUÉ ES BIGDATA - Dedicado al análisis, procesamiento, y storage de largaas colecciones de datos LAS 5 V’s - VOLUME: scale of data / data at rest (gran numero de folas o bien, gran numero de atributos) - VARIETY: different forms of data / data in many forms (structured, semi- structured, unstructured): algunas veces se requiere un preprocesameinto para extraer un vector de características. Cuidadosamente se debe remover el ruido. - VELOCITY: analysis of streamming data / data in motion (algunas veces no se pueden acumular datos para el procesameinto) - VERACITY: uncertainty of data / data in doubt - VALUE: - >> Tomado de http://www.ibmbigdatahub.com/infographic/four-vs-big-data 2
  • 3. Conceptos OLAP OLTP DataMart DataWarehouse Drilldown / Rollup / Cubo Schema on Write vs schema on Read Enfoque BigData - Otros tipos de orígenes - Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas - No-estructurados: audio, documentos 3
  • 4. Enfoque BigData - Otros tipos de orígenes - Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas - No-estructurados: audio, documentos - Schema on Write vs schema on Read - DataLake 4
  • 5. TIPOS DE ANALYTICS • Descriptiva: Preguntas sobre eventos que ya ocurrieron, ´via ad-hoc reporting/dashboards (cuánto se vendió los últimos 12 meses) • Diagnóstico: Determinar la causa o razón detrás de un evento: Por qué se originaron más reclamos de sooprte en la región Este que en la Oeste; v+ia visualizaciones, con estructuras ue soporten drilldown/rollup) • Predictiva: Predecir la llegada de un evento basado en patrones o tendencias fundadas en datos históricos y actuales (si un cliente compró queso y huevos, cuál es la probabilidad de que lleve pan?; qué oportunidad hay que un cliente no pague la deuda dado que la primera cuota no la ha pagado.) • Prescriptiva: Recomendar accionesa tomar dados los resultados predictivos y por qué hay que seguirlas para tener mayor ventaja o mitigar riesgos (ej: cuándo es la mejor fecha para tranzar con determinada acción/stock). 5
  • 6. EJEMPLO1: TARGET Un Hombre muy enojado acude a una tienda de Target a las afueras de Minneapolis, solicitando hablar con el Gerente, diciendo: “Mi hija recibió este mail” dice el hombre, “Ella aún esta en secundaria, y ustedes le están enviando cupones para descuentos en Ropa de Bebé y Cunas?, están tratando de animarla a quedar embarazada?” El gerente dice no tener idea de lo que el hombre le informa. Miró el mail publicitario y efectivamente, estaba dirigida a la hija del hombre y contenía la publicidad de ropa de maternidad, cunas y fotografías de bebés sonriendo. El gerente se disculpa y luego le llamó unos días más tarde para disculparse de nuevo. Por teléfono el padre suena un tanto desconcertado, responde el padre: “Tuve un charla con mi hija y resulta que existieron sucesos en mi hogar de los cuales no estaba completamente enterado, el bebe nacería en agosto, te debo una disculpa”. Target es una tienda de retail muy popular en U.S. y han entendido muy bien el comportamiento de compra de sus clientes, asignándoles un ID único a cada cliente, asociado a sus tarjetas de crédito, para analizar todos los datos de compra a lo largo del tiempo, y luego, generar cupones de descuento sugiriendo productos que al 6
  • 7. cliente le parezcan coincidentemente muy familiar. No sería coincidencia que Target enviara un cupón de descuentos en lociones de cabello, justo en el tiempo que acostumbra agotarse en el hogar. Se dieron cuenta que ciertos comportamientos de mujeres en su primer trimestre de embarazo era repetitivo, construyendo un algoritmo que fuera capaz de predecir el comportamiento de compra de mujeres en estado de embarazo: “Una chica que compra loción de crema de cacao, suplementos de zinc o magnesio, bolsos gigantes como para funcionar como bolsa de pañales, tendría un 87% de probabilidades de que esté embarazada según la tienda Target.” REF: https://www.linkedin.com/pulse/esto-es-otra-historia-aburrida-de-big-data- caso-target-morales REF: http://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html 6
  • 8. EJEMPLO 2: MONEYBALL un equipo de a liga americana de baseball, tiene bajo presupuesto y se trata de usar un conjunto de tecnicas estadisticas para indicar un score de jugadores deescartados por os ojeadores de otros equipos pero que en realidad tenían buenos datos. Ahora es un campo que cada vez despierta el interés de las ligas (SABERMETRICS) REF: http://eldedoeneldato.blogspot.com.co/2012/02/analisis-de-moneyball- rompiendo-las.html 7
  • 9. CICLO • BusinessCase: plantear la necesidad de negocio, la pregunta del negocio, la motivación y las metas • Identification: Identificar las necesidades/sources de información, (internos, externos) • Aquisition: RECOLECTAR la data necesaria para el procesamiento (ej: consumir API’s), filtrar los datos que no hacen parte del objetivo del análisis. Guardar siempre copias verbatim. Agregar metadata a los orígenes • Extraction: extraer la data de origenes dispares, transformarlo en un formato ue se pueda usar para el análisis (parsing) • Validation: LIMPIAR la data, aplicar reglas de validación, remover datos inválidos o hacer imputaciones • Aggregation: Join entre datasets, sumarizarlos • Analysis: (Confirmatorio o Exploratorio), por medio del cual se ENTRENA, EVALUA y OPTIMIZA un modelo aplicable al caso estudiado. • Visualization: técnicas para comunicar los resultados para efectiva interpretación del usuario objetivo 8
  • 10. • Utilization: Encapsular en modelos o productos o bien usar los resutlados del análisispara optimizar desempeño del negocio, desempeño de los procesos, alertas para informar a los usuarios. OTROS TÉRMINOS • DataMunging/DataWrangling (extraction, cleansing, filter, desde datos raw hacia otros que tengan más sentido para el procesamiento) 8
  • 11. BUSINESS JUSTIFICATION • Tener un roadmap • Ver el impacto y la necesidad según el negocio; no para todos aplica • Identificar los insumos de datos • Saber o calcular cuánto cuesta el cambio; • un piloto inicial • recursos entrenados • La metodología es distinta • Data Procurement (Buscar/Adquirir/Comprar datasets) • Data Provenance: Acorde a la fuente, confiablidad del dataset • Data Privacy: Confidencialidad de datos / Unión de variso datasets 9
  • 12. 10