SlideShare una empresa de Scribd logo
1
QUÉ ES BIGDATA
- Dedicado al análisis, procesamiento, y storage de largaas colecciones de datos
LAS 5 V’s
- VOLUME: scale of data / data at rest (gran numero de folas o bien, gran numero de
atributos)
- VARIETY: different forms of data / data in many forms (structured, semi-
structured, unstructured): algunas veces se requiere un preprocesameinto para
extraer un vector de características. Cuidadosamente se debe remover el ruido.
- VELOCITY: analysis of streamming data / data in motion (algunas veces no se
pueden acumular datos para el procesameinto)
- VERACITY: uncertainty of data / data in doubt
- VALUE:
- >> Tomado de http://www.ibmbigdatahub.com/infographic/four-vs-big-data
2
Conceptos
OLAP
OLTP
DataMart
DataWarehouse
Drilldown / Rollup / Cubo
Schema on Write vs schema on Read
Enfoque BigData
- Otros tipos de orígenes
- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas
- No-estructurados: audio, documentos
3
Enfoque BigData
- Otros tipos de orígenes
- Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas
- No-estructurados: audio, documentos
- Schema on Write vs schema on Read
- DataLake
4
TIPOS DE ANALYTICS
• Descriptiva: Preguntas sobre eventos que ya ocurrieron, ´via ad-hoc
reporting/dashboards (cuánto se vendió los últimos 12 meses)
• Diagnóstico: Determinar la causa o razón detrás de un evento: Por qué se
originaron más reclamos de sooprte en la región Este que en la Oeste; v+ia
visualizaciones, con estructuras ue soporten drilldown/rollup)
• Predictiva: Predecir la llegada de un evento basado en patrones o tendencias
fundadas en datos históricos y actuales (si un cliente compró queso y huevos, cuál
es la probabilidad de que lleve pan?; qué oportunidad hay que un cliente no pague
la deuda dado que la primera cuota no la ha pagado.)
• Prescriptiva: Recomendar accionesa tomar dados los resultados predictivos y por
qué hay que seguirlas para tener mayor ventaja o mitigar riesgos (ej: cuándo es la
mejor fecha para tranzar con determinada acción/stock).
5
EJEMPLO1: TARGET
Un Hombre muy enojado acude a una tienda de Target a las afueras de Minneapolis,
solicitando hablar con el Gerente, diciendo:
“Mi hija recibió este mail” dice el hombre, “Ella aún esta en secundaria, y ustedes le
están enviando cupones para descuentos en Ropa de Bebé y Cunas?, están tratando
de animarla a quedar embarazada?”
El gerente dice no tener idea de lo que el hombre le informa. Miró el mail publicitario
y efectivamente, estaba dirigida a la hija del hombre y contenía la publicidad de ropa
de maternidad, cunas y fotografías de bebés sonriendo. El gerente se disculpa y luego
le llamó unos días más tarde para disculparse de nuevo.
Por teléfono el padre suena un tanto desconcertado, responde el padre: “Tuve un
charla con mi hija y resulta que existieron sucesos en mi hogar de los cuales no
estaba completamente enterado, el bebe nacería en agosto, te debo una disculpa”.
Target es una tienda de retail muy popular en U.S. y han entendido muy bien el
comportamiento de compra de sus clientes, asignándoles un ID único a cada cliente,
asociado a sus tarjetas de crédito, para analizar todos los datos de compra a lo largo
del tiempo, y luego, generar cupones de descuento sugiriendo productos que al
6
cliente le parezcan coincidentemente muy familiar.
No sería coincidencia que Target enviara un cupón de descuentos en lociones de
cabello, justo en el tiempo que acostumbra agotarse en el hogar.
Se dieron cuenta que ciertos comportamientos de mujeres en su primer trimestre de
embarazo era repetitivo, construyendo un algoritmo que fuera capaz de predecir el
comportamiento de compra de mujeres en estado de embarazo: “Una chica que
compra loción de crema de cacao, suplementos de zinc o magnesio, bolsos gigantes
como para funcionar como bolsa de pañales, tendría un 87% de probabilidades de
que esté embarazada según la tienda Target.”
REF: https://www.linkedin.com/pulse/esto-es-otra-historia-aburrida-de-big-data-
caso-target-morales
REF: http://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html
6
EJEMPLO 2: MONEYBALL
un equipo de a liga americana de baseball, tiene bajo presupuesto y se trata de usar
un conjunto de tecnicas estadisticas para indicar un score de jugadores deescartados
por os ojeadores de otros equipos pero que en realidad tenían buenos datos.
Ahora es un campo que cada vez despierta el interés de las ligas (SABERMETRICS)
REF: http://eldedoeneldato.blogspot.com.co/2012/02/analisis-de-moneyball-
rompiendo-las.html
7
CICLO
• BusinessCase: plantear la necesidad de negocio, la pregunta del negocio, la
motivación y las metas
• Identification: Identificar las necesidades/sources de información, (internos,
externos)
• Aquisition: RECOLECTAR la data necesaria para el procesamiento (ej: consumir
API’s), filtrar los datos que no hacen parte del objetivo del análisis. Guardar
siempre copias verbatim. Agregar metadata a los orígenes
• Extraction: extraer la data de origenes dispares, transformarlo en un formato ue se
pueda usar para el análisis (parsing)
• Validation: LIMPIAR la data, aplicar reglas de validación, remover datos inválidos o
hacer imputaciones
• Aggregation: Join entre datasets, sumarizarlos
• Analysis: (Confirmatorio o Exploratorio), por medio del cual se ENTRENA, EVALUA y
OPTIMIZA un modelo aplicable al caso estudiado.
• Visualization: técnicas para comunicar los resultados para efectiva interpretación
del usuario objetivo
8
• Utilization: Encapsular en modelos o productos o bien usar los resutlados del
análisispara optimizar desempeño del negocio, desempeño de los procesos,
alertas para informar a los usuarios.
OTROS TÉRMINOS
• DataMunging/DataWrangling (extraction, cleansing, filter, desde datos raw hacia
otros que tengan más sentido para el procesamiento)
8
BUSINESS JUSTIFICATION
• Tener un roadmap
• Ver el impacto y la necesidad según el negocio; no para todos aplica
• Identificar los insumos de datos
• Saber o calcular cuánto cuesta el cambio;
• un piloto inicial
• recursos entrenados
• La metodología es distinta
• Data Procurement (Buscar/Adquirir/Comprar datasets)
• Data Provenance: Acorde a la fuente, confiablidad del dataset
• Data Privacy: Confidencialidad de datos / Unión de variso datasets
9
10

Más contenido relacionado

Similar a BigData 101 / Cursillo (Parte1)

INTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptxINTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptxAngelDiaz139823
 
Presentación Analytics Expo mkt 2014 big data great power
Presentación Analytics Expo mkt 2014   big data great powerPresentación Analytics Expo mkt 2014   big data great power
Presentación Analytics Expo mkt 2014 big data great powerBUSINESS ANALYTICS SAC
 
With Big Data comes Great Power
With Big Data comes Great PowerWith Big Data comes Great Power
With Big Data comes Great PowerMarco Casalino
 
Evaluación de las necesidades del marketing
Evaluación de las necesidades del marketingEvaluación de las necesidades del marketing
Evaluación de las necesidades del marketingTessie Alejo
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer CentricKEEDIO
 
Seminario De BI
Seminario De BISeminario De BI
Seminario De BIgrupomitk
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analyticsamdia
 
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015eCommerce Institute
 
Deber Tecnologias Informacion
Deber Tecnologias InformacionDeber Tecnologias Informacion
Deber Tecnologias Informacionguestf15e9ecc
 
Conferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retailConferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retailBUSINESS ANALYTICS SAC
 

Similar a BigData 101 / Cursillo (Parte1) (20)

Data Mining
Data Mining Data Mining
Data Mining
 
INTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptxINTELIGENCIA DE NEGOCIOS.pptx
INTELIGENCIA DE NEGOCIOS.pptx
 
Presentación Analytics Expo mkt 2014 big data great power
Presentación Analytics Expo mkt 2014   big data great powerPresentación Analytics Expo mkt 2014   big data great power
Presentación Analytics Expo mkt 2014 big data great power
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
With Big Data comes Great Power
With Big Data comes Great PowerWith Big Data comes Great Power
With Big Data comes Great Power
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Tema 2 (anexo 03).- MINERIA DATOS.pdf
Tema 2 (anexo 03).- MINERIA DATOS.pdfTema 2 (anexo 03).- MINERIA DATOS.pdf
Tema 2 (anexo 03).- MINERIA DATOS.pdf
 
Evaluación de las necesidades del marketing
Evaluación de las necesidades del marketingEvaluación de las necesidades del marketing
Evaluación de las necesidades del marketing
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric2016 ULL Cabildo KEEDIO - Customer Centric
2016 ULL Cabildo KEEDIO - Customer Centric
 
Unidad 1. componentes del sistema
Unidad 1. componentes del sistemaUnidad 1. componentes del sistema
Unidad 1. componentes del sistema
 
Marketing base de_datos
Marketing base de_datosMarketing base de_datos
Marketing base de_datos
 
Introducción a la Minería de Datos (1).pdf
Introducción a la Minería de Datos (1).pdfIntroducción a la Minería de Datos (1).pdf
Introducción a la Minería de Datos (1).pdf
 
Marketing y Big Data - GerenciArte
Marketing y Big Data - GerenciArteMarketing y Big Data - GerenciArte
Marketing y Big Data - GerenciArte
 
Seminario De BI
Seminario De BISeminario De BI
Seminario De BI
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analytics
 
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
Presentación de Isabel Rodriguez - eCommerce Day Montevideo 2015
 
Intro
IntroIntro
Intro
 
Deber Tecnologias Informacion
Deber Tecnologias InformacionDeber Tecnologias Informacion
Deber Tecnologias Informacion
 
Conferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retailConferencia en la Universidad del Pacífico: Big data en retail
Conferencia en la Universidad del Pacífico: Big data en retail
 

Más de andres hurtado

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_courseraandres hurtado
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aiandres hurtado
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoandres hurtado
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystemsandres hurtado
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)andres hurtado
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introductionandres hurtado
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06andres hurtado
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05andres hurtado
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04andres hurtado
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02andres hurtado
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01andres hurtado
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agendaandres hurtado
 
Personal Software Process / Sesion 03
Personal Software Process / Sesion 03Personal Software Process / Sesion 03
Personal Software Process / Sesion 03andres hurtado
 

Más de andres hurtado (17)

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_coursera
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware ai
 
estimacion
estimacionestimacion
estimacion
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologico
 
Docker 101
Docker 101Docker 101
Docker 101
 
DevOps 101
DevOps 101DevOps 101
DevOps 101
 
Git 101
Git 101Git 101
Git 101
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystems
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agenda
 
Personal Software Process / Sesion 03
Personal Software Process / Sesion 03Personal Software Process / Sesion 03
Personal Software Process / Sesion 03
 

Último

HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...Kevin Serna
 
3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respetocdraco
 
Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.sofiasonder
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareAndres Avila
 
¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf7adelosriosarangojua
 
herramientas informaticas mas utilizadas
herramientas informaticas mas utilizadasherramientas informaticas mas utilizadas
herramientas informaticas mas utilizadaspqeilyn0827
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfcj3806354
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestrerafaelsalazar0615
 
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Luis Fernando Uribe Villamil
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfjjfch3110
 
Herramientas informáticas. Sara Torres R.
Herramientas informáticas. Sara Torres R.Herramientas informáticas. Sara Torres R.
Herramientas informáticas. Sara Torres R.saravalentinat22
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfAlejandraCasallas7
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesPABLOCESARGARZONBENI
 
3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docx
3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docx3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docx
3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docxwerito139410
 
Inteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfInteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfEmilio Casbas
 
HIGADO Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
HIGADO  Y TRAUMA HEPATICO UDABOL 2024 (3).pdfHIGADO  Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
HIGADO Y TRAUMA HEPATICO UDABOL 2024 (3).pdfIsabelHuairaGarma
 
Posnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativaPosnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativaFernando Villares
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxLeidyfuentes19
 

Último (20)

HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
 
3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto
 
Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.Estudio de la geometría analitica. Pptx.
Estudio de la geometría analitica. Pptx.
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de Software
 
¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf
 
herramientas informaticas mas utilizadas
herramientas informaticas mas utilizadasherramientas informaticas mas utilizadas
herramientas informaticas mas utilizadas
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
 
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
Herramientas informáticas. Sara Torres R.
Herramientas informáticas. Sara Torres R.Herramientas informáticas. Sara Torres R.
Herramientas informáticas. Sara Torres R.
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
 
3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docx
3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docx3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docx
3°ð_¦_â_¾ï¸_S34 PLAN DARUKEL DIDÃ_CTICA 23-24.docx
 
Inteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfInteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdf
 
HIGADO Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
HIGADO  Y TRAUMA HEPATICO UDABOL 2024 (3).pdfHIGADO  Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
HIGADO Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
 
Posnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativaPosnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativa
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
 

BigData 101 / Cursillo (Parte1)

  • 1. 1
  • 2. QUÉ ES BIGDATA - Dedicado al análisis, procesamiento, y storage de largaas colecciones de datos LAS 5 V’s - VOLUME: scale of data / data at rest (gran numero de folas o bien, gran numero de atributos) - VARIETY: different forms of data / data in many forms (structured, semi- structured, unstructured): algunas veces se requiere un preprocesameinto para extraer un vector de características. Cuidadosamente se debe remover el ruido. - VELOCITY: analysis of streamming data / data in motion (algunas veces no se pueden acumular datos para el procesameinto) - VERACITY: uncertainty of data / data in doubt - VALUE: - >> Tomado de http://www.ibmbigdatahub.com/infographic/four-vs-big-data 2
  • 3. Conceptos OLAP OLTP DataMart DataWarehouse Drilldown / Rollup / Cubo Schema on Write vs schema on Read Enfoque BigData - Otros tipos de orígenes - Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas - No-estructurados: audio, documentos 3
  • 4. Enfoque BigData - Otros tipos de orígenes - Semiestructurados: estructuras json, tramas de ancho fijo, delimitadas - No-estructurados: audio, documentos - Schema on Write vs schema on Read - DataLake 4
  • 5. TIPOS DE ANALYTICS • Descriptiva: Preguntas sobre eventos que ya ocurrieron, ´via ad-hoc reporting/dashboards (cuánto se vendió los últimos 12 meses) • Diagnóstico: Determinar la causa o razón detrás de un evento: Por qué se originaron más reclamos de sooprte en la región Este que en la Oeste; v+ia visualizaciones, con estructuras ue soporten drilldown/rollup) • Predictiva: Predecir la llegada de un evento basado en patrones o tendencias fundadas en datos históricos y actuales (si un cliente compró queso y huevos, cuál es la probabilidad de que lleve pan?; qué oportunidad hay que un cliente no pague la deuda dado que la primera cuota no la ha pagado.) • Prescriptiva: Recomendar accionesa tomar dados los resultados predictivos y por qué hay que seguirlas para tener mayor ventaja o mitigar riesgos (ej: cuándo es la mejor fecha para tranzar con determinada acción/stock). 5
  • 6. EJEMPLO1: TARGET Un Hombre muy enojado acude a una tienda de Target a las afueras de Minneapolis, solicitando hablar con el Gerente, diciendo: “Mi hija recibió este mail” dice el hombre, “Ella aún esta en secundaria, y ustedes le están enviando cupones para descuentos en Ropa de Bebé y Cunas?, están tratando de animarla a quedar embarazada?” El gerente dice no tener idea de lo que el hombre le informa. Miró el mail publicitario y efectivamente, estaba dirigida a la hija del hombre y contenía la publicidad de ropa de maternidad, cunas y fotografías de bebés sonriendo. El gerente se disculpa y luego le llamó unos días más tarde para disculparse de nuevo. Por teléfono el padre suena un tanto desconcertado, responde el padre: “Tuve un charla con mi hija y resulta que existieron sucesos en mi hogar de los cuales no estaba completamente enterado, el bebe nacería en agosto, te debo una disculpa”. Target es una tienda de retail muy popular en U.S. y han entendido muy bien el comportamiento de compra de sus clientes, asignándoles un ID único a cada cliente, asociado a sus tarjetas de crédito, para analizar todos los datos de compra a lo largo del tiempo, y luego, generar cupones de descuento sugiriendo productos que al 6
  • 7. cliente le parezcan coincidentemente muy familiar. No sería coincidencia que Target enviara un cupón de descuentos en lociones de cabello, justo en el tiempo que acostumbra agotarse en el hogar. Se dieron cuenta que ciertos comportamientos de mujeres en su primer trimestre de embarazo era repetitivo, construyendo un algoritmo que fuera capaz de predecir el comportamiento de compra de mujeres en estado de embarazo: “Una chica que compra loción de crema de cacao, suplementos de zinc o magnesio, bolsos gigantes como para funcionar como bolsa de pañales, tendría un 87% de probabilidades de que esté embarazada según la tienda Target.” REF: https://www.linkedin.com/pulse/esto-es-otra-historia-aburrida-de-big-data- caso-target-morales REF: http://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html 6
  • 8. EJEMPLO 2: MONEYBALL un equipo de a liga americana de baseball, tiene bajo presupuesto y se trata de usar un conjunto de tecnicas estadisticas para indicar un score de jugadores deescartados por os ojeadores de otros equipos pero que en realidad tenían buenos datos. Ahora es un campo que cada vez despierta el interés de las ligas (SABERMETRICS) REF: http://eldedoeneldato.blogspot.com.co/2012/02/analisis-de-moneyball- rompiendo-las.html 7
  • 9. CICLO • BusinessCase: plantear la necesidad de negocio, la pregunta del negocio, la motivación y las metas • Identification: Identificar las necesidades/sources de información, (internos, externos) • Aquisition: RECOLECTAR la data necesaria para el procesamiento (ej: consumir API’s), filtrar los datos que no hacen parte del objetivo del análisis. Guardar siempre copias verbatim. Agregar metadata a los orígenes • Extraction: extraer la data de origenes dispares, transformarlo en un formato ue se pueda usar para el análisis (parsing) • Validation: LIMPIAR la data, aplicar reglas de validación, remover datos inválidos o hacer imputaciones • Aggregation: Join entre datasets, sumarizarlos • Analysis: (Confirmatorio o Exploratorio), por medio del cual se ENTRENA, EVALUA y OPTIMIZA un modelo aplicable al caso estudiado. • Visualization: técnicas para comunicar los resultados para efectiva interpretación del usuario objetivo 8
  • 10. • Utilization: Encapsular en modelos o productos o bien usar los resutlados del análisispara optimizar desempeño del negocio, desempeño de los procesos, alertas para informar a los usuarios. OTROS TÉRMINOS • DataMunging/DataWrangling (extraction, cleansing, filter, desde datos raw hacia otros que tengan más sentido para el procesamiento) 8
  • 11. BUSINESS JUSTIFICATION • Tener un roadmap • Ver el impacto y la necesidad según el negocio; no para todos aplica • Identificar los insumos de datos • Saber o calcular cuánto cuesta el cambio; • un piloto inicial • recursos entrenados • La metodología es distinta • Data Procurement (Buscar/Adquirir/Comprar datasets) • Data Provenance: Acorde a la fuente, confiablidad del dataset • Data Privacy: Confidencialidad de datos / Unión de variso datasets 9
  • 12. 10