SlideShare una empresa de Scribd logo
1 de 48
INTRODUCCIÓN A LAS MÉTRICAS 
CLASE: Nuevas Tendencias en el Uso de Métricas – Big 
Data Aplicado el Negocio 
Profesor: 
Jorge Pérez Colín 
www.isdi.es 1
Jorge Pérez Colín 
Value Sight 
Diseño y Arte por 
Computadora 
Emprendedor 
Academia Profesional 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Mi primera aproximación analítica al churn 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
3 
El Financiero Excelsior El Sol de Puebla 
Churn 0.07 0.1 0.1 
Participación 
15 25 60 
inicial (P0) 
Paticipación 
final (P48) 
42 17 41 
Supuestos: 
1. El número de suscriptores es constante 
2. Las suscripciones perdidas por un periódico son absorbidas por los 
otros dos en proporción a su participación de mercado
Apliquemos analítica al negocio de las suscripciones 
¿Qué más les gustaría saber para incrementar el índice de renovaciones? 
¿Cómo sacarían esa información? 
¿Qué harían con lo descubierto? 
¿Es replicable esta experiencia al mundo de Internet? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
4
Big Data: Volumen, Variedad y Velocidad 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Capturistas 
Usuarios 
Máquinas 
5 
Social Media 
Internet of Things
Big Data no tiene sentido sin analytics 
Big Data entendido como la posibilidad de 
contar con grandes volúmenes de información 
brinda la posibilidad de descubrir patrones que 
pueden ser aprovechados en beneficio del 
negocio. 
Una abundancia de información genera una 
escasez de atención o de enfoque o, 
simplemente, saber por dónde empezar. 
CRISP-DM es una de las metodologías más 
utilizadas en minería de datos pero sobre todo 
en business analytics para usar eficientemente 
esta nuevo activo (Big Data). 
Competing on Analytics 
Big Data Era 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
6 
Gap Analítico 
Datos 
Disponibles 
Capacidad 
de Ejecución 
Gap de 
Ejecución 
Capacidad 
de Análisis 
2020 
1980 1990 2000 2010
Antes de Big Data es Busines Analytics 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
7
Objetivo y temas a tratar 
Esta sesión tiene como objetivo explicar a grandes rasgos lo que la analítica predictiva, 
desde el punto de vista de Big Data Analytics es, pero sobre conocer cómo afrontar el 
reto analítico a través del uso de la metodología Cross Industry Standard Process for 
Data Mining (CRISP-DM) en el contexto de Big Data. 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Temas: 
Diferencia entre Business Intelligence y Business Analytics 
Cross Industry Standard Process for Data Mining (CRISP-DM) en sus seis fases 
Nota aclaratoria de la sesión: 
El tema Big Data Analytics toca al margen los negocios en Internet, materia de esta 
maestría, pero presenta una serie de herramentales que serán cada vez más útiles para ellos. 
8
Diferencia entre Business Intelligence y Business Analytics 
Business Analytics (y es el sentido 
que le damos aquí a Big Data 
Analytics) se refiere a las habilidades, 
tecnologías y prácticas para la 
exploración e investigación del 
desempeño pasado de la empresa 
para ganar conocimiento y conducir la 
planeación y ejecución del negocio. 
BA se enfoca en desarrollar nuevos 
aprendizajes y entendimiento del 
negocio basado en los datos, métodos 
estadísticos y de optimización. 
En contraste, Business Intelligence 
tradicionalmente se enfoca en usar un 
conjunto consistente de métricas 
para al mismo tiempo medir el 
desempeño pasado y guiar la 
planeación del negocio. 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
9 
Business 
Intelligence
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
BI 
Software: 
Business Objects (SAP), Hypheron 
(Oracle), Cognos (IBM), Qlickview 
(Qliktech), MicroStrategy, Tibco, Tableau 
Software/hardware (appliances—good for Big 
Data) 
Netezza (IBM) 
Greenplum (EMC) 
DataAllegro (Microsoft) 
Teradata 
BI en la nube (for Big Data Too) 
AWS (Amazon) 
Pivotal (EMC+Vmware) 
BA 
Estadística 
SPSS Modeler (IBM) 
SAS 
R (software libre) 
Optimización 
AIMSS (Paragon) 
Lingo 
Mathematica (Wolfram) 
… (hasta Excel) 
Software de BI y de BA 
10
Cross Industry Standard Process for Data Mining (CRISP-DM) 
Concebido en1996: 
•DaimlerChrysler 
•SPSS 
•NCR 
En ese tiempo empieza el auge por la 
minería de datos, Un modelo de proceso 
estándar para cualquier industria, no 
propietario y gratuito, cumpliría con el 
propósito. 
Un año después se crea un consorcio para 
desarrollar este proceso estándar quien en 
2 años y medio se dedicaron a desarrollar 
y refinar lo que hoy en día es el CRISP-DM. 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
11
Antes de entender los datos debemos de entender el negocio 
ENTENDIMIENTO DEL NEGOCIO 
¿Para quién producimos valor? 
¿Cuál es nuestra propuesta de valor? 
¿Cómo la entregamos? 
¿Cómo la creamos? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
12
Si no sabes cuál es la pregunta no tiene caso preocuparte por el Big Data 
No sé cuál es la pregunta 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
13
Antes de la respuesta necesitamos la pregunta 
No poner el caballo detrás de la 
carreta 
¿Cuál es la pregunta de negocio? 
Las preguntas de negocio se sintetizan en una 
sola: ¿cómo lograr ventaja competitiva? 
Se pueden categorizar en rentabilidad cliente 
(RC), rentabilidad de recursos (RR) y rentabilidad 
de oferta (RO). Ejemplos: 
¿Cómo seleccionar y atraer a los clientes más 
rentables? (RC) 
¿Cómo incrementar el índice de cierre de mi fuerza de 
ventas? (RR) 
¿Cómo seleccionar puntos de venta más rentables? 
(RR) 
¿Cómo seleccionar productos/servicios que 
maximicen la rentabilidad? (RO) 
¿Cómo fijar precios para mi portafolio de 
productos/servicios? (RO) 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
14
Lienzo de Osterwalder: Una herramienta para entender el negocio 
El lienzo (canvas) del modelo de 
negocio de Osterwalder es una 
plantilla de gestión estratégica para 
desarrollar o documentar modelos de 
negocio. 
Es un apoyo visual con elementos 
que describen la propuesta de valor 
de la empresa, los clientes, las 
operaciones y las finanzas. 
Esta herramienta ayuda a las 
organizaciones a alinear sus 
recursos, actividades y gente 
ilustrando potenciales desventajas. 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
15
Modelo de Negocio Modelo de Negocio de… 
Propuesta de valor 
Aliados clave Actividades clave Relaciones con el 
cliente 
Segmentos de 
clientes 
Recursos clave Canales 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Estructura de 
costos 
Fuentes de ingreso 
Business Model Canvas de Alexander Osterwalder 
16
¿Cuáles son los dos KPIs en los que debes superar a tu competencia? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Telecom 
ARPU 
Churn 
Banca al menudeo 
Cross Sale 
Attrition 
¿Cuáles son los dos KPIs de tu industria? 17
Generación de hipótesis 
No existe tal cosa como el discovery puro... 
El KPI dispara las preguntas (por qué, por qué, por qué), 
la hipótesis establece una respuesta a contrastar. 
Documentación de hipótesis 
¿Quién la emite? 
¿Cómo se priorizan? 
¿Qué datos necesitamos para contrastarlas? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Ejercicio 
¿Qué hace que se vendan más cafés en un punto de venta que en otro?
ETENDIMIENTO DE LOS DATOS 
¿Existen los datos? 
¿Dónde están? 
¿Necesito más datos? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Sé cuál es la pregunta 
Sé la pregunta, 
pero no sé que datos necesito para contestarla 
Sé que datos necesito, 
pero no sé donde encontrarlos 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
21
Tipos y fuentes de datos 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
22 
No 
estructurado 
Investigación cuantitativa 
Investigación cualitativa 
Infraestructura 
Fotografías 
Grabaciones 
Media 
Social media 
Estructurado 
ERP/xRM/eCommerce 
Service Desk 
WMS/TMS 
INEGI 
Sistema Meteorológico Nacional 
Cámaras y Asociaciones 
Interno Externo
Ejemplo de fuentes de información para un modelo de localización predictiva 
Punto de 
Venta 
Contexto 
Infraestructura 
Encuestas de 
satisfacción 
¡Más de 4,500 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
23 
variables!
Punto de 
Venta 
Contexto 
Infraestructura 
Encuestas de 
satisfacción 
Foursquare 
¡Posibilidad de hacer 
sentimental analysis! 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Con nueva fuente 
24
PREPARACIÓN DE LOS 
DATOS 
¿Cómo obtengo los datos? 
¿Me sirven así? 
¿Dónde depositarlos? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Business Intelligence me permite saber qué pasa pero no necesariamente por qué 
Business Intelligence Tradicionalmente un 
sistema de business 
intelligence se diseña 
de arriba a hacia 
abajo 
Defino que quiero 
saber, extraigo el 
dato, hago el cálculo 
lo cargo en un 
receptorio 
Reportes 
Tableros de 
Control 
Business Dataware House (BDW) 
Servidor de 
Reportes 
Alertas 
ETL ETL ETL ETL ETL 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
26 
ERP CRM HRM SCM Otros
Un Business Dataware House puede ser útil pero no indispensable 
Modelado con SPPS, SAS, R,… 
Archivo plano 
Queries 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
27 
Business Analytics En un mundo ideal, la 
organización cuenta con 
un BDW en el cual existen 
los datos necesarios para 
responder la pregunta de 
negocios. 
Pocas veces sucede y si 
existe no hay el tiempo de 
respuesta requerido 
(síndrome del dueño del 
kínder). 
Los ETL son ejecutados 
manualmente a partir de 
extracciones a modo. 
ERP CRM HRM SCM Otros
Bases de datos en Big Data 
El Big Data empezó a estresar el desempeño en empresas como Google y Amazon 
haciéndoles evidente que las bases de datos relacionales (SQL) no satisfacían sus 
necesidades. Necesitaban mejor desempeño para atender miles de peticiones sobre 
una cantidad de datos inmensa, compleja, creciente y distribuida entre miles (millones) 
de servidores. 
Necesitaban entonces una nueva concepción de bases de datos, esto es, bases de 
datos no relacionales (NoSQL), y un nueva arquitectura (Hadhoop) para procesar 
eficientemente la información distribuida. 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
28 
Bases de datos relacionales Bases de datos no relacionales 
SQL Server, MySQL, Oracle… MongoDB, CouchDB, BigTable…
A9.com, AOL, Booz Allen Hamilton, 
Eharmony, eBay, Facebook, Fox 
Interactive Media, Freebase, IBM, 
ImageShack, ISI, Joost, Last.fm, 
LinkedIn, Meebo, Metaweb, Mitula15, 
The New York Times, Ning, 
Rackspace, StumbleUpon16, Tuenti, 
Twitter, Veoh, Zoosk, 1&1, 
Mercadolibre 
¿Necesito Hadhoop? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
29
MODELACIÓN 
¿Qué técnicas de análisis 
existen? 
¿Cuáles usar? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
30
Sé cuál es la pregunta 
Sé que datos necesito para contestarla 
Sé donde encontrarlos 
Sé dónde encontrarlos, 
pero no sé como procesarlos 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
31
Técnicas de análisis predictivo 
Técnicas de regresión Regresión lineal 
Series de tiempo 
Análisis de 
superviviencia 
Modelos elección 
discreta 
Logit 
Probit 
Árboles 
de 
decisión 
Machine learning Redes neuronales 
Modelación 
geoespacial 
Naïve 
Bayes 
k-nearest neighbours 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
32
Aplicación de modelación predictiva en gestión de clientes 
¿Qué clientes me conviene retener? 
¿Cuál es el ciclo de vida de un cliente y cómo podemos ampliar su duración/valor? 
¿Qué clientes están por irse y cómo los retengo? 
¿Por qué han comprado y cómo lo han hecho? 
¿Qué comprarán después? 
¿Qué clientes son susceptibles de comprar más 
productos? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
33
Por su volumen de facturación 
(agrupación tradicional) 
• Poco o ningún entendimiento de motivos 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
consumo. 
• No permite descubrir ciclos de vida 
• Acciones comerciales similares para 
clientes distintos y planteadas en 
escenario 
Por su comportamiento histórico (base 
para análisis predictivo) 
• Patrones de consumo claramente 
identificados y segmentados 
• Potencial de los clientes medido en 
función de su segmento, no del total 
• Ciclos de vida son evidentes por segmento 
• Acciones individualizadas y proactivas en 
función de modelos predictivos 
Descriptiva Vs Predictiva 
34
Objetivo y los modelos de segmentación 
Campañas iguales a clientes 
parecidos 
Predicción certera de: 
• Up-sale 
• Cross-sale 
• Churn 
• Default 
Cada grupo de clientes tiene que ser significativamente 
distinto que los otros 
Cada cliente dentro de un grupo debe ser significativamente 
similar con los otros miembros del grupo 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
de clientes 
35
EVALUACIÓN 
¿Tiene sentido lo que he 
encontrado? 
¿Es aplicable? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
36
Sé cuál es la pregunta 
Sé que datos necesito para contestarla 
Sé donde encontrarlos 
Sé como procesarlos 
¿Tengo la respuesta adecuada? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
37
Evaluación del modelo 
No es indispensable esperar 
eventos futuros para determinar la 
precisión de nuestros modelos. 
El procedimiento cruzado nos 
permite validar con los mismos 
datos que tenemos ahora. 
Estimación Prueba 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
38 
Datos 
(y1, x1),…(yn, xn) 
Datos 
entrenamiento. 
Todos los datos 
salvo (yk, xk)) 
Datos de prueba 
(yk, xk)) 
Predicción 
Repetir para cada k
Contrastación del modelo con la realidad 
R2=0.92 Modelo estadístico de pronóstico 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
39 
900 
800 
700 
600 
500 
400 
300 
200 
100 
0 
0 100 200 300 400 500 600 700 800 900 
Venta mensual Real 
Mínimo de ventas 
deseado 
Venta pronosticada dada la ubicación (venta mensual promedio)
No sólo debe ser preciso, debe tener sentido económico (de negocio) 
“La producción pesquera explica muy bien 
la venta de cerveza” 
“Pon la próxima cafetería al lado de una 
agencia Bentley” 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
40
DESPLIEGUE 
¿Cómo sacar valor de lo aprendido? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
41
Sé cuál es la pregunta 
Sé que datos necesito para contestarla 
Sé donde encontrarlos 
Sé como procesarlos 
Tengo la respuesta adecuada 
¿Cómo sacarle provecho 
a lo aprendido? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
42
Plan de despliegue 
¿Qué procesos de negocio 
serán modificados/implantados? 
¿Qué reglas de negocio serán 
alteradas o introducidas? 
¿En qué tecnologías será 
desplegado? 
¿Qué nuevas habilidades serán 
necesarias? 
¿Cómo manejar el cambio? 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
43 
Procesos 
Tecnología 
Gente
Herramienta tecnológica de soporte a compra de calzado 
Sistema de soporte 
predictivo para la compra 
(SSPC) 
• Predice el comportamiento de 
un producto a partir de sus 
características 
• Facilita la labor de recompra 
luego de las dos primeras 
semanas de venta 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
44
Modificación en el proceso de decisión inmobiliaria 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Presentación 
de ubicación 
disponible 
Definición de 
infraestructura 
Visita a campo 
y estimación 
de venta 
Caso de 
negocio a 
considerar 
45 
Búsqueda 
proactiva 
en AGEBs 
con mayor 
potencial 
Estimación 
de venta 
preliminar 
Estimación 
de venta 
final con 
certeza de 
entre el 94 
y el 96% 
Proceso 
anterior 
Modificaciones 
al proceso 
Mejora del hit rate (número de tiendas arriba del objetivo) pasó del 62% al 79%
El perfil ideal de demostradoras de alcohol 
De 27 a 29 años con 
baja antigüedad 
Salario: 6,619 
Bono: 1,388 
Estado civil: 69% soltera 
Grado de estudios: 63% 
con educación básica 
N: 41 - 21% 
Salario: 6,364 con hijos 
Bono: 1,327 
Estado civil: 95% soltera 
Grado de estudios: 73.6% 
con educación-media 
N: 59 - 30% 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
46 
De 23 a 25 años con 
baja antigüedad sin 
hijos 
De 31 a 33 años con 
muy alta 
antigüedad con 
hijos 
Venta adicional al esperado por grupo de demostradora 
Salario: 7,148 
Bono: 1,376 
Estado civil: 66% soltera 
Grado de estudios: 50% con 
educación media y 38% 
educación básica 
N: 28 - 15% 
Salario: 6,354 
Bono: 1,353 
Estado civil: 61% casada 
Grado de estudios: 64% 
con educación-media 
N: 66 - 34% 
$14,643 
$6,265 
De 28 a 30 años con 
alta antigüedad sin 
hijos
900 
800 
700 
600 
500 
400 
300 
200 
100 
Modelo estadístico de pronóstico 
Bien ubicadas, 
mal desempeño 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
Qué se hizó con 
47 
0 
0 100 200 300 400 500 600 700 800 900 
Venta mensual real 
R2=0.92 
Mala ubicación y 
mal desempeño 
Los esfuerzos 
de apoyo no 
eran rentables 
Se aplicaron 
prácticas que 
se pueden 
replicar 
Venta pronosticada dada la ubicación (venta mensual promedio) 
Mínimo de ventas 
deseado
Big Data Analytics 
La velocidad, variedad y volumen en la que hoy se genera la información puede generar 
un reto abrumador para las empresas que deseen enriquecer su toma de decisiones y 
mejorar sus procesos a través de la analítica predictiva. 
En esta sesión estudiamos como es posible afrontar exitosamente ese reto a través de 
la aplicación de una metodología consistente de minería de datos (CRISP-DM), en la 
que la pregunta de negocio guía nuestros esfuerzos y la aplicabilidad de los mismos 
garantiza la eficiencia. 
jperezcolin@bdatascience.com 
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 
48

Más contenido relacionado

La actualidad más candente

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
Ana Delgado
 
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseConstrucción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Julio Pari
 

La actualidad más candente (20)

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han &amp; Kamber
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han &amp; KamberChapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han &amp; Kamber
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han &amp; Kamber
 
Data Warehouse 101
Data Warehouse 101Data Warehouse 101
Data Warehouse 101
 
Data lake ppt
Data lake pptData lake ppt
Data lake ppt
 
Inteligencia de negocios - Business Intelligence
Inteligencia de negocios - Business IntelligenceInteligencia de negocios - Business Intelligence
Inteligencia de negocios - Business Intelligence
 
Diapositivas olap
Diapositivas olapDiapositivas olap
Diapositivas olap
 
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseConstrucción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
 
Exposicion Business Intelligence
Exposicion Business IntelligenceExposicion Business Intelligence
Exposicion Business Intelligence
 
Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
ETL
ETLETL
ETL
 
Future of Data Engineering
Future of Data EngineeringFuture of Data Engineering
Future of Data Engineering
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Big data Presentation
Big data PresentationBig data Presentation
Big data Presentation
 
Data science Big Data
Data science Big DataData science Big Data
Data science Big Data
 
Big Data
Big DataBig Data
Big Data
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
Business intelligence and big data
Business intelligence and big dataBusiness intelligence and big data
Business intelligence and big data
 

Destacado

Marco del buen desempeño docente
Marco del buen desempeño docenteMarco del buen desempeño docente
Marco del buen desempeño docente
0013
 
JULIOPARI - Elaborando un Plan de Negocios
JULIOPARI - Elaborando un Plan de NegociosJULIOPARI - Elaborando un Plan de Negocios
JULIOPARI - Elaborando un Plan de Negocios
Julio Pari
 
Contabilidad de costos para la gestión
Contabilidad de costos para la gestiónContabilidad de costos para la gestión
Contabilidad de costos para la gestión
SimonC
 

Destacado (20)

Marco del buen desempeño docente
Marco del buen desempeño docenteMarco del buen desempeño docente
Marco del buen desempeño docente
 
Geheugen verbeteren
Geheugen verbeterenGeheugen verbeteren
Geheugen verbeteren
 
JULIOPARI - Elaborando un Plan de Negocios
JULIOPARI - Elaborando un Plan de NegociosJULIOPARI - Elaborando un Plan de Negocios
JULIOPARI - Elaborando un Plan de Negocios
 
Onderzoeksrapport acrs v3.0_definitief
Onderzoeksrapport acrs v3.0_definitiefOnderzoeksrapport acrs v3.0_definitief
Onderzoeksrapport acrs v3.0_definitief
 
Como hacer un plan de negocios
Como hacer un plan de negociosComo hacer un plan de negocios
Como hacer un plan de negocios
 
Schrijven voor het web
Schrijven voor het webSchrijven voor het web
Schrijven voor het web
 
Tears In The Rain
Tears In The RainTears In The Rain
Tears In The Rain
 
Evidence: Describing my kitchen. ENGLISH DOT WORKS 2. SENA.
Evidence: Describing my kitchen. ENGLISH DOT WORKS 2. SENA.Evidence: Describing my kitchen. ENGLISH DOT WORKS 2. SENA.
Evidence: Describing my kitchen. ENGLISH DOT WORKS 2. SENA.
 
Estrategias competitivas básicas
Estrategias competitivas básicasEstrategias competitivas básicas
Estrategias competitivas básicas
 
Cápsula 1. estudios de mercado
Cápsula 1. estudios de mercadoCápsula 1. estudios de mercado
Cápsula 1. estudios de mercado
 
Rodriguez alvarez
Rodriguez alvarezRodriguez alvarez
Rodriguez alvarez
 
2. describing cities and places. ENGLISH DOT WORKS 2. SENA. semana 4 acitivda...
2. describing cities and places. ENGLISH DOT WORKS 2. SENA. semana 4 acitivda...2. describing cities and places. ENGLISH DOT WORKS 2. SENA. semana 4 acitivda...
2. describing cities and places. ENGLISH DOT WORKS 2. SENA. semana 4 acitivda...
 
3.Evidence: Getting to Bogota.ENGLISH DOT WORKS 2. SENA.semana 4 actividad 3.
3.Evidence: Getting to Bogota.ENGLISH DOT WORKS 2. SENA.semana 4 actividad 3.3.Evidence: Getting to Bogota.ENGLISH DOT WORKS 2. SENA.semana 4 actividad 3.
3.Evidence: Getting to Bogota.ENGLISH DOT WORKS 2. SENA.semana 4 actividad 3.
 
Evidence: Going to the restaurant . ENGLISH DOT WORKS 2. SENA.
Evidence: Going to the restaurant . ENGLISH DOT WORKS 2. SENA.Evidence: Going to the restaurant . ENGLISH DOT WORKS 2. SENA.
Evidence: Going to the restaurant . ENGLISH DOT WORKS 2. SENA.
 
Evidence: I can’t believe it.ENGLISH DOT WORKS 2. semana 3 actividad 1.SENA.
Evidence: I can’t believe it.ENGLISH DOT WORKS 2. semana 3 actividad 1.SENA.Evidence: I can’t believe it.ENGLISH DOT WORKS 2. semana 3 actividad 1.SENA.
Evidence: I can’t believe it.ENGLISH DOT WORKS 2. semana 3 actividad 1.SENA.
 
Evidence: Memorable moments.ENGLISH DOT WORKS 2. SENA. semana 2 actividad 2.
Evidence: Memorable moments.ENGLISH DOT WORKS 2. SENA. semana 2 actividad 2.Evidence: Memorable moments.ENGLISH DOT WORKS 2. SENA. semana 2 actividad 2.
Evidence: Memorable moments.ENGLISH DOT WORKS 2. SENA. semana 2 actividad 2.
 
Evidence: Planning my trip. ENGLISH DOT WORKS 2. SENA. semana 4 actividad 1.
Evidence: Planning my trip. ENGLISH DOT WORKS 2. SENA. semana 4 actividad 1.Evidence: Planning my trip. ENGLISH DOT WORKS 2. SENA. semana 4 actividad 1.
Evidence: Planning my trip. ENGLISH DOT WORKS 2. SENA. semana 4 actividad 1.
 
Respaldodeinformacion 091102124010-phpapp02
Respaldodeinformacion 091102124010-phpapp02Respaldodeinformacion 091102124010-phpapp02
Respaldodeinformacion 091102124010-phpapp02
 
Contabilidad de costos para la gestión
Contabilidad de costos para la gestiónContabilidad de costos para la gestión
Contabilidad de costos para la gestión
 
Modulo7gestion
Modulo7gestionModulo7gestion
Modulo7gestion
 

Similar a Big data aplicado el negocio CRISP-DM

Que es BI ExpoTIC Maule 2009
Que es BI ExpoTIC Maule 2009Que es BI ExpoTIC Maule 2009
Que es BI ExpoTIC Maule 2009
Diego Arenas
 
Inteligencia de negocios 1
Inteligencia de negocios 1Inteligencia de negocios 1
Inteligencia de negocios 1
reyna mac mas
 
Bussiness Intelligent
Bussiness IntelligentBussiness Intelligent
Bussiness Intelligent
XleylaX
 
Sistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingSistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketing
Alberto Jimenez
 
Simplificando el uso de los datos para la era cognitiva - Daniel González
Simplificando el uso de los datos para la era cognitiva - Daniel GonzálezSimplificando el uso de los datos para la era cognitiva - Daniel González
Simplificando el uso de los datos para la era cognitiva - Daniel González
BusinessConnect2017
 

Similar a Big data aplicado el negocio CRISP-DM (20)

Hablemos de Big Data
Hablemos de Big DataHablemos de Big Data
Hablemos de Big Data
 
Big Data Analytics for Auditing
Big Data Analytics for AuditingBig Data Analytics for Auditing
Big Data Analytics for Auditing
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
Design Thinking y Agile para SOFOM
Design Thinking y Agile para SOFOMDesign Thinking y Agile para SOFOM
Design Thinking y Agile para SOFOM
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
 
Business intelligence diapositivas
Business intelligence diapositivasBusiness intelligence diapositivas
Business intelligence diapositivas
 
El uso de los sistemas de información para la toma de decisiones estratégicas
El uso de los sistemas de información para la toma de decisiones estratégicasEl uso de los sistemas de información para la toma de decisiones estratégicas
El uso de los sistemas de información para la toma de decisiones estratégicas
 
Business intelligence (BI)
Business intelligence (BI)Business intelligence (BI)
Business intelligence (BI)
 
Que es BI ExpoTIC Maule 2009
Que es BI ExpoTIC Maule 2009Que es BI ExpoTIC Maule 2009
Que es BI ExpoTIC Maule 2009
 
Business Intelligence.pptx
Business Intelligence.pptxBusiness Intelligence.pptx
Business Intelligence.pptx
 
Business Intelligence.pptx
Business Intelligence.pptxBusiness Intelligence.pptx
Business Intelligence.pptx
 
Business Intelligence.pdf
Business Intelligence.pdfBusiness Intelligence.pdf
Business Intelligence.pdf
 
Inteligencia de negocios 1
Inteligencia de negocios 1Inteligencia de negocios 1
Inteligencia de negocios 1
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Bussiness Intelligent
Bussiness IntelligentBussiness Intelligent
Bussiness Intelligent
 
Sistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketingSistemas de apoyo a las decisiones de marketing
Sistemas de apoyo a las decisiones de marketing
 
introduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negociosintroduccion aministracion industrial con inteligencia de negocios
introduccion aministracion industrial con inteligencia de negocios
 
Simplificando el uso de los datos para la era cognitiva - Daniel González
Simplificando el uso de los datos para la era cognitiva - Daniel GonzálezSimplificando el uso de los datos para la era cognitiva - Daniel González
Simplificando el uso de los datos para la era cognitiva - Daniel González
 
Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...
Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...
Aporte de los datos a la analítica en la transformación digital - (Mariano Mu...
 

Más de Business Data Scientists

Más de Business Data Scientists (11)

T shape skills
T shape skillsT shape skills
T shape skills
 
Taller Modelo de negocio
Taller Modelo de negocio Taller Modelo de negocio
Taller Modelo de negocio
 
Machine Learning tendencia en los mercados
Machine Learning tendencia en los mercadosMachine Learning tendencia en los mercados
Machine Learning tendencia en los mercados
 
Economía Nacional Retrovisión y Perspectivas a CP
Economía Nacional Retrovisión y Perspectivas a CPEconomía Nacional Retrovisión y Perspectivas a CP
Economía Nacional Retrovisión y Perspectivas a CP
 
Ley de Benford
Ley de BenfordLey de Benford
Ley de Benford
 
Predictive analytics- customer management
Predictive analytics- customer managementPredictive analytics- customer management
Predictive analytics- customer management
 
Sesión alto desempeño CATMAN 2012 CONMEXICO
Sesión alto desempeño CATMAN 2012 CONMEXICOSesión alto desempeño CATMAN 2012 CONMEXICO
Sesión alto desempeño CATMAN 2012 CONMEXICO
 
CIO Green IT 2011
CIO Green IT 2011CIO Green IT 2011
CIO Green IT 2011
 
Category management mexico 2011
Category management mexico 2011Category management mexico 2011
Category management mexico 2011
 
Alineación de conceptos CRM
Alineación de conceptos CRMAlineación de conceptos CRM
Alineación de conceptos CRM
 
TI commodity o estratégico
TI commodity o estratégicoTI commodity o estratégico
TI commodity o estratégico
 

Último

Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
klebersky23
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 

Último (20)

PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfSEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 

Big data aplicado el negocio CRISP-DM

  • 1. INTRODUCCIÓN A LAS MÉTRICAS CLASE: Nuevas Tendencias en el Uso de Métricas – Big Data Aplicado el Negocio Profesor: Jorge Pérez Colín www.isdi.es 1
  • 2. Jorge Pérez Colín Value Sight Diseño y Arte por Computadora Emprendedor Academia Profesional www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  • 3. Mi primera aproximación analítica al churn www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 3 El Financiero Excelsior El Sol de Puebla Churn 0.07 0.1 0.1 Participación 15 25 60 inicial (P0) Paticipación final (P48) 42 17 41 Supuestos: 1. El número de suscriptores es constante 2. Las suscripciones perdidas por un periódico son absorbidas por los otros dos en proporción a su participación de mercado
  • 4. Apliquemos analítica al negocio de las suscripciones ¿Qué más les gustaría saber para incrementar el índice de renovaciones? ¿Cómo sacarían esa información? ¿Qué harían con lo descubierto? ¿Es replicable esta experiencia al mundo de Internet? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 4
  • 5. Big Data: Volumen, Variedad y Velocidad www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Capturistas Usuarios Máquinas 5 Social Media Internet of Things
  • 6. Big Data no tiene sentido sin analytics Big Data entendido como la posibilidad de contar con grandes volúmenes de información brinda la posibilidad de descubrir patrones que pueden ser aprovechados en beneficio del negocio. Una abundancia de información genera una escasez de atención o de enfoque o, simplemente, saber por dónde empezar. CRISP-DM es una de las metodologías más utilizadas en minería de datos pero sobre todo en business analytics para usar eficientemente esta nuevo activo (Big Data). Competing on Analytics Big Data Era www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 6 Gap Analítico Datos Disponibles Capacidad de Ejecución Gap de Ejecución Capacidad de Análisis 2020 1980 1990 2000 2010
  • 7. Antes de Big Data es Busines Analytics www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 7
  • 8. Objetivo y temas a tratar Esta sesión tiene como objetivo explicar a grandes rasgos lo que la analítica predictiva, desde el punto de vista de Big Data Analytics es, pero sobre conocer cómo afrontar el reto analítico a través del uso de la metodología Cross Industry Standard Process for Data Mining (CRISP-DM) en el contexto de Big Data. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Temas: Diferencia entre Business Intelligence y Business Analytics Cross Industry Standard Process for Data Mining (CRISP-DM) en sus seis fases Nota aclaratoria de la sesión: El tema Big Data Analytics toca al margen los negocios en Internet, materia de esta maestría, pero presenta una serie de herramentales que serán cada vez más útiles para ellos. 8
  • 9. Diferencia entre Business Intelligence y Business Analytics Business Analytics (y es el sentido que le damos aquí a Big Data Analytics) se refiere a las habilidades, tecnologías y prácticas para la exploración e investigación del desempeño pasado de la empresa para ganar conocimiento y conducir la planeación y ejecución del negocio. BA se enfoca en desarrollar nuevos aprendizajes y entendimiento del negocio basado en los datos, métodos estadísticos y de optimización. En contraste, Business Intelligence tradicionalmente se enfoca en usar un conjunto consistente de métricas para al mismo tiempo medir el desempeño pasado y guiar la planeación del negocio. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 9 Business Intelligence
  • 10. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM BI Software: Business Objects (SAP), Hypheron (Oracle), Cognos (IBM), Qlickview (Qliktech), MicroStrategy, Tibco, Tableau Software/hardware (appliances—good for Big Data) Netezza (IBM) Greenplum (EMC) DataAllegro (Microsoft) Teradata BI en la nube (for Big Data Too) AWS (Amazon) Pivotal (EMC+Vmware) BA Estadística SPSS Modeler (IBM) SAS R (software libre) Optimización AIMSS (Paragon) Lingo Mathematica (Wolfram) … (hasta Excel) Software de BI y de BA 10
  • 11. Cross Industry Standard Process for Data Mining (CRISP-DM) Concebido en1996: •DaimlerChrysler •SPSS •NCR En ese tiempo empieza el auge por la minería de datos, Un modelo de proceso estándar para cualquier industria, no propietario y gratuito, cumpliría con el propósito. Un año después se crea un consorcio para desarrollar este proceso estándar quien en 2 años y medio se dedicaron a desarrollar y refinar lo que hoy en día es el CRISP-DM. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 11
  • 12. Antes de entender los datos debemos de entender el negocio ENTENDIMIENTO DEL NEGOCIO ¿Para quién producimos valor? ¿Cuál es nuestra propuesta de valor? ¿Cómo la entregamos? ¿Cómo la creamos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 12
  • 13. Si no sabes cuál es la pregunta no tiene caso preocuparte por el Big Data No sé cuál es la pregunta www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 13
  • 14. Antes de la respuesta necesitamos la pregunta No poner el caballo detrás de la carreta ¿Cuál es la pregunta de negocio? Las preguntas de negocio se sintetizan en una sola: ¿cómo lograr ventaja competitiva? Se pueden categorizar en rentabilidad cliente (RC), rentabilidad de recursos (RR) y rentabilidad de oferta (RO). Ejemplos: ¿Cómo seleccionar y atraer a los clientes más rentables? (RC) ¿Cómo incrementar el índice de cierre de mi fuerza de ventas? (RR) ¿Cómo seleccionar puntos de venta más rentables? (RR) ¿Cómo seleccionar productos/servicios que maximicen la rentabilidad? (RO) ¿Cómo fijar precios para mi portafolio de productos/servicios? (RO) www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 14
  • 15. Lienzo de Osterwalder: Una herramienta para entender el negocio El lienzo (canvas) del modelo de negocio de Osterwalder es una plantilla de gestión estratégica para desarrollar o documentar modelos de negocio. Es un apoyo visual con elementos que describen la propuesta de valor de la empresa, los clientes, las operaciones y las finanzas. Esta herramienta ayuda a las organizaciones a alinear sus recursos, actividades y gente ilustrando potenciales desventajas. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 15
  • 16. Modelo de Negocio Modelo de Negocio de… Propuesta de valor Aliados clave Actividades clave Relaciones con el cliente Segmentos de clientes Recursos clave Canales www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Estructura de costos Fuentes de ingreso Business Model Canvas de Alexander Osterwalder 16
  • 17. ¿Cuáles son los dos KPIs en los que debes superar a tu competencia? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Telecom ARPU Churn Banca al menudeo Cross Sale Attrition ¿Cuáles son los dos KPIs de tu industria? 17
  • 18. Generación de hipótesis No existe tal cosa como el discovery puro... El KPI dispara las preguntas (por qué, por qué, por qué), la hipótesis establece una respuesta a contrastar. Documentación de hipótesis ¿Quién la emite? ¿Cómo se priorizan? ¿Qué datos necesitamos para contrastarlas? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  • 19. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Ejercicio ¿Qué hace que se vendan más cafés en un punto de venta que en otro?
  • 20. ETENDIMIENTO DE LOS DATOS ¿Existen los datos? ¿Dónde están? ¿Necesito más datos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  • 21. Sé cuál es la pregunta Sé la pregunta, pero no sé que datos necesito para contestarla Sé que datos necesito, pero no sé donde encontrarlos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 21
  • 22. Tipos y fuentes de datos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 22 No estructurado Investigación cuantitativa Investigación cualitativa Infraestructura Fotografías Grabaciones Media Social media Estructurado ERP/xRM/eCommerce Service Desk WMS/TMS INEGI Sistema Meteorológico Nacional Cámaras y Asociaciones Interno Externo
  • 23. Ejemplo de fuentes de información para un modelo de localización predictiva Punto de Venta Contexto Infraestructura Encuestas de satisfacción ¡Más de 4,500 www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 23 variables!
  • 24. Punto de Venta Contexto Infraestructura Encuestas de satisfacción Foursquare ¡Posibilidad de hacer sentimental analysis! www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Con nueva fuente 24
  • 25. PREPARACIÓN DE LOS DATOS ¿Cómo obtengo los datos? ¿Me sirven así? ¿Dónde depositarlos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
  • 26. Business Intelligence me permite saber qué pasa pero no necesariamente por qué Business Intelligence Tradicionalmente un sistema de business intelligence se diseña de arriba a hacia abajo Defino que quiero saber, extraigo el dato, hago el cálculo lo cargo en un receptorio Reportes Tableros de Control Business Dataware House (BDW) Servidor de Reportes Alertas ETL ETL ETL ETL ETL www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 26 ERP CRM HRM SCM Otros
  • 27. Un Business Dataware House puede ser útil pero no indispensable Modelado con SPPS, SAS, R,… Archivo plano Queries www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 27 Business Analytics En un mundo ideal, la organización cuenta con un BDW en el cual existen los datos necesarios para responder la pregunta de negocios. Pocas veces sucede y si existe no hay el tiempo de respuesta requerido (síndrome del dueño del kínder). Los ETL son ejecutados manualmente a partir de extracciones a modo. ERP CRM HRM SCM Otros
  • 28. Bases de datos en Big Data El Big Data empezó a estresar el desempeño en empresas como Google y Amazon haciéndoles evidente que las bases de datos relacionales (SQL) no satisfacían sus necesidades. Necesitaban mejor desempeño para atender miles de peticiones sobre una cantidad de datos inmensa, compleja, creciente y distribuida entre miles (millones) de servidores. Necesitaban entonces una nueva concepción de bases de datos, esto es, bases de datos no relacionales (NoSQL), y un nueva arquitectura (Hadhoop) para procesar eficientemente la información distribuida. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 28 Bases de datos relacionales Bases de datos no relacionales SQL Server, MySQL, Oracle… MongoDB, CouchDB, BigTable…
  • 29. A9.com, AOL, Booz Allen Hamilton, Eharmony, eBay, Facebook, Fox Interactive Media, Freebase, IBM, ImageShack, ISI, Joost, Last.fm, LinkedIn, Meebo, Metaweb, Mitula15, The New York Times, Ning, Rackspace, StumbleUpon16, Tuenti, Twitter, Veoh, Zoosk, 1&1, Mercadolibre ¿Necesito Hadhoop? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 29
  • 30. MODELACIÓN ¿Qué técnicas de análisis existen? ¿Cuáles usar? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 30
  • 31. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé dónde encontrarlos, pero no sé como procesarlos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 31
  • 32. Técnicas de análisis predictivo Técnicas de regresión Regresión lineal Series de tiempo Análisis de superviviencia Modelos elección discreta Logit Probit Árboles de decisión Machine learning Redes neuronales Modelación geoespacial Naïve Bayes k-nearest neighbours www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 32
  • 33. Aplicación de modelación predictiva en gestión de clientes ¿Qué clientes me conviene retener? ¿Cuál es el ciclo de vida de un cliente y cómo podemos ampliar su duración/valor? ¿Qué clientes están por irse y cómo los retengo? ¿Por qué han comprado y cómo lo han hecho? ¿Qué comprarán después? ¿Qué clientes son susceptibles de comprar más productos? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 33
  • 34. Por su volumen de facturación (agrupación tradicional) • Poco o ningún entendimiento de motivos www.isdi.es < Big Data Aplicado al Negocio CRISP-DM consumo. • No permite descubrir ciclos de vida • Acciones comerciales similares para clientes distintos y planteadas en escenario Por su comportamiento histórico (base para análisis predictivo) • Patrones de consumo claramente identificados y segmentados • Potencial de los clientes medido en función de su segmento, no del total • Ciclos de vida son evidentes por segmento • Acciones individualizadas y proactivas en función de modelos predictivos Descriptiva Vs Predictiva 34
  • 35. Objetivo y los modelos de segmentación Campañas iguales a clientes parecidos Predicción certera de: • Up-sale • Cross-sale • Churn • Default Cada grupo de clientes tiene que ser significativamente distinto que los otros Cada cliente dentro de un grupo debe ser significativamente similar con los otros miembros del grupo www.isdi.es < Big Data Aplicado al Negocio CRISP-DM de clientes 35
  • 36. EVALUACIÓN ¿Tiene sentido lo que he encontrado? ¿Es aplicable? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 36
  • 37. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé como procesarlos ¿Tengo la respuesta adecuada? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 37
  • 38. Evaluación del modelo No es indispensable esperar eventos futuros para determinar la precisión de nuestros modelos. El procedimiento cruzado nos permite validar con los mismos datos que tenemos ahora. Estimación Prueba www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 38 Datos (y1, x1),…(yn, xn) Datos entrenamiento. Todos los datos salvo (yk, xk)) Datos de prueba (yk, xk)) Predicción Repetir para cada k
  • 39. Contrastación del modelo con la realidad R2=0.92 Modelo estadístico de pronóstico www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 39 900 800 700 600 500 400 300 200 100 0 0 100 200 300 400 500 600 700 800 900 Venta mensual Real Mínimo de ventas deseado Venta pronosticada dada la ubicación (venta mensual promedio)
  • 40. No sólo debe ser preciso, debe tener sentido económico (de negocio) “La producción pesquera explica muy bien la venta de cerveza” “Pon la próxima cafetería al lado de una agencia Bentley” www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 40
  • 41. DESPLIEGUE ¿Cómo sacar valor de lo aprendido? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 41
  • 42. Sé cuál es la pregunta Sé que datos necesito para contestarla Sé donde encontrarlos Sé como procesarlos Tengo la respuesta adecuada ¿Cómo sacarle provecho a lo aprendido? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 42
  • 43. Plan de despliegue ¿Qué procesos de negocio serán modificados/implantados? ¿Qué reglas de negocio serán alteradas o introducidas? ¿En qué tecnologías será desplegado? ¿Qué nuevas habilidades serán necesarias? ¿Cómo manejar el cambio? www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 43 Procesos Tecnología Gente
  • 44. Herramienta tecnológica de soporte a compra de calzado Sistema de soporte predictivo para la compra (SSPC) • Predice el comportamiento de un producto a partir de sus características • Facilita la labor de recompra luego de las dos primeras semanas de venta www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 44
  • 45. Modificación en el proceso de decisión inmobiliaria www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Presentación de ubicación disponible Definición de infraestructura Visita a campo y estimación de venta Caso de negocio a considerar 45 Búsqueda proactiva en AGEBs con mayor potencial Estimación de venta preliminar Estimación de venta final con certeza de entre el 94 y el 96% Proceso anterior Modificaciones al proceso Mejora del hit rate (número de tiendas arriba del objetivo) pasó del 62% al 79%
  • 46. El perfil ideal de demostradoras de alcohol De 27 a 29 años con baja antigüedad Salario: 6,619 Bono: 1,388 Estado civil: 69% soltera Grado de estudios: 63% con educación básica N: 41 - 21% Salario: 6,364 con hijos Bono: 1,327 Estado civil: 95% soltera Grado de estudios: 73.6% con educación-media N: 59 - 30% www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 46 De 23 a 25 años con baja antigüedad sin hijos De 31 a 33 años con muy alta antigüedad con hijos Venta adicional al esperado por grupo de demostradora Salario: 7,148 Bono: 1,376 Estado civil: 66% soltera Grado de estudios: 50% con educación media y 38% educación básica N: 28 - 15% Salario: 6,354 Bono: 1,353 Estado civil: 61% casada Grado de estudios: 64% con educación-media N: 66 - 34% $14,643 $6,265 De 28 a 30 años con alta antigüedad sin hijos
  • 47. 900 800 700 600 500 400 300 200 100 Modelo estadístico de pronóstico Bien ubicadas, mal desempeño www.isdi.es < Big Data Aplicado al Negocio CRISP-DM Qué se hizó con 47 0 0 100 200 300 400 500 600 700 800 900 Venta mensual real R2=0.92 Mala ubicación y mal desempeño Los esfuerzos de apoyo no eran rentables Se aplicaron prácticas que se pueden replicar Venta pronosticada dada la ubicación (venta mensual promedio) Mínimo de ventas deseado
  • 48. Big Data Analytics La velocidad, variedad y volumen en la que hoy se genera la información puede generar un reto abrumador para las empresas que deseen enriquecer su toma de decisiones y mejorar sus procesos a través de la analítica predictiva. En esta sesión estudiamos como es posible afrontar exitosamente ese reto a través de la aplicación de una metodología consistente de minería de datos (CRISP-DM), en la que la pregunta de negocio guía nuestros esfuerzos y la aplicabilidad de los mismos garantiza la eficiencia. jperezcolin@bdatascience.com www.isdi.es < Big Data Aplicado al Negocio CRISP-DM 48

Notas del editor

  1. Soy un economista, tecnólogo y académico centrado en ayudar a las empresas, los ejecutivos y los empresarios a hacer frente a retos de negocio a través estrategias pragmáticas de análisis y operación. Hoy soy socio de Business Data Scientists (BDS) empresa dedicada a invertir y desarrollar en empresas especializadas en Big Data Analytics en la región. Las empresas de BDS se enfoca en ayudar a sus clientes en obtener beneficios económicos de la información oculta en los datos de las empresas a través de metodologías y tecnologías de la ciencia de datos. Nuestros clientes son empresas globales de bienes de consumo envasados ​​(CPG), empresas en los sectores de telecomunicaciones y finanzas, entre otras. Soy consejero editorial de la revista InformationWeek México. He colaborado con la revista en el diseño y la ejecución del premio 50 Empresas más Innovadoras. También soy miembro fundador de la Asociación de Gestión de Desarrollo de Productos de México PDMA y consejero independiente de la empresa Praxis. He dado consultoría a Oracle y Microsoft ayudándoles a entender y servir mejor a sus clientes clave, a través de prácticas de alineación estratégica de las tecnologías de información a los negocios.. Fui coordinador del Centro de Estudios Económicos de la Universidad de las Américas -Puebla. Había sido profesor visitante de Dirección de Tecnología de Información en el PAD Escuela de Negocios, Perú e INALDE Business School, Colombia . Sostuve la posición de CIO del IPADE Business Shool y fui profesor de Entorno Económico de la misma escuela durante 3 años. Hoy soy profesor en el Master en Internet Business (MIB ) del ISDI, una red académica y profesional para las empresas digitales en México y España.
  2. Mi primera aproximación analítica en mi vida profesional la desplegué cuando era gerente de la sucursal puebla del periódico El Financiero. Problema: Siendo un periódico nacional y con menos tiempo en el mercado que el Excélsior, mi participación de mercado de suscripciones de periódico era sensiblemente menor que los otros periódicos establecidos en la ciudad de Puebla. Solución. Entendí la dinámica que genera en participación de mercado pequeñas diferencias en las suscripciones no renovadas (churn) y establecí incentivos en los repartidores para rescatar a toda costa aquellas suscripciones que no estaban renovando. El reparto era lo único a mi alcance para incidir en la renovación. Una diferencia de un punto y medio porcentual me podía poner en segundo lugar de participación de mercado al cabo de 4 años. Beneficio. Durante 3 años consecutivos, la sucursal Puebla fue la de mayor número de suscripciones superando a Monterrey y Puebla
  3. El crecimiento exponencial en la generación de datos se puede explicar en el surgimiento sucesivo de tres generadores de datos: Desde la entrada de los mainframes (granes computadoras centrales) a las empresas y hasta la popularización del cómputo personal (inclusive) los generadores de datos fueron predominantemente capturistas Con la entrada de la web, acelerado por el Web 2.0 y potenciado por el cómputo móvil, son los datos que generan los usuarios los de mayor crecimiento Ahora las máquinas empiezan a hablar con otras máquinas, lo que producirá muchos más datos de los que podremos almacenar y analizar Un exabyte es una unidad de medida de almacenamiento de datos cuyo símbolo es el 'EB', equivale a 1018 bytes 1 EB = 103 Petabyte (PB) = 106 Terabyte (TB) 15 TB es el contenido total de la Biblioteca del Congreso de los Estados Unidos. Fuentes: Wikipedia; Data, data everywhere: A special report on managing information, The Economist 27 de febrero 2010; Patrick Schwerdtfeger What is Big Data? Big Data Explained (Hadoop & MapReduce)
  4. Retos: Aprovechar inversiones en infraestructura de TI Integrar fuentes distintas de datos del negocio para tomar decisiones equilibradas Dar sentido estratégico a los esfuerzos de recolección, análisis y aplicación de datos Maximizar la conversión de estos esfuerzos en rentabilidad: monetizar el valor de los datos del negocio
  5. Business Analytics (BA) hace uso extensivo e intensivo de datos, análisis estadístico y cuantitativo y modelaje explicativo y predictivo. Por lo tanto está más relacionado con la ciencia administrativa. La analítica se usa tanto como insumo para las decisiones humanas o para ser usada en procesos automatizados. Business Intelligence es consulta (querying), On-line Analytical Processing (OLAP), reporteo, y alertas. En otras palabras, querying, reporteo, OLAP y las herramientas de alertas pueden contestar preguntas como qué es lo que pasó, cuánto, qué tan frecuente, dónde está el problema y qué acciones son necesarias. BA puede contestar preguntas como por qué esta pasando, qué si estas tendencias continúan, qué es lo que puede pasar después (esto es, predecir) y qué es lo mejor que puede pasar (esto es, optimizar).
  6. CRISP-DM , de Cross Industry Standard Process for Data Mining. Se trata de un modelo de proceso de minería de datos que describe los enfoques comunes que utilizan los expertos en minería de datos. Encuestas realizadas en 2002, 2004 y 2007 muestran que es la principal metodología utilizada para esta tarea. El único otro estándar de data mining nombrado en estas encuestas era el SEMMA. No obstante, 3-4 veces más personas reportaron optar por CRISP-DM. Una revisión y crítica de los modelos de minería de datos en 2009 llamó a CRISP-DM el "estándar de facto para el desarrollo de la minería de datos y los proyectos de descubrimiento de conocimiento“. CRISP-DM divide el proceso de minería de datos en seis fases principales Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continua después del despliegue de una solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores. Fuente:ibm.com
  7. Acrónimos de abajo hacia arriba: ERP. Los sistemas de planificación de recursos empresariales, o ERP (por sus siglas en inglés, Enterprise Resource Planning) son sistemas de información gerenciales que integran y manejan muchos de los negocios asociados con las operaciones de producción y de los aspectos de distribución de una compañía en la producción de bienes o servicios. CRM. Software para la administración de la relación con los clientes o CRM(por sus siglas en inglés, Customer Resource Management). Sistemas informáticos de apoyo a la gestión de las relaciones con los clientes, en el mercadeo, la venta y el servicio post-venta. HRM. Los sistemas de gestión de recursos humanos, o HRM (por sus siglas en inglés, Human Resource Management) son los sistemas de información que integran y gestionan la atracción, selección, capacitación, remuneración y retención del capital humano. SCM. La administración de redes de suministro (en inglés, Supply chain management, SCM) es el sistema que gestiona el proceso de planificación, puesta en ejecución y control de las operaciones de la red de suministro con el propósito de satisfacer las necesidades del cliente con tanta eficacia como sea posible. ETL. Extract, Transform and Load (Extraer, transformar y cargar en castellano, frecuentemente abreviado a ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Business Intelligence. Se denomina inteligencia empresarial, inteligencia de negocios o BI (del inglés business intelligence) al conjunto de estrategias y llaves enfocadas a la administración y administración de conocimiento sobre el medio, a través del procesamiento de los datos existentes en una organización o empresa. Fuente: Wikipedia
  8. Según algunas estimaciones, Google puede contar a la fecha con más de 2 millones de servidores alrededor del mundo. El número oficial es un secreto industrial. SQL no es el tipo de bases de datos, en este caso relacionales. SQL se refiere a una de las maneras en las que se accede a los datos en bases de datos relacionales. SQL no es usado para bases de datos no relacionales, por eso se sí se usa indistintamente NoSQL para llamar a las bases de datos no relacionales. Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre.[1] Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS). Fuentes: http://slashdot.org/topic/bi/sql-vs-nosql-which-is-better/ http://es.wikipedia.org/wiki/Hadoop
  9. Muy probablemente tu empresa no necesita Hadhoop o bases de datos no relacionales. Y lo más importante: no es indispensable para Analytics.
  10. http://web.anglia.ac.uk/numbers/graphsCharts.html
  11. Problema. Empresa líder de venta al menudeo de zapatos tenis pierde consistentemente margen bruto debido mala predicción de la rotación de modelos no resurtibles que lo lleva a perder ventas por pedir de menos o hacer descuentos por pedir de más. Solución. Modelo predictivo para: Sistema de soporte predictivo de compra (SSPC) (mostrado en la lámina) Modelo de sembrado (assortment por tienda) Modelo de descuentos y regreso a Centro de Distribución Modelo de predicción de ventas Índice de éxito de las tiendas Tecnología y procesos analíticos: Se extrajeron los datos de SAP R/3 mediante querys de SQL Server para generar tablas planas CSV al máximo nivel de detalle, se cargaron y prepararon en Netezza y se analizaron en SPSS a diferentes niveles dependiendo del análisis y modelación requerido. Cross Industry Standard Process for Data Mining (CRISP-DM). Modelos de series de tiempo, modelos multiplicativos de desestacionalización, modelo multivariado de árbol de decisión y regresiones lineales múltiples. IBM SPSS, IBM Netezza, MS Visual Basic y MS Excel Beneficios: Aumento en poder de negociación sobre Nike y Puma. Predicciones con más del 90% de certeza. Mejora de margen bruto
  12. Problema. En una gran cadena de cafeterías no se estaba llegando al objetivo de negocio (hit rate) en un porcentaje relevante de ubicaciones. Solución. Modelo de localización predictiva y nuevo proceso inmobiliario al incorporar los resultados del modelo. El proceso inmobiliario era totalmente reactivo, esto es, esperaban que los profesionales inmobiliarios trajeran a la mesa locales disponibles con el inherente conflicto de intereses (el buscador decía que era una muy buena ubicación). En el nuevo proceso se establece un listado ordenado (de mayor venta potencial a menor) de Áreas Geostadísticas Básicas sobre el que se solicita a los profesionales inmobiliarios a hacer la búsqueda. El modelo genera un pronóstico de ventas son más de 94% de certeza. El nuevo proceso incorpora no sólo la demanda disponible sino la venta esperada de acuerdo a la infraestructura. Beneficio. El modelo mejoró en casis 17 puntos porcentuales el hit ratedesplegar mejorando la certeza del caso de negocio al mejorar el pronóstico de ventas hasta alcanzar más del 94%. Área Geoestadística Básica (AGEB). Subdivisión de los municipios o delegaciones que conforman el país, utilizada por primera vez en el X Censo General de Población y Vivienda 1980. Su utilidad radica en permitir la formación de unidades primarias de muestreo y la organización de la información estadística. Tiene tres atributos fundamentales: a) es perfectamente reconocible en el terreno por estar delimitada por rasgos topográficos identificables y perdurables; b) por lo general es homogénea en cuanto a sus características geográficas, económicas y sociales; c) su extensión es tal que puede ser recorrida por una sola persona. Las AGEB se clasifican en más y menos urbanizadas, dependiendo de su densidad de viviendas.
  13. Problema. Inversión de hasta el 4% de las ventas en demostradoras de alcohol con resultados indeterminados. Solución. Determinación de la correcta asignación de recursos y actividades que optimiza la inversión en el punto de venta a través de un modelo de segmentación de tiendas y demostradoras y generación de una herramienta para el balanceo de asignación al máximo retorno. Beneficios. Se detectó que el 19% de los puntos de venta cuenta con demostradoras y no debería de contar ya que la venta incremental no cubre el costo de la demostradora. Así mismo se detectó que en 8% de los puntos de venta se debería aumentar la demostración para mejorar el retorno.