Las familias más ricas de África en el año (2024).pdf
Big data aplicado el negocio CRISP-DM
1. INTRODUCCIÓN A LAS MÉTRICAS
CLASE: Nuevas Tendencias en el Uso de Métricas – Big
Data Aplicado el Negocio
Profesor:
Jorge Pérez Colín
www.isdi.es 1
2. Jorge Pérez Colín
Value Sight
Diseño y Arte por
Computadora
Emprendedor
Academia Profesional
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
3. Mi primera aproximación analítica al churn
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
3
El Financiero Excelsior El Sol de Puebla
Churn 0.07 0.1 0.1
Participación
15 25 60
inicial (P0)
Paticipación
final (P48)
42 17 41
Supuestos:
1. El número de suscriptores es constante
2. Las suscripciones perdidas por un periódico son absorbidas por los
otros dos en proporción a su participación de mercado
4. Apliquemos analítica al negocio de las suscripciones
¿Qué más les gustaría saber para incrementar el índice de renovaciones?
¿Cómo sacarían esa información?
¿Qué harían con lo descubierto?
¿Es replicable esta experiencia al mundo de Internet?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
4
5. Big Data: Volumen, Variedad y Velocidad
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Capturistas
Usuarios
Máquinas
5
Social Media
Internet of Things
6. Big Data no tiene sentido sin analytics
Big Data entendido como la posibilidad de
contar con grandes volúmenes de información
brinda la posibilidad de descubrir patrones que
pueden ser aprovechados en beneficio del
negocio.
Una abundancia de información genera una
escasez de atención o de enfoque o,
simplemente, saber por dónde empezar.
CRISP-DM es una de las metodologías más
utilizadas en minería de datos pero sobre todo
en business analytics para usar eficientemente
esta nuevo activo (Big Data).
Competing on Analytics
Big Data Era
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
6
Gap Analítico
Datos
Disponibles
Capacidad
de Ejecución
Gap de
Ejecución
Capacidad
de Análisis
2020
1980 1990 2000 2010
7. Antes de Big Data es Busines Analytics
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
7
8. Objetivo y temas a tratar
Esta sesión tiene como objetivo explicar a grandes rasgos lo que la analítica predictiva,
desde el punto de vista de Big Data Analytics es, pero sobre conocer cómo afrontar el
reto analítico a través del uso de la metodología Cross Industry Standard Process for
Data Mining (CRISP-DM) en el contexto de Big Data.
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Temas:
Diferencia entre Business Intelligence y Business Analytics
Cross Industry Standard Process for Data Mining (CRISP-DM) en sus seis fases
Nota aclaratoria de la sesión:
El tema Big Data Analytics toca al margen los negocios en Internet, materia de esta
maestría, pero presenta una serie de herramentales que serán cada vez más útiles para ellos.
8
9. Diferencia entre Business Intelligence y Business Analytics
Business Analytics (y es el sentido
que le damos aquí a Big Data
Analytics) se refiere a las habilidades,
tecnologías y prácticas para la
exploración e investigación del
desempeño pasado de la empresa
para ganar conocimiento y conducir la
planeación y ejecución del negocio.
BA se enfoca en desarrollar nuevos
aprendizajes y entendimiento del
negocio basado en los datos, métodos
estadísticos y de optimización.
En contraste, Business Intelligence
tradicionalmente se enfoca en usar un
conjunto consistente de métricas
para al mismo tiempo medir el
desempeño pasado y guiar la
planeación del negocio.
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
9
Business
Intelligence
10. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
BI
Software:
Business Objects (SAP), Hypheron
(Oracle), Cognos (IBM), Qlickview
(Qliktech), MicroStrategy, Tibco, Tableau
Software/hardware (appliances—good for Big
Data)
Netezza (IBM)
Greenplum (EMC)
DataAllegro (Microsoft)
Teradata
BI en la nube (for Big Data Too)
AWS (Amazon)
Pivotal (EMC+Vmware)
BA
Estadística
SPSS Modeler (IBM)
SAS
R (software libre)
Optimización
AIMSS (Paragon)
Lingo
Mathematica (Wolfram)
… (hasta Excel)
Software de BI y de BA
10
11. Cross Industry Standard Process for Data Mining (CRISP-DM)
Concebido en1996:
•DaimlerChrysler
•SPSS
•NCR
En ese tiempo empieza el auge por la
minería de datos, Un modelo de proceso
estándar para cualquier industria, no
propietario y gratuito, cumpliría con el
propósito.
Un año después se crea un consorcio para
desarrollar este proceso estándar quien en
2 años y medio se dedicaron a desarrollar
y refinar lo que hoy en día es el CRISP-DM.
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
11
12. Antes de entender los datos debemos de entender el negocio
ENTENDIMIENTO DEL NEGOCIO
¿Para quién producimos valor?
¿Cuál es nuestra propuesta de valor?
¿Cómo la entregamos?
¿Cómo la creamos?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
12
13. Si no sabes cuál es la pregunta no tiene caso preocuparte por el Big Data
No sé cuál es la pregunta
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
13
14. Antes de la respuesta necesitamos la pregunta
No poner el caballo detrás de la
carreta
¿Cuál es la pregunta de negocio?
Las preguntas de negocio se sintetizan en una
sola: ¿cómo lograr ventaja competitiva?
Se pueden categorizar en rentabilidad cliente
(RC), rentabilidad de recursos (RR) y rentabilidad
de oferta (RO). Ejemplos:
¿Cómo seleccionar y atraer a los clientes más
rentables? (RC)
¿Cómo incrementar el índice de cierre de mi fuerza de
ventas? (RR)
¿Cómo seleccionar puntos de venta más rentables?
(RR)
¿Cómo seleccionar productos/servicios que
maximicen la rentabilidad? (RO)
¿Cómo fijar precios para mi portafolio de
productos/servicios? (RO)
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
14
15. Lienzo de Osterwalder: Una herramienta para entender el negocio
El lienzo (canvas) del modelo de
negocio de Osterwalder es una
plantilla de gestión estratégica para
desarrollar o documentar modelos de
negocio.
Es un apoyo visual con elementos
que describen la propuesta de valor
de la empresa, los clientes, las
operaciones y las finanzas.
Esta herramienta ayuda a las
organizaciones a alinear sus
recursos, actividades y gente
ilustrando potenciales desventajas.
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
15
16. Modelo de Negocio Modelo de Negocio de…
Propuesta de valor
Aliados clave Actividades clave Relaciones con el
cliente
Segmentos de
clientes
Recursos clave Canales
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Estructura de
costos
Fuentes de ingreso
Business Model Canvas de Alexander Osterwalder
16
17. ¿Cuáles son los dos KPIs en los que debes superar a tu competencia?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Telecom
ARPU
Churn
Banca al menudeo
Cross Sale
Attrition
¿Cuáles son los dos KPIs de tu industria? 17
18. Generación de hipótesis
No existe tal cosa como el discovery puro...
El KPI dispara las preguntas (por qué, por qué, por qué),
la hipótesis establece una respuesta a contrastar.
Documentación de hipótesis
¿Quién la emite?
¿Cómo se priorizan?
¿Qué datos necesitamos para contrastarlas?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
19. www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Ejercicio
¿Qué hace que se vendan más cafés en un punto de venta que en otro?
20. ETENDIMIENTO DE LOS DATOS
¿Existen los datos?
¿Dónde están?
¿Necesito más datos?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
21. Sé cuál es la pregunta
Sé la pregunta,
pero no sé que datos necesito para contestarla
Sé que datos necesito,
pero no sé donde encontrarlos
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
21
22. Tipos y fuentes de datos
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
22
No
estructurado
Investigación cuantitativa
Investigación cualitativa
Infraestructura
Fotografías
Grabaciones
Media
Social media
Estructurado
ERP/xRM/eCommerce
Service Desk
WMS/TMS
INEGI
Sistema Meteorológico Nacional
Cámaras y Asociaciones
Interno Externo
23. Ejemplo de fuentes de información para un modelo de localización predictiva
Punto de
Venta
Contexto
Infraestructura
Encuestas de
satisfacción
¡Más de 4,500
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
23
variables!
24. Punto de
Venta
Contexto
Infraestructura
Encuestas de
satisfacción
Foursquare
¡Posibilidad de hacer
sentimental analysis!
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Con nueva fuente
24
25. PREPARACIÓN DE LOS
DATOS
¿Cómo obtengo los datos?
¿Me sirven así?
¿Dónde depositarlos?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
26. Business Intelligence me permite saber qué pasa pero no necesariamente por qué
Business Intelligence Tradicionalmente un
sistema de business
intelligence se diseña
de arriba a hacia
abajo
Defino que quiero
saber, extraigo el
dato, hago el cálculo
lo cargo en un
receptorio
Reportes
Tableros de
Control
Business Dataware House (BDW)
Servidor de
Reportes
Alertas
ETL ETL ETL ETL ETL
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
26
ERP CRM HRM SCM Otros
27. Un Business Dataware House puede ser útil pero no indispensable
Modelado con SPPS, SAS, R,…
Archivo plano
Queries
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
27
Business Analytics En un mundo ideal, la
organización cuenta con
un BDW en el cual existen
los datos necesarios para
responder la pregunta de
negocios.
Pocas veces sucede y si
existe no hay el tiempo de
respuesta requerido
(síndrome del dueño del
kínder).
Los ETL son ejecutados
manualmente a partir de
extracciones a modo.
ERP CRM HRM SCM Otros
28. Bases de datos en Big Data
El Big Data empezó a estresar el desempeño en empresas como Google y Amazon
haciéndoles evidente que las bases de datos relacionales (SQL) no satisfacían sus
necesidades. Necesitaban mejor desempeño para atender miles de peticiones sobre
una cantidad de datos inmensa, compleja, creciente y distribuida entre miles (millones)
de servidores.
Necesitaban entonces una nueva concepción de bases de datos, esto es, bases de
datos no relacionales (NoSQL), y un nueva arquitectura (Hadhoop) para procesar
eficientemente la información distribuida.
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
28
Bases de datos relacionales Bases de datos no relacionales
SQL Server, MySQL, Oracle… MongoDB, CouchDB, BigTable…
29. A9.com, AOL, Booz Allen Hamilton,
Eharmony, eBay, Facebook, Fox
Interactive Media, Freebase, IBM,
ImageShack, ISI, Joost, Last.fm,
LinkedIn, Meebo, Metaweb, Mitula15,
The New York Times, Ning,
Rackspace, StumbleUpon16, Tuenti,
Twitter, Veoh, Zoosk, 1&1,
Mercadolibre
¿Necesito Hadhoop?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
29
30. MODELACIÓN
¿Qué técnicas de análisis
existen?
¿Cuáles usar?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
30
31. Sé cuál es la pregunta
Sé que datos necesito para contestarla
Sé donde encontrarlos
Sé dónde encontrarlos,
pero no sé como procesarlos
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
31
32. Técnicas de análisis predictivo
Técnicas de regresión Regresión lineal
Series de tiempo
Análisis de
superviviencia
Modelos elección
discreta
Logit
Probit
Árboles
de
decisión
Machine learning Redes neuronales
Modelación
geoespacial
Naïve
Bayes
k-nearest neighbours
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
32
33. Aplicación de modelación predictiva en gestión de clientes
¿Qué clientes me conviene retener?
¿Cuál es el ciclo de vida de un cliente y cómo podemos ampliar su duración/valor?
¿Qué clientes están por irse y cómo los retengo?
¿Por qué han comprado y cómo lo han hecho?
¿Qué comprarán después?
¿Qué clientes son susceptibles de comprar más
productos?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
33
34. Por su volumen de facturación
(agrupación tradicional)
• Poco o ningún entendimiento de motivos
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
consumo.
• No permite descubrir ciclos de vida
• Acciones comerciales similares para
clientes distintos y planteadas en
escenario
Por su comportamiento histórico (base
para análisis predictivo)
• Patrones de consumo claramente
identificados y segmentados
• Potencial de los clientes medido en
función de su segmento, no del total
• Ciclos de vida son evidentes por segmento
• Acciones individualizadas y proactivas en
función de modelos predictivos
Descriptiva Vs Predictiva
34
35. Objetivo y los modelos de segmentación
Campañas iguales a clientes
parecidos
Predicción certera de:
• Up-sale
• Cross-sale
• Churn
• Default
Cada grupo de clientes tiene que ser significativamente
distinto que los otros
Cada cliente dentro de un grupo debe ser significativamente
similar con los otros miembros del grupo
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
de clientes
35
36. EVALUACIÓN
¿Tiene sentido lo que he
encontrado?
¿Es aplicable?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
36
37. Sé cuál es la pregunta
Sé que datos necesito para contestarla
Sé donde encontrarlos
Sé como procesarlos
¿Tengo la respuesta adecuada?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
37
38. Evaluación del modelo
No es indispensable esperar
eventos futuros para determinar la
precisión de nuestros modelos.
El procedimiento cruzado nos
permite validar con los mismos
datos que tenemos ahora.
Estimación Prueba
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
38
Datos
(y1, x1),…(yn, xn)
Datos
entrenamiento.
Todos los datos
salvo (yk, xk))
Datos de prueba
(yk, xk))
Predicción
Repetir para cada k
39. Contrastación del modelo con la realidad
R2=0.92 Modelo estadístico de pronóstico
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
39
900
800
700
600
500
400
300
200
100
0
0 100 200 300 400 500 600 700 800 900
Venta mensual Real
Mínimo de ventas
deseado
Venta pronosticada dada la ubicación (venta mensual promedio)
40. No sólo debe ser preciso, debe tener sentido económico (de negocio)
“La producción pesquera explica muy bien
la venta de cerveza”
“Pon la próxima cafetería al lado de una
agencia Bentley”
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
40
41. DESPLIEGUE
¿Cómo sacar valor de lo aprendido?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
41
42. Sé cuál es la pregunta
Sé que datos necesito para contestarla
Sé donde encontrarlos
Sé como procesarlos
Tengo la respuesta adecuada
¿Cómo sacarle provecho
a lo aprendido?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
42
43. Plan de despliegue
¿Qué procesos de negocio
serán modificados/implantados?
¿Qué reglas de negocio serán
alteradas o introducidas?
¿En qué tecnologías será
desplegado?
¿Qué nuevas habilidades serán
necesarias?
¿Cómo manejar el cambio?
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
43
Procesos
Tecnología
Gente
44. Herramienta tecnológica de soporte a compra de calzado
Sistema de soporte
predictivo para la compra
(SSPC)
• Predice el comportamiento de
un producto a partir de sus
características
• Facilita la labor de recompra
luego de las dos primeras
semanas de venta
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
44
45. Modificación en el proceso de decisión inmobiliaria
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Presentación
de ubicación
disponible
Definición de
infraestructura
Visita a campo
y estimación
de venta
Caso de
negocio a
considerar
45
Búsqueda
proactiva
en AGEBs
con mayor
potencial
Estimación
de venta
preliminar
Estimación
de venta
final con
certeza de
entre el 94
y el 96%
Proceso
anterior
Modificaciones
al proceso
Mejora del hit rate (número de tiendas arriba del objetivo) pasó del 62% al 79%
46. El perfil ideal de demostradoras de alcohol
De 27 a 29 años con
baja antigüedad
Salario: 6,619
Bono: 1,388
Estado civil: 69% soltera
Grado de estudios: 63%
con educación básica
N: 41 - 21%
Salario: 6,364 con hijos
Bono: 1,327
Estado civil: 95% soltera
Grado de estudios: 73.6%
con educación-media
N: 59 - 30%
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
46
De 23 a 25 años con
baja antigüedad sin
hijos
De 31 a 33 años con
muy alta
antigüedad con
hijos
Venta adicional al esperado por grupo de demostradora
Salario: 7,148
Bono: 1,376
Estado civil: 66% soltera
Grado de estudios: 50% con
educación media y 38%
educación básica
N: 28 - 15%
Salario: 6,354
Bono: 1,353
Estado civil: 61% casada
Grado de estudios: 64%
con educación-media
N: 66 - 34%
$14,643
$6,265
De 28 a 30 años con
alta antigüedad sin
hijos
47. 900
800
700
600
500
400
300
200
100
Modelo estadístico de pronóstico
Bien ubicadas,
mal desempeño
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
Qué se hizó con
47
0
0 100 200 300 400 500 600 700 800 900
Venta mensual real
R2=0.92
Mala ubicación y
mal desempeño
Los esfuerzos
de apoyo no
eran rentables
Se aplicaron
prácticas que
se pueden
replicar
Venta pronosticada dada la ubicación (venta mensual promedio)
Mínimo de ventas
deseado
48. Big Data Analytics
La velocidad, variedad y volumen en la que hoy se genera la información puede generar
un reto abrumador para las empresas que deseen enriquecer su toma de decisiones y
mejorar sus procesos a través de la analítica predictiva.
En esta sesión estudiamos como es posible afrontar exitosamente ese reto a través de
la aplicación de una metodología consistente de minería de datos (CRISP-DM), en la
que la pregunta de negocio guía nuestros esfuerzos y la aplicabilidad de los mismos
garantiza la eficiencia.
jperezcolin@bdatascience.com
www.isdi.es < Big Data Aplicado al Negocio CRISP-DM
48
Notas del editor
Soy un economista, tecnólogo y académico centrado en ayudar a las empresas, los ejecutivos y los empresarios a hacer frente a retos de negocio a través estrategias pragmáticas de análisis y operación.Hoy soy socio de Business Data Scientists (BDS) empresa dedicada a invertir y desarrollar en empresas especializadas en Big Data Analytics en la región. Las empresas de BDS se enfoca en ayudar a sus clientes en obtener beneficios económicos de la información oculta en los datos de las empresas a través de metodologías y tecnologías de la ciencia de datos. Nuestros clientes son empresas globales de bienes de consumo envasados (CPG), empresas en los sectores de telecomunicaciones y finanzas, entre otras.Soy consejero editorial de la revista InformationWeek México. He colaborado con la revista en el diseño y la ejecución del premio 50 Empresas más Innovadoras. También soy miembro fundador de la Asociación de Gestión de Desarrollo de Productos de México PDMA y consejero independiente de la empresa Praxis.He dado consultoría a Oracle y Microsoft ayudándoles a entender y servir mejor a sus clientes clave, a través de prácticas de alineación estratégica de las tecnologías de información a los negocios..Fui coordinador del Centro de Estudios Económicos de la Universidad de las Américas -Puebla.Había sido profesor visitante de Dirección de Tecnología de Información en el PAD Escuela de Negocios, Perú e INALDE Business School, Colombia .Sostuve la posición de CIO del IPADE Business Shool y fui profesor de Entorno Económico de la misma escuela durante 3 años. Hoy soy profesor en el Master en Internet Business (MIB ) del ISDI, una red académica y profesional para las empresas digitales en México y España.
Mi primera aproximación analítica en mi vida profesional la desplegué cuando era gerente de la sucursal puebla del periódico El Financiero.
Problema: Siendo un periódico nacional y con menos tiempo en el mercado que el Excélsior, mi participación de mercado de suscripciones de periódico era sensiblemente menor que los otros periódicos establecidos en la ciudad de Puebla.
Solución. Entendí la dinámica que genera en participación de mercado pequeñas diferencias en las suscripciones no renovadas (churn) y establecí incentivos en los repartidores para rescatar a toda costa aquellas suscripciones que no estaban renovando. El reparto era lo único a mi alcance para incidir en la renovación.
Una diferencia de un punto y medio porcentual me podía poner en segundo lugar de participación de mercado al cabo de 4 años.
Beneficio. Durante 3 años consecutivos, la sucursal Puebla fue la de mayor número de suscripciones superando a Monterrey y Puebla
El crecimiento exponencial en la generación de datos se puede explicar en el surgimiento sucesivo de tres generadores de datos:
Desde la entrada de los mainframes (granes computadoras centrales) a las empresas y hasta la popularización del cómputo personal (inclusive) los generadores de datos fueron predominantemente capturistas
Con la entrada de la web, acelerado por el Web 2.0 y potenciado por el cómputo móvil, son los datos que generan los usuarios los de mayor crecimiento
Ahora las máquinas empiezan a hablar con otras máquinas, lo que producirá muchos más datos de los que podremos almacenar y analizar
Un exabyte es una unidad de medida de almacenamiento de datos cuyo símbolo es el 'EB', equivale a 1018 bytes
1 EB = 103 Petabyte (PB) = 106 Terabyte (TB)
15 TB es el contenido total de la Biblioteca del Congreso de los Estados Unidos.
Fuentes: Wikipedia; Data, data everywhere: A special report on managing information, The Economist 27 de febrero 2010; Patrick Schwerdtfeger What is Big Data? Big Data Explained (Hadoop & MapReduce)
Retos:
Aprovechar inversiones en infraestructura de TI
Integrar fuentes distintas de datos del negocio para tomar decisiones equilibradas
Dar sentido estratégico a los esfuerzos de recolección, análisis y aplicación de datos
Maximizar la conversión de estos esfuerzos en rentabilidad: monetizar el valor de los datos del negocio
Business Analytics (BA) hace uso extensivo e intensivo de datos, análisis estadístico y cuantitativo y modelaje explicativo y predictivo. Por lo tanto está más relacionado con la ciencia administrativa. La analítica se usa tanto como insumo para las decisiones humanas o para ser usada en procesos automatizados. Business Intelligence es consulta (querying), On-line Analytical Processing (OLAP), reporteo, y alertas.
En otras palabras, querying, reporteo, OLAP y las herramientas de alertas pueden contestar preguntas como qué es lo que pasó, cuánto, qué tan frecuente, dónde está el problema y qué acciones son necesarias. BA puede contestar preguntas como por qué esta pasando, qué si estas tendencias continúan, qué es lo que puede pasar después (esto es, predecir) y qué es lo mejor que puede pasar (esto es, optimizar).
CRISP-DM , de Cross Industry Standard Process for Data Mining. Se trata de un modelo de proceso de minería de datos que describe los enfoques comunes que utilizan los expertos en minería de datos. Encuestas realizadas en 2002, 2004 y 2007 muestran que es la principal metodología utilizada para esta tarea. El único otro estándar de data mining nombrado en estas encuestas era el SEMMA. No obstante, 3-4 veces más personas reportaron optar por CRISP-DM. Una revisión y crítica de los modelos de minería de datos en 2009 llamó a CRISP-DM el "estándar de facto para el desarrollo de la minería de datos y los proyectos de descubrimiento de conocimiento“.
CRISP-DM divide el proceso de minería de datos en seis fases principales
Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continua después del despliegue de una solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.
Fuente:ibm.com
Acrónimos de abajo hacia arriba:
ERP. Los sistemas de planificación de recursos empresariales, o ERP (por sus siglas en inglés, Enterprise Resource Planning) son sistemas de información gerenciales que integran y manejan muchos de los negocios asociados con las operaciones de producción y de los aspectos de distribución de una compañía en la producción de bienes o servicios.
CRM. Software para la administración de la relación con los clientes o CRM(por sus siglas en inglés, Customer Resource Management). Sistemas informáticos de apoyo a la gestión de las relaciones con los clientes, en el mercadeo, la venta y el servicio post-venta.
HRM. Los sistemas de gestión de recursos humanos, o HRM (por sus siglas en inglés, Human Resource Management) son los sistemas de información que integran y gestionan la atracción, selección, capacitación, remuneración y retención del capital humano.
SCM. La administración de redes de suministro (en inglés, Supply chain management, SCM) es el sistema que gestiona el proceso de planificación, puesta en ejecución y control de las operaciones de la red de suministro con el propósito de satisfacer las necesidades del cliente con tanta eficacia como sea posible.
ETL. Extract, Transform and Load (Extraer, transformar y cargar en castellano, frecuentemente abreviado a ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.
Business Intelligence. Se denomina inteligencia empresarial, inteligencia de negocios o BI (del inglés business intelligence) al conjunto de estrategias y llaves enfocadas a la administración y administración de conocimiento sobre el medio, a través del procesamiento de los datos existentes en una organización o empresa.
Fuente: Wikipedia
Según algunas estimaciones, Google puede contar a la fecha con más de 2 millones de servidores alrededor del mundo. El número oficial es un secreto industrial.
SQL no es el tipo de bases de datos, en este caso relacionales. SQL se refiere a una de las maneras en las que se accede a los datos en bases de datos relacionales. SQL no es usado para bases de datos no relacionales, por eso se sí se usa indistintamente NoSQL para llamar a las bases de datos no relacionales.
Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre.[1] Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS).
Fuentes: http://slashdot.org/topic/bi/sql-vs-nosql-which-is-better/
http://es.wikipedia.org/wiki/Hadoop
Muy probablemente tu empresa no necesita Hadhoop o bases de datos no relacionales. Y lo más importante: no es indispensable para Analytics.
http://web.anglia.ac.uk/numbers/graphsCharts.html
Problema. Empresa líder de venta al menudeo de zapatos tenis pierde consistentemente margen bruto debido mala predicción de la rotación de modelos no resurtibles que lo lleva a perder ventas por pedir de menos o hacer descuentos por pedir de más.
Solución. Modelo predictivo para:
Sistema de soporte predictivo de compra (SSPC) (mostrado en la lámina)
Modelo de sembrado (assortment por tienda)
Modelo de descuentos y regreso a Centro de Distribución
Modelo de predicción de ventas
Índice de éxito de las tiendas
Tecnología y procesos analíticos:
Se extrajeron los datos de SAP R/3 mediante querys de SQL Server para generar tablas planas CSV al máximo nivel de detalle, se cargaron y prepararon en Netezza y se analizaron en SPSS a diferentes niveles dependiendo del análisis y modelación requerido.
Cross Industry Standard Process for Data Mining (CRISP-DM).
Modelos de series de tiempo, modelos multiplicativos de desestacionalización, modelo multivariado de árbol de decisión y regresiones lineales múltiples.
IBM SPSS, IBM Netezza, MS Visual Basic y MS Excel
Beneficios:
Aumento en poder de negociación sobre Nike y Puma. Predicciones con más del 90% de certeza. Mejora de margen bruto
Problema. En una gran cadena de cafeterías no se estaba llegando al objetivo de negocio (hit rate) en un porcentaje relevante de ubicaciones.
Solución. Modelo de localización predictiva y nuevo proceso inmobiliario al incorporar los resultados del modelo. El proceso inmobiliario era totalmente reactivo, esto es, esperaban que los profesionales inmobiliarios trajeran a la mesa locales disponibles con el inherente conflicto de intereses (el buscador decía que era una muy buena ubicación). En el nuevo proceso se establece un listado ordenado (de mayor venta potencial a menor) de Áreas Geostadísticas Básicas sobre el que se solicita a los profesionales inmobiliarios a hacer la búsqueda.
El modelo genera un pronóstico de ventas son más de 94% de certeza.
El nuevo proceso incorpora no sólo la demanda disponible sino la venta esperada de acuerdo a la infraestructura.
Beneficio. El modelo mejoró en casis 17 puntos porcentuales el hit ratedesplegar mejorando la certeza del caso de negocio al mejorar el pronóstico de ventas hasta alcanzar más del 94%.
Área Geoestadística Básica (AGEB). Subdivisión de los municipios o delegaciones que conforman el país, utilizada por primera vez en el X Censo General de Población y Vivienda 1980. Su utilidad radica en permitir la formación de unidades primarias de muestreo y la organización de la información estadística. Tiene tres atributos fundamentales: a) es perfectamente reconocible en el terreno por estar delimitada por rasgos topográficos identificables y perdurables; b) por lo general es homogénea en cuanto a sus características geográficas, económicas y sociales; c) su extensión es tal que puede ser recorrida por una sola persona. Las AGEB se clasifican en más y menos urbanizadas, dependiendo de su densidad de viviendas.
Problema. Inversión de hasta el 4% de las ventas en demostradoras de alcohol con resultados indeterminados.
Solución. Determinación de la correcta asignación de recursos y actividades que optimiza la inversión en el punto de venta a través de un modelo de segmentación de tiendas y demostradoras y generación de una herramienta para el balanceo de asignación al máximo retorno.
Beneficios. Se detectó que el 19% de los puntos de venta cuenta con demostradoras y no debería de contar ya que la venta incremental no cubre el costo de la demostradora. Así mismo se detectó que en 8% de los puntos de venta se debería aumentar la demostración para mejorar el retorno.