4. Evaluacion
• Calificacion final del curso estara basada en
3 criterios con los siguientes pesos:
• Trabajos en Grupo, 25%
• Participacion en Clase, 30%
• Examen Final, 45%
5. Trabajos en Grupo
• Trabajo # 1: Caso Segmentacion Tarjetas de
Credito
• A entregarse este viernes (22/3/13)
• Trabajo # 2: Caso Unificador
• Semana 4 del curso. Mas detalles mas
adelante.
6. Necesito Grupos
• 49 estudiantes registrados al dia de ayer
• 9 grupos de 5; 1 grupo de 4
• (por afinidad si es posible)
• Primer grupo de 4 que envie sus nombres
seran el grupo de 4.
• El resto, sin excepcion, son de 5.
7. ¿Que quiero hacer en
este curso?
• Pero antes...
• Que esperan ustedes de el?
• Por que se registraron para este curso?
• Quienes se registran para este curso? (Mi
teoria)
8. ¿Que es este curso?
• (Curso de Segundo Año)
• Es un curso altamente cuantitativo
• Es un curso intensivo en el uso de software
y tecnologia
• pero...
• Es una criatura diferente de Metodos
Cuantitativos.
9. Que es este curso?
• Es un curso survey
• Tiene la estructura identica a un seminario
que ensenamosVictor Donaire y yo en 2007
10. Que es este curso?
• Quiero que conozcan las principales
aplicaciones de Data Mining en el mundo de
los negocios
• Quiero exponerlos a una serie de tecnicas de
Data Mining, mas que hacerlos expertos en
ellas (mis notas reflejan esta “filosofia”)
• Quiero que conozcan un buen paquete de
software con capacidad industrial (no mas
software Mickey Mouse)
11. Que es este curso?
• Quiero que aprendan a enseñarse cosas a
ustedes mismos? Enfasis en aprender el
proceso. Facil substituir una de las 6 tecnicas
que enseñare por las 200 que no enseñare.
• Quiero darles una serie de referencias a
articulos y libros que puedan consultar
cuando ya no sean estudiantes de INCAE.
12. Que es este curso?
• Pero, sobre todo, quiero que aprendan los
elementos basicos para diseñar un proyecto
de Data Mining con el objeto primordial de
resolver un problema concreto de una
empresa.
18. Pero... necesito su ayuda
• Que saquemos del curso discusiones sobre
software requiere que ustedes vean los tutoriales
antes de clase
• Que saquemos una buena parte de la discusion
teorica supone que ustedes leeran las notas o
veran los videos sobre teoria
• Yo solia decir:“El que solo viene a mi curso y
pone atencion, sale bien”.
• Eso ya no es cierto en este curso.
19. Todo comienza con
Datos
• “De acuerdo a un
estimado, la humanidad
creo 150 exabytes (mil
millones de Gb) de datos
en 2005. Este año (2010),
creara 1,200 exabytes.
20. Todo comienza con
Datos
• “Simplemente mantener
el paso de este flujo, y
guardar lo que
consideramos util, es lo
suficientemente dificil.
• “Analizarlo, para
descubrir patrones y
extraer informacion util
es aun mas dificil”
• (The Economist. The Data
Deluge. Feb 2010.)
23. Que es Data Mining?
• Berry & Linoff la definen como:
• “Data Mining es la exploracion y analisis, por
medios automaticos o semi-automaticos, de
grandes cantidades de datos con el
proposito de descubrir patrones y reglas
interesantes”
24. Que es Data Mining?
• Hand, Mannila & Smyth ofrecen una
definicion semejante:
• “Data Mining es el analisis de bases de datos
observacionales (a menudos inmensas) con
el objetivo de encontrar relaciones no
sospechadas y resumir los datos en maneras
novedosas que sean ambas: entendibles y
utiles para el dueño de los datos”
25. Que es Data Mining?
• Los datos, las bases de datos de una
compañia son, en palabras de Thomas
Redman, the ultimate proprietary technology.
27. Por que es relevante
hoy?
• “Los datos estan siendo generados.
• Los datos estan siendo guardados.
• Las computadoras actuales nos permiten
este analisis.
• El software para hacerlo esta disponible
comercial y muchas veces gratuitamente.
• La presion de la competencia es fuerte.”
28. Algunas historias de
exito
• Capital One
• Amazon.com
• Netflix
• Atleticos de Oakland/Boston Redsox
• Harrah’s Entertainment
30. Dificultades
• Enseñar Data Mining “en general” es:
• Enseñar las tecnicas de Data Mining
• Enseñar a usar un paquete de software para
poder aplicar estas tecnicas
31. Dificultades
• Enseñar Data Mining un programa de MBA
es:
• Enseñar las tecnicas de Data Mining
• Enseñar a usar un paquete de software para
poder aplicar estas tecnicas
• Enseñar en el contexto de un caso en el que
las tecnicas y el software nos ayudan a
resolver un problema de negocios concreto
33. Integracion
Tecnicas de Agrupamiento
o Clustering
• Segmentacion de Clientes
• Existen grupos de clientes
que se comporten de
manera semejante y que
puedan tratarse de
manera semejante?
34. Integracion
Reglas de Asociacion
• Market Basket Analysis
• Existen grupos de
prodcutos que nuestros
clientes tienden a
comprar juntos?
• Podemos diseñar
programas de ventas
cruzadas o de upselling?
35. Integracion
Regresion Lineal
Arboles de Regresion
KNN
• Profiling/Prospecting
• Perfil de nuestros
clientes: Cuanto nos
comprara un cliente con
estas caracteristicas?
• Que tipo de cliente
debemos ir a buscar?
• Perfil rentabilidad de
nuestros clientes
36. Integracion
Regresion Logistica
Arboles de Clasificacion
Naive Bayes
• Adquisicion/Retencion/
Desercion
• A que clientes debemos
contactar para iniciar una
relacion de negocios?
Cuales debemos evitar?
• Que clientes estamos en
riesgo de perder?
Podemos identificarlos?
Podemos hacer algo para
retenerlos?
38. Uso de Tiempo por Fase
• Business Understanding
(5-15 %)
• Data Understanding
(5-10%)
• Data Preparation
(50-60%)
• Modeling (5-15%)
• Evaluation (5-10%)
• Deployment (10-15%)
42. Software y Hardware en
este Curso
• RapidMiner
• (Re) Programa deVisualizacion
• Tableau Desktop (Windows)
• Mondrian (Windows/Mac)
• (Op) MySQL GUIs (HeidiSQL para PCs; Sequel Pro
para Macs)
• Sus Laptops
• Amazon EC2
43. Datos
• CSV
• Hojas estaran disponibles en la pagina del curso
• MySQL
• Servidor Amazon:
• datamining2013.cvwlzmyzngdg.us-east-1.rds.amazonaws.com
• username: nombreapellido (a sus emails de incae
les quite el punto pero... 16 caracteres max)
• password: student_id (5 numeros)