SlideShare una empresa de Scribd logo
1 de 44
Descargar para leer sin conexión
Data Mining
Introduccion al Curso
Contenido
• Detalles Administrativos
• ¿Que quiero hacer con este curso?
• Algunas definiciones
• Aplicaciones
• Tecnicas Cubiertas
• RapidMiner/Tableau/MySQL
Detalles Administrativos
• Oficina: 4064
• Telefono: 154
• Email: Carlos.Quintanilla@incae.edu
Evaluacion
• Calificacion final del curso estara basada en
3 criterios con los siguientes pesos:
• Trabajos en Grupo, 25%
• Participacion en Clase, 30%
• Examen Final, 45%
Trabajos en Grupo
• Trabajo # 1: Caso Segmentacion Tarjetas de
Credito
• A entregarse este viernes (22/3/13)
• Trabajo # 2: Caso Unificador
• Semana 4 del curso. Mas detalles mas
adelante.
Necesito Grupos
• 49 estudiantes registrados al dia de ayer
• 9 grupos de 5; 1 grupo de 4
• (por afinidad si es posible)
• Primer grupo de 4 que envie sus nombres
seran el grupo de 4.
• El resto, sin excepcion, son de 5.
¿Que quiero hacer en
este curso?
• Pero antes...
• Que esperan ustedes de el?
• Por que se registraron para este curso?
• Quienes se registran para este curso? (Mi
teoria)
¿Que es este curso?
• (Curso de Segundo Año)
• Es un curso altamente cuantitativo
• Es un curso intensivo en el uso de software
y tecnologia
• pero...
• Es una criatura diferente de Metodos
Cuantitativos.
Que es este curso?
• Es un curso survey
• Tiene la estructura identica a un seminario
que ensenamosVictor Donaire y yo en 2007
Que es este curso?
• Quiero que conozcan las principales
aplicaciones de Data Mining en el mundo de
los negocios
• Quiero exponerlos a una serie de tecnicas de
Data Mining, mas que hacerlos expertos en
ellas (mis notas reflejan esta “filosofia”)
• Quiero que conozcan un buen paquete de
software con capacidad industrial (no mas
software Mickey Mouse)
Que es este curso?
• Quiero que aprendan a enseñarse cosas a
ustedes mismos? Enfasis en aprender el
proceso. Facil substituir una de las 6 tecnicas
que enseñare por las 200 que no enseñare.
• Quiero darles una serie de referencias a
articulos y libros que puedan consultar
cuando ya no sean estudiantes de INCAE.
Que es este curso?
• Pero, sobre todo, quiero que aprendan los
elementos basicos para diseñar un proyecto
de Data Mining con el objeto primordial de
resolver un problema concreto de una
empresa.
Breve Historia del
Curso
(2008-2012)
15
Researcher view
Algorithms and
Theory
Database
Systems
Tomado de “A
Data Miner’s
Story” por U.
Fayyad
16
Practitioner view
Systems and integration
Database
Algorithms
Customer
Tomado de “A
Data Miner’s
Story” por U.
Fayyad
17
Business view
Systems
Database
Algorithms
Customer
$$$’s
Tomado de “A
Data Miner’s
Story” por U.
Fayyad
La Meta
Pero... necesito su ayuda
• Que saquemos del curso discusiones sobre
software requiere que ustedes vean los tutoriales
antes de clase
• Que saquemos una buena parte de la discusion
teorica supone que ustedes leeran las notas o
veran los videos sobre teoria
• Yo solia decir:“El que solo viene a mi curso y
pone atencion, sale bien”.
• Eso ya no es cierto en este curso.
Todo comienza con
Datos
• “De acuerdo a un
estimado, la humanidad
creo 150 exabytes (mil
millones de Gb) de datos
en 2005. Este año (2010),
creara 1,200 exabytes.
Todo comienza con
Datos
• “Simplemente mantener
el paso de este flujo, y
guardar lo que
consideramos util, es lo
suficientemente dificil.
• “Analizarlo, para
descubrir patrones y
extraer informacion util
es aun mas dificil”
• (The Economist. The Data
Deluge. Feb 2010.)
Interseccion de Muchas
Disciplinas
Statistics
Management Science &
Information Systems ArtificialIntelligence
Databases
Pattern
Recognition
Machine
Learning
Mathematical
Modeling
DATA
MINING
Que es Data Mining?
• Berry & Linoff la definen como:
• “Data Mining es la exploracion y analisis, por
medios automaticos o semi-automaticos, de
grandes cantidades de datos con el
proposito de descubrir patrones y reglas
interesantes”
Que es Data Mining?
• Hand, Mannila & Smyth ofrecen una
definicion semejante:
• “Data Mining es el analisis de bases de datos
observacionales (a menudos inmensas) con
el objetivo de encontrar relaciones no
sospechadas y resumir los datos en maneras
novedosas que sean ambas: entendibles y
utiles para el dueño de los datos”
Que es Data Mining?
• Los datos, las bases de datos de una
compañia son, en palabras de Thomas
Redman, the ultimate proprietary technology.
“We are drowning in data, but
starving for information”
Por que es relevante
hoy?
• “Los datos estan siendo generados.
• Los datos estan siendo guardados.
• Las computadoras actuales nos permiten
este analisis.
• El software para hacerlo esta disponible
comercial y muchas veces gratuitamente.
• La presion de la competencia es fuerte.”
Algunas historias de
exito
• Capital One
• Amazon.com
• Netflix
• Atleticos de Oakland/Boston Redsox
• Harrah’s Entertainment
Algoritmos a Estudiar
Fuente:
KDNuggets.com
Dificultades
• Enseñar Data Mining “en general” es:
• Enseñar las tecnicas de Data Mining
• Enseñar a usar un paquete de software para
poder aplicar estas tecnicas
Dificultades
• Enseñar Data Mining un programa de MBA
es:
• Enseñar las tecnicas de Data Mining
• Enseñar a usar un paquete de software para
poder aplicar estas tecnicas
• Enseñar en el contexto de un caso en el que
las tecnicas y el software nos ayudan a
resolver un problema de negocios concreto
Aplicaciones Tipicas
Integracion
Tecnicas de Agrupamiento
o Clustering
• Segmentacion de Clientes
• Existen grupos de clientes
que se comporten de
manera semejante y que
puedan tratarse de
manera semejante?
Integracion
Reglas de Asociacion
• Market Basket Analysis
• Existen grupos de
prodcutos que nuestros
clientes tienden a
comprar juntos?
• Podemos diseñar
programas de ventas
cruzadas o de upselling?
Integracion
Regresion Lineal
Arboles de Regresion
KNN
• Profiling/Prospecting
• Perfil de nuestros
clientes: Cuanto nos
comprara un cliente con
estas caracteristicas?
• Que tipo de cliente
debemos ir a buscar?
• Perfil rentabilidad de
nuestros clientes
Integracion
Regresion Logistica
Arboles de Clasificacion
Naive Bayes
• Adquisicion/Retencion/
Desercion
• A que clientes debemos
contactar para iniciar una
relacion de negocios?
Cuales debemos evitar?
• Que clientes estamos en
riesgo de perder?
Podemos identificarlos?
Podemos hacer algo para
retenerlos?
El Proceso de Data
Mining
Uso de Tiempo por Fase
• Business Understanding
(5-15 %)
• Data Understanding
(5-10%)
• Data Preparation
(50-60%)
• Modeling (5-15%)
• Evaluation (5-10%)
• Deployment (10-15%)
El Proceso de Data
Mining
El Proceso de Data
Mining
Software y Hardware en
este Curso
• RapidMiner
• (Re) Programa deVisualizacion
• Tableau Desktop (Windows)
• Mondrian (Windows/Mac)
• (Op) MySQL GUIs (HeidiSQL para PCs; Sequel Pro
para Macs)
• Sus Laptops
• Amazon EC2
Datos
• CSV
• Hojas estaran disponibles en la pagina del curso
• MySQL
• Servidor Amazon:
• datamining2013.cvwlzmyzngdg.us-east-1.rds.amazonaws.com
• username: nombreapellido (a sus emails de incae
les quite el punto pero... 16 caracteres max)
• password: student_id (5 numeros)
Software
• Echemosle un vistazo a RapidMiner.

Más contenido relacionado

La actualidad más candente

Presentación Minería de Datos
Presentación Minería de DatosPresentación Minería de Datos
Presentación Minería de Datos
dataminingperu
 

La actualidad más candente (7)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Presentación Minería de Datos
Presentación Minería de DatosPresentación Minería de Datos
Presentación Minería de Datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 

Similar a Dm 01

Estrategia para la Apertura de Datos
Estrategia para la Apertura de DatosEstrategia para la Apertura de Datos
Estrategia para la Apertura de Datos
SocialTIC
 
Actividad analisis modulo 1
Actividad analisis modulo 1Actividad analisis modulo 1
Actividad analisis modulo 1
Julian Castro
 
Actividad Analisis Modulo 1
Actividad Analisis Modulo 1Actividad Analisis Modulo 1
Actividad Analisis Modulo 1
Fabian Camargo
 
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdfSesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Juan225106
 

Similar a Dm 01 (20)

Un adm desarrollo de software
Un adm desarrollo de softwareUn adm desarrollo de software
Un adm desarrollo de software
 
Session01.pptx
Session01.pptxSession01.pptx
Session01.pptx
 
Estrategia para la Apertura de Datos
Estrategia para la Apertura de DatosEstrategia para la Apertura de Datos
Estrategia para la Apertura de Datos
 
Creando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organizaciónCreando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organización
 
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware ai
 
CLASE_1_INTRODUCCION_A_LA_INTELIGENCIA_D.pptx
CLASE_1_INTRODUCCION_A_LA_INTELIGENCIA_D.pptxCLASE_1_INTRODUCCION_A_LA_INTELIGENCIA_D.pptx
CLASE_1_INTRODUCCION_A_LA_INTELIGENCIA_D.pptx
 
Hablemos de Big Data
Hablemos de Big DataHablemos de Big Data
Hablemos de Big Data
 
Análisis de Datos.pdf
Análisis de Datos.pdfAnálisis de Datos.pdf
Análisis de Datos.pdf
 
Investigación de mercados, el proceso.
Investigación de mercados, el proceso. Investigación de mercados, el proceso.
Investigación de mercados, el proceso.
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
 
Seminarios de Analítica Predictiva con Rapid Miner
Seminarios de Analítica Predictiva con Rapid MinerSeminarios de Analítica Predictiva con Rapid Miner
Seminarios de Analítica Predictiva con Rapid Miner
 
Actividad analisis modulo 1
Actividad analisis modulo 1Actividad analisis modulo 1
Actividad analisis modulo 1
 
Actividad Analisis Modulo 1
Actividad Analisis Modulo 1Actividad Analisis Modulo 1
Actividad Analisis Modulo 1
 
Sistemas de información 2013
Sistemas de información 2013Sistemas de información 2013
Sistemas de información 2013
 
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdfSesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
Sesion-1-Carlos-Real-y-Antonio-Gazquez.pdf
 
Sistemas_de_información
Sistemas_de_informaciónSistemas_de_información
Sistemas_de_información
 
Sistemas de información javier noboa
Sistemas de información javier noboaSistemas de información javier noboa
Sistemas de información javier noboa
 
Tendencias emergentes de e-learning: MOOCs, gamificación y datos masivos
Tendencias emergentes de  e-learning: MOOCs, gamificación y datos masivosTendencias emergentes de  e-learning: MOOCs, gamificación y datos masivos
Tendencias emergentes de e-learning: MOOCs, gamificación y datos masivos
 

Último

Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
frank0071
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.
ChiquinquirMilagroTo
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
frank0071
 
El Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETCEl Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETC
J0S3G4LV1S
 

Último (20)

SESION 3º caracteristicas de los seres vivos.pdf
SESION 3º caracteristicas de los seres vivos.pdfSESION 3º caracteristicas de los seres vivos.pdf
SESION 3º caracteristicas de los seres vivos.pdf
 
Enfermeria_Geriatrica_TeresaPerezCastro.doc
Enfermeria_Geriatrica_TeresaPerezCastro.docEnfermeria_Geriatrica_TeresaPerezCastro.doc
Enfermeria_Geriatrica_TeresaPerezCastro.doc
 
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.
 
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdfLOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
 
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptxEl Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
 
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxMapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
 
El Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETCEl Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETC
 
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDFCUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
 
Trichomonas es un género de parásitos protozoarios flagelados.
Trichomonas es un género de parásitos protozoarios flagelados.Trichomonas es un género de parásitos protozoarios flagelados.
Trichomonas es un género de parásitos protozoarios flagelados.
 
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALESLIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
 
Musculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculosMusculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculos
 
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptxCASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
 
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
 
La Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vidaLa Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vida
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...
Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...
Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...
 
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCREINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
 
Ecuaciones Diferenciales de Primer Orden
Ecuaciones Diferenciales de Primer OrdenEcuaciones Diferenciales de Primer Orden
Ecuaciones Diferenciales de Primer Orden
 

Dm 01

  • 2. Contenido • Detalles Administrativos • ¿Que quiero hacer con este curso? • Algunas definiciones • Aplicaciones • Tecnicas Cubiertas • RapidMiner/Tableau/MySQL
  • 3. Detalles Administrativos • Oficina: 4064 • Telefono: 154 • Email: Carlos.Quintanilla@incae.edu
  • 4. Evaluacion • Calificacion final del curso estara basada en 3 criterios con los siguientes pesos: • Trabajos en Grupo, 25% • Participacion en Clase, 30% • Examen Final, 45%
  • 5. Trabajos en Grupo • Trabajo # 1: Caso Segmentacion Tarjetas de Credito • A entregarse este viernes (22/3/13) • Trabajo # 2: Caso Unificador • Semana 4 del curso. Mas detalles mas adelante.
  • 6. Necesito Grupos • 49 estudiantes registrados al dia de ayer • 9 grupos de 5; 1 grupo de 4 • (por afinidad si es posible) • Primer grupo de 4 que envie sus nombres seran el grupo de 4. • El resto, sin excepcion, son de 5.
  • 7. ¿Que quiero hacer en este curso? • Pero antes... • Que esperan ustedes de el? • Por que se registraron para este curso? • Quienes se registran para este curso? (Mi teoria)
  • 8. ¿Que es este curso? • (Curso de Segundo Año) • Es un curso altamente cuantitativo • Es un curso intensivo en el uso de software y tecnologia • pero... • Es una criatura diferente de Metodos Cuantitativos.
  • 9. Que es este curso? • Es un curso survey • Tiene la estructura identica a un seminario que ensenamosVictor Donaire y yo en 2007
  • 10. Que es este curso? • Quiero que conozcan las principales aplicaciones de Data Mining en el mundo de los negocios • Quiero exponerlos a una serie de tecnicas de Data Mining, mas que hacerlos expertos en ellas (mis notas reflejan esta “filosofia”) • Quiero que conozcan un buen paquete de software con capacidad industrial (no mas software Mickey Mouse)
  • 11. Que es este curso? • Quiero que aprendan a enseñarse cosas a ustedes mismos? Enfasis en aprender el proceso. Facil substituir una de las 6 tecnicas que enseñare por las 200 que no enseñare. • Quiero darles una serie de referencias a articulos y libros que puedan consultar cuando ya no sean estudiantes de INCAE.
  • 12. Que es este curso? • Pero, sobre todo, quiero que aprendan los elementos basicos para diseñar un proyecto de Data Mining con el objeto primordial de resolver un problema concreto de una empresa.
  • 14. 15 Researcher view Algorithms and Theory Database Systems Tomado de “A Data Miner’s Story” por U. Fayyad
  • 15. 16 Practitioner view Systems and integration Database Algorithms Customer Tomado de “A Data Miner’s Story” por U. Fayyad
  • 18. Pero... necesito su ayuda • Que saquemos del curso discusiones sobre software requiere que ustedes vean los tutoriales antes de clase • Que saquemos una buena parte de la discusion teorica supone que ustedes leeran las notas o veran los videos sobre teoria • Yo solia decir:“El que solo viene a mi curso y pone atencion, sale bien”. • Eso ya no es cierto en este curso.
  • 19. Todo comienza con Datos • “De acuerdo a un estimado, la humanidad creo 150 exabytes (mil millones de Gb) de datos en 2005. Este año (2010), creara 1,200 exabytes.
  • 20. Todo comienza con Datos • “Simplemente mantener el paso de este flujo, y guardar lo que consideramos util, es lo suficientemente dificil. • “Analizarlo, para descubrir patrones y extraer informacion util es aun mas dificil” • (The Economist. The Data Deluge. Feb 2010.)
  • 21.
  • 22. Interseccion de Muchas Disciplinas Statistics Management Science & Information Systems ArtificialIntelligence Databases Pattern Recognition Machine Learning Mathematical Modeling DATA MINING
  • 23. Que es Data Mining? • Berry & Linoff la definen como: • “Data Mining es la exploracion y analisis, por medios automaticos o semi-automaticos, de grandes cantidades de datos con el proposito de descubrir patrones y reglas interesantes”
  • 24. Que es Data Mining? • Hand, Mannila & Smyth ofrecen una definicion semejante: • “Data Mining es el analisis de bases de datos observacionales (a menudos inmensas) con el objetivo de encontrar relaciones no sospechadas y resumir los datos en maneras novedosas que sean ambas: entendibles y utiles para el dueño de los datos”
  • 25. Que es Data Mining? • Los datos, las bases de datos de una compañia son, en palabras de Thomas Redman, the ultimate proprietary technology.
  • 26. “We are drowning in data, but starving for information”
  • 27. Por que es relevante hoy? • “Los datos estan siendo generados. • Los datos estan siendo guardados. • Las computadoras actuales nos permiten este analisis. • El software para hacerlo esta disponible comercial y muchas veces gratuitamente. • La presion de la competencia es fuerte.”
  • 28. Algunas historias de exito • Capital One • Amazon.com • Netflix • Atleticos de Oakland/Boston Redsox • Harrah’s Entertainment
  • 30. Dificultades • Enseñar Data Mining “en general” es: • Enseñar las tecnicas de Data Mining • Enseñar a usar un paquete de software para poder aplicar estas tecnicas
  • 31. Dificultades • Enseñar Data Mining un programa de MBA es: • Enseñar las tecnicas de Data Mining • Enseñar a usar un paquete de software para poder aplicar estas tecnicas • Enseñar en el contexto de un caso en el que las tecnicas y el software nos ayudan a resolver un problema de negocios concreto
  • 33. Integracion Tecnicas de Agrupamiento o Clustering • Segmentacion de Clientes • Existen grupos de clientes que se comporten de manera semejante y que puedan tratarse de manera semejante?
  • 34. Integracion Reglas de Asociacion • Market Basket Analysis • Existen grupos de prodcutos que nuestros clientes tienden a comprar juntos? • Podemos diseñar programas de ventas cruzadas o de upselling?
  • 35. Integracion Regresion Lineal Arboles de Regresion KNN • Profiling/Prospecting • Perfil de nuestros clientes: Cuanto nos comprara un cliente con estas caracteristicas? • Que tipo de cliente debemos ir a buscar? • Perfil rentabilidad de nuestros clientes
  • 36. Integracion Regresion Logistica Arboles de Clasificacion Naive Bayes • Adquisicion/Retencion/ Desercion • A que clientes debemos contactar para iniciar una relacion de negocios? Cuales debemos evitar? • Que clientes estamos en riesgo de perder? Podemos identificarlos? Podemos hacer algo para retenerlos?
  • 37. El Proceso de Data Mining
  • 38. Uso de Tiempo por Fase • Business Understanding (5-15 %) • Data Understanding (5-10%) • Data Preparation (50-60%) • Modeling (5-15%) • Evaluation (5-10%) • Deployment (10-15%)
  • 39. El Proceso de Data Mining
  • 40. El Proceso de Data Mining
  • 41.
  • 42. Software y Hardware en este Curso • RapidMiner • (Re) Programa deVisualizacion • Tableau Desktop (Windows) • Mondrian (Windows/Mac) • (Op) MySQL GUIs (HeidiSQL para PCs; Sequel Pro para Macs) • Sus Laptops • Amazon EC2
  • 43. Datos • CSV • Hojas estaran disponibles en la pagina del curso • MySQL • Servidor Amazon: • datamining2013.cvwlzmyzngdg.us-east-1.rds.amazonaws.com • username: nombreapellido (a sus emails de incae les quite el punto pero... 16 caracteres max) • password: student_id (5 numeros)
  • 44. Software • Echemosle un vistazo a RapidMiner.