Introducción a la Minería de Datos con
KNIME
Diego García Saiz
Grupo de Lenguajes y Sistemas Informáticos
Universidad de Cantabria
Introducción al contexto
• Gran cantidad de datos almacenados.
– Por parte de empresas: marketing, hipermercados, servicios, banca,
etc.
– Redes Sociales: Facebook, Twitter, Tuenti, LinkedIn y otras muchas.
– Y en muchos otros ámbitos: educativo (cursos online), institucional
(gobierno), médico, etc.
• ¿Qué hacer con todos esos datos?.
– Podríamos utilizarlos para extraer información relevante con el objeto
de ayudar a la toma de decisiones en el negocio, el gobierno, la
sanidad, la educación, las ventas, etc.
– Para esto tenemos la Minería de Datos.
¿Minería de datos?. Definición formal
• El datamining (minería de datos), es el conjunto de
técnicas y tecnologías que permiten explotar grandes
cantidades de datos, de forma automática o
semiautomática, con el objetivo de encontrar patrones
repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado
contexto.
Más simple: La minería de datos es un
proceso consistente en entender y
extraer información relevante para el
desarrollo del negocio, que no podría
extraerse de otra forma.
No sólo de extraer patrones viven los
“datamineros”: CRIPS-DM
Tres grandes grupos de
algoritmos
• Agrupamiento (clustering).
• Reglas de asociación.
• Predicción: clasificación.
• Conjunto de técnicas de Minería de Datos que determinan y
asignan a los individuos o elementos a grupos de similares
características.
Consiste en diferenciar subconjuntos de datos que comparten
características similares.
Ejemplos:
Identificar rasgo comunes en un conjunto de la población.
Conocer los perfiles de usuario de una red social según su actividad.
Agrupar los datos de una campaña de marketing según sus
resultados.
Agrupamiento (clustering)
Agrupamiento (clustering)
• Ejemplo: Perfil de los alumnos en un curso online según la
actividad que desarrollan.
• Como datos, tenemos su actividad en el curso medida
en, tiempo dedicado, número de sesiones, mensajes
leídos y escritos en el foro, etc.
Resultado de aplicar el algoritmo Kmeans:
Agrupamiento (clustering)
Cluster 1 Cluster 2 Cluster 3
Tiempo Dedicado 103 minutos 1394 minutos 2917 minutos
Sesiones
dedicadas
10 sesiones 90 sesiones 180 sesiones
Mensajes escritos
en el foro
5 mensajes 21 mensajes 89 mensajes
Predicción: Clasificación
• Consiste en la clasificación de individuos en una determinada clase
según sus características, para poder inferir predicciones en un
futuro.
• Ejemplos: conocer si…
• … un cliente realizará una hipoteca con el banco.
• … las acciones de una empresa subirán o bajarán en un
momento determinado.
• … un alumno aprobará o suspenderá una asignatura.
• … un paciente tiene una enfermedad concreta según sus
síntomas y datos personales.
• … una campaña de marketing tendrá éxito.
Clasificación: Ejemplo
• Campaña de marketing telefónico de un banco portugués para
atraer clientes de depósitos
• Conjunto de datos: contiene información personal de los
clientes, incluida información bancaria.
• Estado civil (soltero, casado, viudo)
• Sexo
• Edad
• Mes de la llamada
• Hipotecas del cliente en el banco
• Créditos del cliente en el banco
• Y muchos otros…
• Resultados (algoritmo C4.5)
Duration
Age
Married
Credit
<= 211
> 211 and <=645
Clasificación: Ejemplo
> 645
> 60
yes
yesno
no
…
…
…
NO
YES
NO
Open Analytics - Minería de Datos con Knime

Open Analytics - Minería de Datos con Knime

  • 1.
    Introducción a laMinería de Datos con KNIME Diego García Saiz Grupo de Lenguajes y Sistemas Informáticos Universidad de Cantabria
  • 2.
    Introducción al contexto •Gran cantidad de datos almacenados. – Por parte de empresas: marketing, hipermercados, servicios, banca, etc. – Redes Sociales: Facebook, Twitter, Tuenti, LinkedIn y otras muchas. – Y en muchos otros ámbitos: educativo (cursos online), institucional (gobierno), médico, etc. • ¿Qué hacer con todos esos datos?. – Podríamos utilizarlos para extraer información relevante con el objeto de ayudar a la toma de decisiones en el negocio, el gobierno, la sanidad, la educación, las ventas, etc. – Para esto tenemos la Minería de Datos.
  • 3.
    ¿Minería de datos?.Definición formal • El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explotar grandes cantidades de datos, de forma automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Más simple: La minería de datos es un proceso consistente en entender y extraer información relevante para el desarrollo del negocio, que no podría extraerse de otra forma.
  • 4.
    No sólo deextraer patrones viven los “datamineros”: CRIPS-DM
  • 5.
    Tres grandes gruposde algoritmos • Agrupamiento (clustering). • Reglas de asociación. • Predicción: clasificación.
  • 7.
    • Conjunto detécnicas de Minería de Datos que determinan y asignan a los individuos o elementos a grupos de similares características. Consiste en diferenciar subconjuntos de datos que comparten características similares. Ejemplos: Identificar rasgo comunes en un conjunto de la población. Conocer los perfiles de usuario de una red social según su actividad. Agrupar los datos de una campaña de marketing según sus resultados. Agrupamiento (clustering)
  • 8.
  • 9.
    • Ejemplo: Perfilde los alumnos en un curso online según la actividad que desarrollan. • Como datos, tenemos su actividad en el curso medida en, tiempo dedicado, número de sesiones, mensajes leídos y escritos en el foro, etc. Resultado de aplicar el algoritmo Kmeans: Agrupamiento (clustering) Cluster 1 Cluster 2 Cluster 3 Tiempo Dedicado 103 minutos 1394 minutos 2917 minutos Sesiones dedicadas 10 sesiones 90 sesiones 180 sesiones Mensajes escritos en el foro 5 mensajes 21 mensajes 89 mensajes
  • 10.
    Predicción: Clasificación • Consisteen la clasificación de individuos en una determinada clase según sus características, para poder inferir predicciones en un futuro. • Ejemplos: conocer si… • … un cliente realizará una hipoteca con el banco. • … las acciones de una empresa subirán o bajarán en un momento determinado. • … un alumno aprobará o suspenderá una asignatura. • … un paciente tiene una enfermedad concreta según sus síntomas y datos personales. • … una campaña de marketing tendrá éxito.
  • 11.
    Clasificación: Ejemplo • Campañade marketing telefónico de un banco portugués para atraer clientes de depósitos • Conjunto de datos: contiene información personal de los clientes, incluida información bancaria. • Estado civil (soltero, casado, viudo) • Sexo • Edad • Mes de la llamada • Hipotecas del cliente en el banco • Créditos del cliente en el banco • Y muchos otros…
  • 12.
    • Resultados (algoritmoC4.5) Duration Age Married Credit <= 211 > 211 and <=645 Clasificación: Ejemplo > 645 > 60 yes yesno no … … … NO YES NO