El documento presenta una introducción a los conceptos de data mining y data warehouse. Explica que el data mining es el proceso de analizar grandes volúmenes de datos para extraer patrones y conocimiento útil. Se compone de varias etapas como la preparación de datos, extracción del conocimiento, interpretación y evaluación. También describe diferentes técnicas de data mining como árboles de decisión, redes neuronales y agrupamiento. Los data warehouses no son necesarios para el data mining pero tienen ventajas cuando los datos son grandes o heterogéneos.
Charla de Introducción al Data Mining dada en el Posgrado de BI de la UTN Regional Buenos Aires, el martes 23 de Octubre del 2012 (http://bitly.com/REorwN).
Entérese de las actividades a llevar a cabo para obtener un modelo de minería de datos a partir de un caso del dominio público. En la sesión se describe y trabaja el caso "Insurance". Por medio de herramientas de modelado de Md se obtienen modelos de clasificación y se lleva a cabo el post proceso en Excel para obtener la conclusión comercial del modelo.
Se describen actividades posteriores para la extrapolación de los resultados de la muestra a una campaña con un mayor número de clientes potenciales.
El asistente a la sesión virtual se enterará de:
a) Qué es la minería de datos y porqué las técnicas son importantes en este momento de "Big Data".
b) Qué son los modelos de clasificación.
c) Cómo aplicarlos a un caso de campaña con costo de promoción y utilidad al hacer "hit".
Charla de Introducción al Data Mining dada en el Posgrado de BI de la UTN Regional Buenos Aires, el martes 23 de Octubre del 2012 (http://bitly.com/REorwN).
Entérese de las actividades a llevar a cabo para obtener un modelo de minería de datos a partir de un caso del dominio público. En la sesión se describe y trabaja el caso "Insurance". Por medio de herramientas de modelado de Md se obtienen modelos de clasificación y se lleva a cabo el post proceso en Excel para obtener la conclusión comercial del modelo.
Se describen actividades posteriores para la extrapolación de los resultados de la muestra a una campaña con un mayor número de clientes potenciales.
El asistente a la sesión virtual se enterará de:
a) Qué es la minería de datos y porqué las técnicas son importantes en este momento de "Big Data".
b) Qué son los modelos de clasificación.
c) Cómo aplicarlos a un caso de campaña con costo de promoción y utilidad al hacer "hit".
Es aquí donde se introduce la minería de datos. Ésta, una tecnología cuyo objetivo es mirar los
datos más allá de consultarlos; se analizan, se emplean variadas técnicas para ver que comportamientos tienen
un subgrupo de éstos, grandes o pequeños, y se descubre nueva información, generando así nuevo conocimiento el cual puede ser de vital utilidad para el negocio y para sus tomas de decisiones.
En esta plática se dará un breve repaso sobre el enfoque de los modelos de la Minería de Datos, Inteligencia de Negocios y Sistemas de soporte.
Se indicará como utilizar algunos recursos para aprender de manera autodidacta, los recursos que existen en torno a la minería, incluyendo el acceso a bases de datos. El participante podrá aprender algunos atajos para la descarga y lectura de archivos, limpieza básica y extracción de datos, así como algunas técnicas de minería de datos.
¿Qué es un modelo predictivo y para qué vale?Scoremind
Los modelos predictivos permiten estimar cual es el comportamiento esperado del cliente utilizando los datos de uso de los servicios.
Para el desarrollo de los modelos se utilizan técnicas analíticas (data mining).
Esta conferencia se inicia con una introducción al fenómeno de los datos masivos en la sociedad digital actual, haciendo hincapié en las diferencias entre datos, información y conocimiento, el concepto de ‘data lake’ y los resultados que se pueden esperar tras analizar un conjunto de datos: predicción, pronóstico, prescripción… y sus diferentes matices. También se esboza una aproximación ingenua al fenómeno del ‘Big Data’. En segundo lugar, se aborda el aprovechamiento inteligente de esta valiosa materia prima, comenzando con el papel del ‘Científico de Datos’ y mostrando un mapa de las técnicas de Inteligencia Artificial y Aprendizaje Automático orientadas a tal propósito, junto con una descripción de la adecuación de estos métodos a los diferentes tipos de situaciones de análisis. Por último, se presentan los nuevos retos de este aprovechamiento de los datos masivos, sobre todo en lo que concierne a la búsqueda y acceso a la información y el análisis inteligente de textos con diversos propósitos.
3ª Sesión Técnica del Ciclo de Conferencias sobre BI, celebrada el 12 de junio. Fue conducida por Julio Iglesias, Director del Departamento de Business Intelligence en IFR Group, experto especializado en proyectos de este tipo, y profesor asociado de nuestra Escuela Universitaria
¿Qué significa realmente la minería de datos? ,¿Cómo se engloba en un proyecto de BI?, ¿Puede mi empresa con los datos que genera hacer proyectos de este tipo? Y ¿Dónde está el límite para abordar proyectos de este tipo?
Bancos, hospitales, empresas de retail y páginas web son algunos de los sectores que utilizan esta tecnología. A lo largo de la sesión se analizó qué significa y qué implica la minería de datos: concepto y definición, casos, algoritmos de utilización… y de forma práctica se vieron un par de proyectos de ejemplo de las posibilidades que ofrece esta tecnología tan aplicada en la actualidad. Los asistentes tuvieron la oportunidad de ver de primera mano cómo las empresas utilizan los datos y la estadística para crear ofertas personalizadas.
Es aquí donde se introduce la minería de datos. Ésta, una tecnología cuyo objetivo es mirar los
datos más allá de consultarlos; se analizan, se emplean variadas técnicas para ver que comportamientos tienen
un subgrupo de éstos, grandes o pequeños, y se descubre nueva información, generando así nuevo conocimiento el cual puede ser de vital utilidad para el negocio y para sus tomas de decisiones.
En esta plática se dará un breve repaso sobre el enfoque de los modelos de la Minería de Datos, Inteligencia de Negocios y Sistemas de soporte.
Se indicará como utilizar algunos recursos para aprender de manera autodidacta, los recursos que existen en torno a la minería, incluyendo el acceso a bases de datos. El participante podrá aprender algunos atajos para la descarga y lectura de archivos, limpieza básica y extracción de datos, así como algunas técnicas de minería de datos.
¿Qué es un modelo predictivo y para qué vale?Scoremind
Los modelos predictivos permiten estimar cual es el comportamiento esperado del cliente utilizando los datos de uso de los servicios.
Para el desarrollo de los modelos se utilizan técnicas analíticas (data mining).
Esta conferencia se inicia con una introducción al fenómeno de los datos masivos en la sociedad digital actual, haciendo hincapié en las diferencias entre datos, información y conocimiento, el concepto de ‘data lake’ y los resultados que se pueden esperar tras analizar un conjunto de datos: predicción, pronóstico, prescripción… y sus diferentes matices. También se esboza una aproximación ingenua al fenómeno del ‘Big Data’. En segundo lugar, se aborda el aprovechamiento inteligente de esta valiosa materia prima, comenzando con el papel del ‘Científico de Datos’ y mostrando un mapa de las técnicas de Inteligencia Artificial y Aprendizaje Automático orientadas a tal propósito, junto con una descripción de la adecuación de estos métodos a los diferentes tipos de situaciones de análisis. Por último, se presentan los nuevos retos de este aprovechamiento de los datos masivos, sobre todo en lo que concierne a la búsqueda y acceso a la información y el análisis inteligente de textos con diversos propósitos.
3ª Sesión Técnica del Ciclo de Conferencias sobre BI, celebrada el 12 de junio. Fue conducida por Julio Iglesias, Director del Departamento de Business Intelligence en IFR Group, experto especializado en proyectos de este tipo, y profesor asociado de nuestra Escuela Universitaria
¿Qué significa realmente la minería de datos? ,¿Cómo se engloba en un proyecto de BI?, ¿Puede mi empresa con los datos que genera hacer proyectos de este tipo? Y ¿Dónde está el límite para abordar proyectos de este tipo?
Bancos, hospitales, empresas de retail y páginas web son algunos de los sectores que utilizan esta tecnología. A lo largo de la sesión se analizó qué significa y qué implica la minería de datos: concepto y definición, casos, algoritmos de utilización… y de forma práctica se vieron un par de proyectos de ejemplo de las posibilidades que ofrece esta tecnología tan aplicada en la actualidad. Los asistentes tuvieron la oportunidad de ver de primera mano cómo las empresas utilizan los datos y la estadística para crear ofertas personalizadas.
La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.
La toma de decisiones precisa de conocimiento, el cual proviene de la información que el centro decisor posea. Dicha información surge del análisis de datos específicos y necesarios. La minería o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD); es un campo de la estadística y las ciencias de la computación, y se refiere al proceso de detección de patrones en grandes volúmenes de datos.
Big Data Analytics: Automatización de Modelos PredictivosDMC Perú
Big Data Analytics requiere de forma ineludible la automatización de las distintas etapas involucradas en el desarrollo y mantenimiento de modelos. Se analizan las características de la utomatización en tres áreas del Analytics: Forecasting, Minería de Datos y Optimización, sus potencialidades y limitaciones. Se extraen también algunas conclusiones sobre cómo mejorar la práctica actual del analista.
1. DATAWAREHOUSE
Datawarehouse
Minería de Datos
Fundamentos
CARRERA DE
INGENIERÍA
DE SISTEMAS
2. DATAWAREHOUSE
Agenda
● Introducción.
● Data Mining.
● Fases de un Proyecto Data Mining.
● Arquitectura de un Data Mining.
● Funcionamiento del Data Mining.
● Tipos de problemas.
● Técnicas de Minería de Datos.
● Almacenes de datos.
● Ventajas de Almacenes de Datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
3. DATAWAREHOUSE
Introducción
● El desarrollo de varias tecnologías enfocadas
a aprovechar los datos que se encuentran
escondidos en estos grandes volúmenes de
información.
CARRERA DE
INGENIERÍA
DE SISTEMAS
4. DATAWAREHOUSE
Introducción
● Las BDR, DW, Data Mart (DM), OLAP y OLTP
obtienen conclusiones en base a consultas
deductivas, en tiempos cortos y enormes
volúmenes de información, imposibles en un
proceso manual.
CARRERA DE
INGENIERÍA
DE SISTEMAS
5. DATAWAREHOUSE
Introducción
● Debido al gran volumen de datos el análisis
de los datos ya no puede ser manual (ni
incluso facilitado por herramientas de
almacenes de datos y OLAP) sino que ha de
ser (semi-)automático.
CARRERA DE
INGENIERÍA
DE SISTEMAS
6. DATAWAREHOUSE
Introducción
● Se define el data mining partiendo de la
distinción entre datos, información y
conocimiento.
CARRERA DE
INGENIERÍA
DE SISTEMAS
7. DATAWAREHOUSE
Introducción
● La minería de datos se diferencia en que no
solo transforma y facilita el acceso a la
información para que el usuario la analice más
fácilmente.
● La minería de datos analiza los datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
8. DATAWAREHOUSE
Data Mining
● La Minería de Datos es un conjunto de
técnicas de análisis de datos que permiten:
– Extraer patrones, tendencias y regularidades
para describir y comprender mejor los datos.
– Extraer patrones y tendencias para predecir
comportamientos futuros.
CARRERA DE
INGENIERÍA
DE SISTEMAS
9. DATAWAREHOUSE
Data Mining
● Los patrones válidos son un conjunto de datos,
deben ser útiles para el proceso de
prospección de datos y comprensibles para el
usuario (KDD).
CARRERA DE
INGENIERÍA
DE SISTEMAS
10. DATAWAREHOUSE
Data Mining
● La prospección de datos ( data mining ) se
inscribe en un proceso más amplio como es el
del descubrimiento de conocimiento dentro
de grandes bases de datos (KDD o knowledge
discovery in databases ).
CARRERA DE
INGENIERÍA
DE SISTEMAS
11. DATAWAREHOUSE
Data Mining
● La minería de datos es sólo una etapa del
proceso de extracción de conocimiento a
partir de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
12. DATAWAREHOUSE
Data Mining
● Este proceso consta de varias fases:
– Preparación de Datos (selección, limpieza, y
transformación), Minería de Datos,
Evaluación, Difusión y Uso de Modelos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
13. DATAWAREHOUSE
Fases de un proyecto de Data Mining
● Los pasos a seguir son:
– Filtrado de datos:
● El formato de las fuentes de datos no es el
idóneo. No es posible aplicar minería de datos
en datos en bruto. Actividad de
Preprocesamietno
– Selección de Variables:
● La selección de características reduce el
tamaño de los datos eligiendo las variables
mas influyentes en el modelo de
conocimiento.
CARRERA DE
INGENIERÍA
DE SISTEMAS
14. DATAWAREHOUSE
Fases de un proyecto de Data Mining
● Los pasos a seguir son:
– Extracción del conocimiento:
● Mediante técnicas se obtiene un modelo de
conocimiento, que representa patrones de
comportamiento observados.
– Interpretación y evaluación:
● Se valida el resultado, comprobando las
conclusiones sean satisfactorias. Comprobar
los modelos obtenidos. Modificar los pasos
para los modelos si ninguno es satisfactorio.
CARRERA DE
INGENIERÍA
DE SISTEMAS
15. DATAWAREHOUSE
Arquitectura de Minería de Datos
CARRERA DE
INGENIERÍA
DE SISTEMAS
16. DATAWAREHOUSE
Funcionamiento del Data Mining
● El data mining trabaja en un nivel superior
buscando:
– patrones de conducta,
– agrupaciones,
– secuencias,
– tendencias o
– asociaciones de datos
● que puedan generar algún modelo que
permita entender mejor el dominio con el
objetivo de facilitar la toma de decisiones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
17. DATAWAREHOUSE
Funcionamiento del Data Mining
● El data mining es reunir las ventajas de varias
áreas como:
● principalmente usando como materia prima las
bases de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
18. DATAWAREHOUSE
Tipos de problemas
● Existe una variada tipología de problemas:
– Clasificación,
– Categorización,
– Estimación / regresión,
– Agrupamiento,
– Etc.
CARRERA DE
INGENIERÍA
DE SISTEMAS
19. DATAWAREHOUSE
Técnicas de Minería de Datos
● Entre las técnicas tenemos:
– Arboles de decisión.
– Regresión lineal.
– Redes neuronales artificiales.
– Técnicas bayesianas.
– Maquina de soporte vectorial.
– Reglas de asociación.
– Reglas de clasificación.
CARRERA DE
INGENIERÍA
DE SISTEMAS
20. DATAWAREHOUSE
Técnicas de Minería de Datos
● Modelo de agregación ( clustering ), si nos
proponemos encontrar similitudes y agrupar
modelos semejantes . Un ejemplo sería
localizar grupos de datos similares.
CARRERA DE
INGENIERÍA
DE SISTEMAS
21. DATAWAREHOUSE
Técnicas de Minería de Datos
● Árboles de decisión, tanto si nuestro objetivo
es clasificar objetos como si nos interesa
obtener conocimiento para poder hacer
predicciones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
22. DATAWAREHOUSE
Técnicas de Minería de Datos
● Redes neuronales y las reglas de
clasificación, si nuestro objetivo es clasificar
objetos, estudiar las diferencias entre grupos,
sus características particulares.
CARRERA DE
INGENIERÍA
DE SISTEMAS
23. DATAWAREHOUSE
Técnicas de Minería de Datos
● Modelos predictivos clásicos de la
estadística, en el caso de que nuestro interés
sea obtener conocimiento a partir de los datos
que nos permita predecir acciones,
comportamientos, etc.
CARRERA DE
INGENIERÍA
DE SISTEMAS
24. DATAWAREHOUSE
Técnicas de Minería de Datos
● Modelos descriptivos como, las redes
bayesianas y, en menor grado, las reglas de
asociación, si nos proponemos encontrar y
expresar asociaciones significativas o
causales entre diversas variables, hacer
descripciones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
25. DATAWAREHOUSE
Almacenes de datos
● ¿Es necesario tener almacenes de datos
para realizar minería de datos?
– Los almacenes de datos no son
imprescindibles para hacer extracción de
conocimiento a partir de datos.
● Se puede hacer minería de datos sobre un
simple fichero de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
26. DATAWAREHOUSE
Ventajas de Almacenes de datos
● Las ventajas de almacén de datos se amortizan
sobradamente a medio y largo plazo cuando:
– tenemos grandes volúmenes de datos, o
– éstos aumentan con el tiempo, o
– provienen de fuentes heterogéneas o
– se van a combinar de maneras arbitrarias y
no predefinidas.
CARRERA DE
INGENIERÍA
DE SISTEMAS
27. DATAWAREHOUSE
Otras Minerías de Datos
● Existen otros …minings, como:
– TextMining
– WebMining.
CARRERA DE
INGENIERÍA
DE SISTEMAS