Entérese de las actividades a llevar a cabo para obtener un modelo de minería de datos a partir de un caso del dominio público. En la sesión se describe y trabaja el caso "Insurance". Por medio de herramientas de modelado de Md se obtienen modelos de clasificación y se lleva a cabo el post proceso en Excel para obtener la conclusión comercial del modelo.
Se describen actividades posteriores para la extrapolación de los resultados de la muestra a una campaña con un mayor número de clientes potenciales.
El asistente a la sesión virtual se enterará de:
a) Qué es la minería de datos y porqué las técnicas son importantes en este momento de "Big Data".
b) Qué son los modelos de clasificación.
c) Cómo aplicarlos a un caso de campaña con costo de promoción y utilidad al hacer "hit".
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadasBig-Data-Summit
El objetivo de la charla es el de brindar una visión global de los distintos paradigmas de procesamiento que existen en Big data y de las tecnologías de última generación asociadas a cada uno de las etapas necesarias para desarrollar un proyecto Big Data.
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadasBig-Data-Summit
El objetivo de la charla es el de brindar una visión global de los distintos paradigmas de procesamiento que existen en Big data y de las tecnologías de última generación asociadas a cada uno de las etapas necesarias para desarrollar un proyecto Big Data.
Implementing the Data Maturity Model (DMM)DATAVERSITY
The Data Management Maturity (DMM) model is a framework for the evaluation and assessment of an organization’s Data Management capabilities. This model—based on the Capability Maturity Model pioneered by the U.S. Department of Defense for improving software development processes—allows an organization to evaluate its current-state Data Management capabilities, discover gaps to remediate, and identify strengths to leverage. In doing so, this assessment method reveals organizational priorities, business needs, and a clear path for rapid process improvements.
In this webinar, we will:
Describe the DMM model, its purpose and evolution, and how it can be used as a roadmap for assessing and improving organizational Data Management and Data Management Maturity
Discuss how to get the most out of a DMM assessment, including its dependencies and requirements for use
Discuss foundational DMM concepts based on “The DAMA Guide to the Data Management Body of Knowledge” (DAMA DMBOK)
También conocido como no sólo sql (Not only sql) es una amplia clase de sistemas de gestión de datos, caracterizado por no usar SQL como el principal lenguaje de consultas. Capaz de almacenar grandes cantidades de datos facilitando un crecimiento horizontal, enfocándose en rendimiento más que en consistencia.
“NoSQL realmente es NoREL, es decir, Base de Datos No-Relacional”
Objetivo: Identificar los conceptos de Inteligencia de negocios mediante el análisis de datos para conocer su importancia que tiene dentro de las organizaciones
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
Temas relacionados con Ciencia de Datos:
• Importancia de la calidad de datos
• Atributos de calidad de los datos
• Diversos tipos y fuentes de datos
• Actividades para la limpieza de datos
• Procesos de integración de datos: ETL vs ELT
Key Considerations While Rolling Out Denodo PlatformDenodo
Watch full webinar here: https://bit.ly/3zaPGLO
Our approach for data virtualization advisory takes the following 3 dimensions/areas into consideration:
- Technology / Architecture
- Business User Groups (your clients)
- IT Organization
To deliver quick results, Q-PERIOR uses a multitude of accelerators in predefined topics within these three dimensions. In our presentation we will elaborate on client examples why such an exercise makes sense before rolling out Denodo and what kind of risks you can avoid doing so.
Learn the importance of Data Quality and the six key steps that you can take and put into process to help you realize tangible ROI on your data quality initiative.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados) analisada à luz dos modelos DAMA/DMBOK(Data Management Association) e DMM(Data Management Maturity Model do CMMI Institute). Por aspectos de direitos, foram refeitos diagramas do modelo DMBOK.
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...DATAVERSITY
Data can provide tremendous value to an organization in today’s information-driven economy. New customer insights, better efficiency, and new product innovation are just some of the ways organizations are obtaining value through data. But in order to achieve this value, a strong data architecture is required to ensure that the data infrastructure runs smoothly, while at the same time aligning with business needs and corporate culture. A Data Strategy can assist in building a data architecture foundation through:
Identifying business requirements, rules & definitions via a business-centric data model
Creating a data inventory & integrating disparate data sources
Building a technical data architecture through data models & related artifacts
Coordinating the people, processes and culture necessary for success
Identifying tools & technology needed for creating & maintaining high quality data
Implementing the Data Maturity Model (DMM)DATAVERSITY
The Data Management Maturity (DMM) model is a framework for the evaluation and assessment of an organization’s Data Management capabilities. This model—based on the Capability Maturity Model pioneered by the U.S. Department of Defense for improving software development processes—allows an organization to evaluate its current-state Data Management capabilities, discover gaps to remediate, and identify strengths to leverage. In doing so, this assessment method reveals organizational priorities, business needs, and a clear path for rapid process improvements.
In this webinar, we will:
Describe the DMM model, its purpose and evolution, and how it can be used as a roadmap for assessing and improving organizational Data Management and Data Management Maturity
Discuss how to get the most out of a DMM assessment, including its dependencies and requirements for use
Discuss foundational DMM concepts based on “The DAMA Guide to the Data Management Body of Knowledge” (DAMA DMBOK)
También conocido como no sólo sql (Not only sql) es una amplia clase de sistemas de gestión de datos, caracterizado por no usar SQL como el principal lenguaje de consultas. Capaz de almacenar grandes cantidades de datos facilitando un crecimiento horizontal, enfocándose en rendimiento más que en consistencia.
“NoSQL realmente es NoREL, es decir, Base de Datos No-Relacional”
Objetivo: Identificar los conceptos de Inteligencia de negocios mediante el análisis de datos para conocer su importancia que tiene dentro de las organizaciones
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
Temas relacionados con Ciencia de Datos:
• Importancia de la calidad de datos
• Atributos de calidad de los datos
• Diversos tipos y fuentes de datos
• Actividades para la limpieza de datos
• Procesos de integración de datos: ETL vs ELT
Key Considerations While Rolling Out Denodo PlatformDenodo
Watch full webinar here: https://bit.ly/3zaPGLO
Our approach for data virtualization advisory takes the following 3 dimensions/areas into consideration:
- Technology / Architecture
- Business User Groups (your clients)
- IT Organization
To deliver quick results, Q-PERIOR uses a multitude of accelerators in predefined topics within these three dimensions. In our presentation we will elaborate on client examples why such an exercise makes sense before rolling out Denodo and what kind of risks you can avoid doing so.
Learn the importance of Data Quality and the six key steps that you can take and put into process to help you realize tangible ROI on your data quality initiative.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados) analisada à luz dos modelos DAMA/DMBOK(Data Management Association) e DMM(Data Management Maturity Model do CMMI Institute). Por aspectos de direitos, foram refeitos diagramas do modelo DMBOK.
Lessons in Data Modeling: Why a Data Model is an Important Part of Your Data ...DATAVERSITY
Data can provide tremendous value to an organization in today’s information-driven economy. New customer insights, better efficiency, and new product innovation are just some of the ways organizations are obtaining value through data. But in order to achieve this value, a strong data architecture is required to ensure that the data infrastructure runs smoothly, while at the same time aligning with business needs and corporate culture. A Data Strategy can assist in building a data architecture foundation through:
Identifying business requirements, rules & definitions via a business-centric data model
Creating a data inventory & integrating disparate data sources
Building a technical data architecture through data models & related artifacts
Coordinating the people, processes and culture necessary for success
Identifying tools & technology needed for creating & maintaining high quality data
La mineria de Datos
¿Qué es Mineria de datos?
¿Para qué? ¿de dónde surge?
CAMPOS DE APLICACIÓN DE LA MINERÍA DE DATOS
METODOLOGÍA DE LA MINERÍA DE DATOS
Tareas de la minería de datos
Ejemplo
MINERIA DE DATOS
Es un sistemas de bases de datos con el objetivo de extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior, ya sea en la segmentación de clientes, perfilación, pos-ventas , entre otras. Todo y cada unos de los datos suministrados en los sistemas de información forman parte o contribuyen a la creación de la minería de datos.
es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.1 Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y de gestión de datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la visualización y de la actualización en línea.
Es aquí donde se introduce la minería de datos. Ésta, una tecnología cuyo objetivo es mirar los
datos más allá de consultarlos; se analizan, se emplean variadas técnicas para ver que comportamientos tienen
un subgrupo de éstos, grandes o pequeños, y se descubre nueva información, generando así nuevo conocimiento el cual puede ser de vital utilidad para el negocio y para sus tomas de decisiones.
Introducción al análisis predictivo con SQL ServerEduardo Castro
En esta presentación vemos los conceptos fundamentales de análisis predictivo con SQL Server.
Saludos,
Eduardo Castro
Microsoft SQL Server MVP
Comunidad Windows
Machine learning usando Weka, en un entorno de cómputo distribuidoSoftware Guru
En esta sesión mostraremos lo sencillo que es implementar algoritmos de machine learning en un entorno de cómputo distribuido por medio de Weka. Weka es una herramienta de software libre para data mining y machine learning, la cual fue desarrollada por la Universidad de Waikato en Nueva Zelanda.
Por Alexandra Lemus (VinkOS)
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...JCarlos Gonzalez Joyé
El objetivo del trabajo, es realizar el análisis , diseño e implementación de un modelo predictivo para una compañía de seguros en un entorno de datos masivos (Big Data) , utilizando para su implementación uno de los framework de Big Data Analytics Open Source más utilizados en la actualidad : Spark.
El caso de uso , está basado en una de las compañías Brasileñas de seguros más relevante del país “Porto Seguro” (https://www.portoseguro.com.br). El dataset utilizado, forma parte de una competición de Kaggle patrocinada por la aseguradora en 2017 (https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/data), cuyo objetivo era predecir la probabilidad de que un asegurado de la compañía realizase una reclamación o no a lo largo del siguiente año.
La metodología utilizada es CRISP-DM. Al tratarse de un trabajo de minería de datos (clasificación), es una metodología que garantiza cubrir todas las etapas del ciclo de vida del proyecto, haciendo participes a todos los stakeholders y adoptando una estrategia de calidad total.
El alcance de los resultados obtenidos, es una comparativa de rendimiento y precisión obtenidos con los diferentes algoritmos predictivos implementados en MLlib de Spark , aplicados sobre el conjunto de datos de Porto Seguro.
Empieza a utilizar Big Data en tus análisis
Vivimos en un mundo “Big Data”. Este término está relacionado con la tecnología para manejar inmensas cantidades de datos, recogidas en diferentes formatos y a partir de una gran variedad de orígenes cada segundo. Estos datos hablan de nosotros, de nuestra vida diaria y son recogidos tanto de fuentes nuevas como tradicionales, constituyendo una gran oportunidad de mejorar el conocimiento de los clientes.
Uno de los principales factores de éxito en las empresas de hoy es convertir esos grandes volúmenes de datos, siempre cambiantes y de orígenes diversos, en información válida para la toma de decisiones.
En este curso de big data aprenderás, desde un punto de vista práctico y realista, a abordar y resolver problemáticas analíticas desde entornos big data, dando respuestas a través de soluciones tecnológicas tanto en tiempo real como en diferido. Recorreremos contigo el camino desde el área de análisis de cliente, CRM o B.I. tradicionales hacia los nuevos retos en proyectos Big Data.
¿Quieres convertirte en un experto en Big Data?
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
La utilización de estructuras de datos adecuadas para cada problema hace que se simplifiquen en gran medida los tiempos de respuestas y la cantidad de cómputo realizada.
Por Nelson González
Onboarding new members into an engineering team is not easy on anyone. In a short period of time, the new team member is required to be able to bring professional
Por Victoriya Kalmanovich
El secreto para ser un desarrollador SeniorSoftware Guru
En esta charla platicaremos sobre el “secreto” y el camino para llegar a ser un desarrollador Senior, experiencia, consejos y recomendaciones que en estos 8 años
Por René Sandoval
Apache Airflow es una plataforma en la que podemos crear flujos de datos de manera programática, planificarlos y monitorear de manera centralizada.
Por Yesi Díaz
How thick data can improve big data analysis for business:Software Guru
En esta presentación hablaré sobre cómo el Análisis de Datos Gruesos, específicamente el análisis antropológico y semiótico, puede ayudar a mejorar los resultados del Big Data
Por Martin Cuitzeo
CoDi® es la nueva forma de realizar pagos digitales desarrollada por el Banco de México. Por medio de CoDi puedes realizar cobros y pagos desde tu celular, utilizando una cuenta bancaria o de alguna institución financiera, sin comisiones.
Por Cristian Jaramillo
Gestionando la felicidad de los equipos con Management 3.0Software Guru
En las metodologías agiles hablamos de equipos colaborativos, autogestionados y felices. hablamos de lideres serviciales. El management 3.0 nos ayuda a cultivar el mindset correcto, aquel que servirá como el terreno fértil para que la agilidad florezca.
Por Andrea Vélez Cárdenas
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
Hoy por hoy las experiences de usuario pueden ser enriquecidas mediante el uso de Web Components, que son un estándar de la W3C soportado por la mayoría de los navegadores web modernos.
Por Alex Arriaga
Así publicamos las apps de Spotify sin stressSoftware Guru
En Spotify tenemos 1600+ ingenieros, trabajando en 280+ squads. Aún a esta escala, hemos logrado adoptar prácticas que nos han permitido acelerar la forma en que desarrollamos nuestro producto. Presentado por Erick Camacho en SG Virtual Conference 2020
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
he measure of the executive, Peter F. Drucker reminds us, is the ability to "get the right things done." This involves having clarity on what are the right things as well as avoiding what is unproductive. Intelligence, creativity, and knowledge may all be wasted if not put to work on the things that matter.
Presentado por Cristina Nistor en SG Virtual Conference 2020
Acciones de comunidades tech en tiempos del Covid19Software Guru
Acciones de Comunidades Tech en tiempo del COVID-19 es una platica para informar acerca de las acciones que están realizando algunas comunidades de tecnología en México para luchar contra la propagación del COVID-19. Desde análisis de datos, visualizaciones, simulaciones de contagio, etc.
Presentado por Juana Martínez, Adriana Vallejo y Eduardo Ramírez en SG Virtual Conference 2020
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
La charla presenta un modelo claro, generado por la ponente, para atender los niveles desde lo operativo a lo estratégico.
Presentado por Gabriela Salinas en SG Virtual Conference
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...espinozaernesto427
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta intensidad son un tipo de lámpara eléctrica de descarga de gas que produce luz por medio de un arco eléctrico entre electrodos de tungsteno alojados dentro de un tubo de alúmina o cuarzo moldeado translúcido o transparente.
lámparas más eficientes del mercado, debido a su menor consumo y por la cantidad de luz que emiten. Adquieren una vida útil de hasta 50.000 horas y no generan calor alguna. Si quieres cambiar la iluminación de tu hogar para hacerla mucho más eficiente, ¡esta es tu mejor opción!
Las nuevas lámparas de descarga de alta intensidad producen más luz visible por unidad de energía eléctrica consumida que las lámparas fluorescentes e incandescentes, ya que una mayor proporción de su radiación es luz visible, en contraste con la infrarroja. Sin embargo, la salida de lúmenes de la iluminación HID puede deteriorarse hasta en un 70% durante 10,000 horas de funcionamiento.
Muchos vehículos modernos usan bombillas HID para los principales sistemas de iluminación, aunque algunas aplicaciones ahora están pasando de bombillas HID a tecnología LED y láser.1 Modelos de lámparas van desde las típicas lámparas de 35 a 100 W de los autos, a las de más de 15 kW que se utilizan en los proyectores de cines IMAX.
Esta tecnología HID no es nueva y fue demostrada por primera vez por Francis Hauksbee en 1705. Lámpara de Nernst.
Lámpara incandescente.
Lámpara de descarga. Lámpara fluorescente. Lámpara fluorescente compacta. Lámpara de haluro metálico. Lámpara de vapor de sodio. Lámpara de vapor de mercurio. Lámpara de neón. Lámpara de deuterio. Lámpara xenón.
Lámpara LED.
Lámpara de plasma.
Flash (fotografía) Las lámparas de descarga de alta intensidad (HID) son un tipo de lámparas de descarga de gas muy utilizadas en la industria de la iluminación. Estas lámparas producen luz creando un arco eléctrico entre dos electrodos a través de un gas ionizado. Las lámparas HID son conocidas por su gran eficacia a la hora de convertir la electricidad en luz y por su larga vida útil.
A diferencia de las luces fluorescentes, que necesitan un recubrimiento de fósforo para emitir luz visible, las lámparas HID no necesitan ningún recubrimiento en el interior de sus tubos. El propio arco eléctrico emite luz visible. Sin embargo, algunas lámparas de halogenuros metálicos y muchas lámparas de vapor de mercurio tienen un recubrimiento de fósforo en el interior de la bombilla para mejorar el espectro luminoso y reproducción cromática. Las lámparas HID están disponibles en varias potencias, que van desde los 25 vatios de las lámparas de halogenuros metálicos autobalastradas y los 35 vatios de las lámparas de vapor de sodio de alta intensidad hasta los 1.000 vatios de las lámparas de vapor de mercurio y vapor de sodio de alta intensidad, e incluso hasta los 1.500 vatios de las lámparas de halogenuros metálicos.
Las lámparas HID requieren un equipo de control especial llamado balasto para funcionar
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
1. Minería de Datos para
Principiantes
Webimar
Software Guru
23 de octubre de 2013
Por Rafael Gregorio Gamboa Hirales
ITAM
2. Agenda
• La Minería de Datos. Objetivo.
• Modelos, fundamentos y técnicas.
• Herramientas Comerciales para MD.
– Software libre
– Software propietario
• Caso de ejemplo de un modelo de
clasificación con aplicación comercial.
• Conclusiones
Minería de Datos para Principiantes.
2
3. La Minería de Datos. Objetivo.
El objetivo de la MD es el desarrollo y aplicación de
procesos de estimación de valores objetivo. Se
tienen dos situaciones:
1. Obtener la estimación del “grado de
pertenencia” de un elemento a una clase.
2. Obtener la estimación del valor de una variable
que representa una cantidad directa y
objetivamente medible.
Muy importante: La MD se basa en casos (datos) de
experiencias pasadas en los que ya sabemos el
valor de la “variable objetivo”.
Minería de Datos para Principiantes.
3
4. Modelos
Con estas dos situaciones en mente podemos desarrollar
modelos para:
i.
Clasificar clientes como los que están en el grupo que
responde a una promoción con cierta “probabilidad” (o que
la densidad de casos “exitosos” está arriba de cierta
densidad).
ii. Pronosticar o estimar el valor esperado de una variable del
“negocio” estando esta variable en un rango continuo de
valores.
iii. Obtener grupos de clientes de acuerdo a sus características
y/o comportamiento.
Minería de Datos para Principiantes.
4
5. Modelos, fundamentos y técnicas.
El fundamento teórico ad-hoc es la Estadística.
Ello nos permite elaborar pruebas de hipótesis y
validar nuestros modelos.
Sin embargo en ocasiones los negocios nos
demandan desarrollo mas rápidos de los modelos.
Por ello, en MD procedemos “partiendo” nuestro
conjunto de datos en al menos dos subconjuntos y
los utilizamos para desarrollar y “verificar”,
“probar” o “validar” nuestro modelo.
Minería de Datos para Principiantes.
5
6. Pre - requisitos
Los pasos que seguiremos suponen que:
1. Conocemos a la perfección las variables que
definen nuestro conjunto de datos.
2. Los datos son de “buena calidad”.
3. Se han eliminado variables “redundantes”.
4. Los dos conjuntos elegidos tienen características
similares al del conjunto original y estas
características se conservan en el conjunto al
cual se ha de aplicar el modelo.
Minería de Datos para Principiantes.
6
7. Proceso de elaboración del modelo
Paso 0: Partir los datos en los dos subconjuntos
mencionados. Diremos que los subconjuntos
son conjunto de entrenamiento y conjunto de
prueba.
Paso 1: “Entrenar”, - i.e. obtener los parámetros
del modelo que hacen que la V.O. se “calcule” en
términos de las variables de soporte,- uno o más
modelos con el conjunto de entrenamiento.
Minería de Datos para Principiantes.
7
8. Paso 2) “Validar” o probar el modelo
aplicándolo al conjunto de (datos de) prueba.
Paso 3) Si el resultado es “aceptable” ya
acabamos, en caso contrario debemos iterar
eligiendo otros “Modeladores” y/o
transformando las variables de soporte o
modificando el enfoque mismo del problema.
Minería de Datos para Principiantes.
8
9. ¿Cómo saber si el modelo es “aceptable”?
La bondad (de ajuste) del modelo tiene que ver con el
objetivo de “negocio” a obtener. Por ejemplo, maximizar
utilidad, minimizar costo, o bien se define una función de
utilidad ad-hoc (no necesariamente monetaria).
Otra situación se plantea en el desarrollo de un modelo para
recomendar el tratamiento ( de entre cinco posibles
tratamientos) para un padecimiento. Es posible que para
ciertos casos no sea muy relevante el “entrecruzamiento” de
la decisión, i.e. si a un paciente en lugar de recomendarle el
mejor tratamiento según sus características se le recomienda
un sub-óptimo. Pero si el paciente es diabético si que puede
ser muy importante. Por ello conviene penalizar estos casos
para que el modelo se “equivoque” lo menos posible en ellos.
Minería de Datos para Principiantes.
9
10. Campaña de promoción de la venta de
un producto o servicio.
Se desea realizar una campaña promoviendo un
producto/servicio. Consideraremos el caso más simple:
El costo de promoción es c unidades monetarias, c > 0.
El ingreso es f unidades monetarias. Supondremos f > c.
Esto implica que en caso de “hacer hit” se tendrá una
utilidad u = f – c unidades monetarias.
En caso de “no hacer hit” se pierden c unidades
monetarias.
Digamos VO e {0,1}, 1 = “hit”, si el cliente compra.
Minería de Datos para Principiantes.
10
11. Densidad de umbral
Ahora consideremos el concepto de “densidad
de umbral”, que es la densidad de casos exitosos
que se requiere para que la campaña salga
“tablas”. i.e. si d* es la densidad de umbral:
d* x u – ( 1 – d* ) x c = 0; d* e [0,1].
Despejando d*:
d* = c/(u+c)
Minería de Datos para Principiantes.
11
12. Campaña intrínsecamente ganadora.
Modelo de Clasificación.
Bajo estas características y conceptos una campaña
será intrínsecamente ganadora si la densidad
original de casos exitosos en la muestra es mayor
que d*. (Aún en esos casos la MD puede hacer que
la utilidad sea mejor…)
Si la densidad original de casos exitosos es menor
que d* utilizamos la MD para tratar de obtener las
características de subconjuntos de casos que tienen
densidades mayores a la de umbral y poder calificar
nuevos casos con este modelo.
Minería de Datos para Principiantes.
12
13. Modeladores
Técnicas más populares
•
•
•
•
•
•
•
CART (Árboles de decisión)
Regresión Logística
Análisis Discriminante
Redes Neuronales
Vecinos Cercanos
Bayes Naive
Redes Bayesianas
Minería de Datos para Principiantes.
13
14. Resultado del modelado
El resultado del modelado es:
1. El modelo en sí, en ocasiones el código o parámetros que lo
implementan para ser ejecutado por procesos autónomos o
dependientes de la herramienta.
2. Las estadísticas del modelo y métricas de la “bondad de ajuste”,
como ROC, elevaciones o mejoras y matriz de confusión.
3. Los conjuntos de entrenamiento y prueba con sus “scores” o
“Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna
su valor de P(VO=1) y el complemento es P(VO=0).
Post procesamos estos registros y obtenemos la “Curva de Utilidad” la
cual indica la utilidad obtenida al ir procesando secuencialmente los
casos habiendo ordenado los casos de mayor a menor según el score o
“P(VO=1)”.
Minería de Datos para Principiantes.
14
15. Curva de utilidad
a) Ordenar descendentemente los casos del subconjunto
en cuestión (entrenamiento o prueba) de acuerdo a
“P(VO=1)”.
b) Para cada caso, si VO=1 ganamos la cantidad u, si
VO=0 perdemos la cantidad c.
c) Vamos acumulando la utilidad y pérdida desde el
“primer” caso hasta el caso del registro actual.
d) Graficamos el numero de caso en el eje horizontal y la
utilidad o pérdida acumulada en el eje vertical.
(Gráfica de dispersión para el caso general).
Minería de Datos para Principiantes.
15
16. Curva de Utilidad
CART
post procesado propio
Utilidad_Acum
Tree Train: Utilidades
Util_Real_acum
4000
Utilidad (Pérdida)
2000
0
-2000 0
2,000
4,000
6,000
-4000
-6000
-8000
-10000
-12000
-14000
Casos Promovidos
Minería de Datos para Principiantes.
16
17. Curva de utilidad
Con esta gráfica podemos determinar hasta
dónde debemos de llevar a cabo la promoción.
Debemos considerar que el corte debe hacerse
en un lugar donde podamos diferenciar el valor
del score. Esta consideración es muy importante
en el caso de los árboles donde todos los casos
que caen en el mismo nodo tienen el mismo
valor de “score” o “P(VO=1)”.
Minería de Datos para Principiantes.
17
18. Caso de ejemplo
Modelo de clasificación con aplicación comercial.
Consideremos el popular caso “Insurance”. Se desea realizar una
campaña de venta de un seguro y se tiene una campaña realizada con
anterioridad que se supone con las mismas características a la que se
desea llevar a cabo actualmente. Los parámetros son:
Densidad de la muestra: 2%.
Costo individual de promoción: $4
Utilidad por caso exitoso: $96
La densidad de umbral es 4%
Si se ejecuta la campaña sin realizar la preselección de los clientes se
obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2.
¡¡¡La casa pierde!!!!
¿Se puede hacer algo al respecto?
Minería de Datos para Principiantes.
18
19. Demo con SAS Enterprise Miner
SAS define su metodología con las siglas
“SEMMA”: Sample, Exploration, Modificaction, Modeling,
Assesment.
En castellano: Muestrear, Explorar, Modificar, Modelar y
Evaluar. “MEMEE”.
Esta herramienta permite definirle entre otras, la matriz
de costos - utilidades y decirle si la muestra está
“sobrecargada” para que “compense” la salida del
modelo, entregando la situación como será en la realidad.
La herramienta se maneja gráficamente, de una manera
muy ad-hoc para el trabajo con los modelos de MD.
Entrega los modelos en SAS, C, java y DB2.
Minería de Datos para Principiantes.
19
20. Flujo de proceso en SAS EM ™
Minería de Datos para Principiantes.
20
22. Demo con Weka
Weka es una de las herramientas libres para MD
más populares. Está programada en java y
ofrece procesos y procedimientos para poner en
producción los modelos obtenidos.
Ofrece cuatro ambientes para trabajar con los
modelos y los datos:
Explorer, Experimenter, Knowledge Flow y
comandos “a pié” (texto).
Minería de Datos para Principiantes.
22
24. Herramientas Comerciales para MD.
• Software libre y/o gratuito:
– Weka, R, Rapid Miner, Orange, etc…
• Software propietario:
– SAS Enterprise Miner
– Modeler de SPSS
– Addendums a herramientas de BI.
Ahora se les llama “Analytics” e incorporan algunos
elementos para llevar a cabo Minería de Textos y
Herramientas para el análisis de características y
relaciones sobre redes sociales.
Minería de Datos para Principiantes.
24
25. Analytics
Se incorporan datos no estructurados en el
sentido de un esquema de base de datos
relacional.
Google es el pionero en la explotación de estos
elementos, aunque los grandes jugadores ya se
pusieron las pilas y ofrecen productos “llave en
mano” para algunas de las necesidades donde
hay más recursos económicos.
Minería de Datos para Principiantes.
25
26. Conclusiones y Tendencias
• La MD es una técnica auxiliar en muchos campos de la investigación y los
negocios.
• Requiere la conjunción de conocimientos de Computación, Estadística,
Matemáticas y del área propia de aplicación.
• Actualmente debido a varios factores (reducción de precio del bit
procesado, de los medios de almacenamiento y las telecomunicaciones)
está en “ebullición” al tener datos explotables y manera de explotarlos.
• Los desarrollos actuales se encaminan a tener los resultados de manera
temprana y oportuna, dándole ventajas a las organizaciones que se
puedan apropiar de esta forma de trabajo dentro de su estrategia de
negocio. Ej. High Performance Analytics de SAS.
• El recurso humano (capital intelectual) es de los más requeridos.
• Se destacan la formación en “Machine Learning” , “Data Science” en la
parte de avanzada, trabajando con volúmenes grandes de datos, en
ocasiones no estructurados, dispersos y con gran diversidad. A ello se le
conoce como “Big Data”.
Minería de Datos para Principiantes.
26
27. Muchas gracias
imagen de fondo tomada del Artículo sobre Minería de Wikipedia
Minería de Datos para Principiantes.
27