Rompiendo el Mito:               Minería de Datos               Una Perspectiva Latinoamericana                           ...
Business Intelligence LATAM       ABSTRACT                                              BUSINESS INTELLIGENCE LATAM       ...
Business Intelligence LATAM              ¿QUÉ ES LA MINERÍA DE DATOS?                                       DATA MINING EN...
Business Intelligence LATAM                                                                      implementados, lo que se ...
Business Intelligence LATAM                                                                      • Microsoft Naive Bayes  ...
Business Intelligence LATAM          • Microsoft Clustering                                     “Personas técnico-funciona...
Próxima SlideShare
Cargando en…5
×

Rompiendo el mito data mining

382 visualizaciones

Publicado el

Este reporte está orientado para tomadores de decisiones e implementadores de Inteligencia de Negocios con interés en conocer o implementar soluciones de Minería de Datos. En el simplificaremos el entorno de implementación, así como explorar los mitos y realidades de la Minería de Datos desde una perspectiva Latinoamericana. Se enfatiza en las razones del por qué esta tecnología ha tenido tan poco crecimiento, a pesar de que el mercado mundial apunta al análisis proactivo y predictivo de la información.

0 comentarios
1 recomendación
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
382
En SlideShare
0
De insertados
0
Número de insertados
2
Acciones
Compartido
0
Descargas
5
Comentarios
0
Recomendaciones
1
Insertados 0
No insertados

No hay notas en la diapositiva.

Rompiendo el mito data mining

  1. 1. Rompiendo el Mito: Minería de Datos Una Perspectiva Latinoamericana Por: César Oviedo Blanco Arquitecto de Inteligencia de Negocios Conferencista Internacional, MCT, MCITP Implementaciones con:Reporte de Libre Distribución
  2. 2. Business Intelligence LATAM ABSTRACT BUSINESS INTELLIGENCE LATAM Este documento forma parte de una serie de reportes denominados Es una comunidad de libre acceso a nivel latinoamericano con el “Rompiendo el Mito”, esta serie objetivo de promover las tecnologías relacionas a la Inteligencia de tiene como objetivo simplificar y Negocios. Durante su trayectoria se ha trazado la meta de crecer y desmitificar las herramientas, ser identificada como un punto de referencia de conocimiento tecnologías y metodologías que compartido, sin ningún fin de lucro. han sido consideradas por parte del Mercado Latinoamericano como Se les invita a ser parte de la misma siguiéndonos en: Mitos. www.businessintelligencelatam.com www.facebook.com/groups/businessintelligencecr/members/ Este reporte específicamente, está www.youtube.com/user/BILATAM orientado para tomadores de decisiones e implementadores de Inteligencia de Negocios con INTRODUCCIÓN interés en conocer o implementar soluciones de Minería de Datos. En En nuestras empresas o clientes, una de las limitaciones históricamente el simplificaremos el entorno de más grandes es la facultad del análisis de datos. Esta necesidad implementación, así como explorar normalmente se cubre con la implementación de Data Warehouse y los mitos y realidades de la Minería modelos OLAP como soluciones analíticas. Cuando las necesidades se de Datos desde una perspectiva empiezan a hacer más estratégicas, orientadas a la predicción o Latinoamericana. Se enfatiza en las simplemente se requieren herramientas que determinen razones del por qué esta tecnología comportamientos e identifiquen patrones ocultos que no pueden ser ha tenido tan poco crecimiento, a analizados con las herramientas convencionales de Inteligencia de pesar de que el mercado mundial Negocio; es cuando la Minería de Datos es la solución más completa apunta al análisis proactivo y para resolver estos problemas. predictivo de la información.www.businessintelligencelatam.com Página |2
  3. 3. Business Intelligence LATAM ¿QUÉ ES LA MINERÍA DE DATOS? DATA MINING EN EL MUNDO Una de las principales razones de la existencia de este Latinoamérica es conocido como uno de los documento, es brindar una definición fácil pero completa exportadores de software más importantes a nivel de la minería de datos. Debido a la falta de una definición mundial, Sin embargo cuando se habla de la sencilla y comprensible en el mercado, se genera miedo a aplicación de tecnología a nivel local nos la incursión de una implementación de un proyecto en un encontramos con un escenario muy diferente. Este área desconocida. mismo comportamiento lo encontramos en las empresas que implementan Minería de Datos, el Wikipedia nos brinda una definición si bien válida, también siguiente grafico muestra la distribución por zona de difícil de entender: “La minería de datos (es la etapa de las empresas que utilizan la Minería de Datos dentro análisis de "Knowledge Discovery in Databases" o KDD), es de sus operaciones. un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y gestión de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, métricas de Intereses, consideraciones de la Teoría de la complejidad computacional, post- Fuente: KDnuggets - Industries where you applied Analytics / Data Mining in 2011 procesamiento de las estructuras descubiertas, la visualización y actualización en línea.” Indiscutiblemente Latinoamérica se encuentra en una posición poco favorable en relación al desarrollo Una definición más acertada y simple es: Son herramientas económico, pero no así en desarrollo de tecnología. que apoyan la toma de decisiones basándose en la Es ahí donde vale la pena preguntarse el ¿Por qué no detección de patrones y comportamiento dentro de los se implementa Minería de Datos en Latinoamérica? datos. Es decir, una forma de encontrar aspectos La respuesta es simple, desconocimiento de los relevantes dentro de la información, para anticiparse en la beneficios e implicaciones implícitas, esta y otras conducta futura. aclaraciones serán abundadas en las siguientes secciones.www.businessintelligencelatam.com Página |3
  4. 4. Business Intelligence LATAM implementados, lo que se requiere es la comprensión MITOS TÉCNICOS de dichos algoritmos para saber cuál debemos implementar según las necesidades del negocio. A continuación se listan los mitos que según el criterio del 5. Un proyecto de Minería de Datos es complejo, autor, son los que rodean la Minería de Datos y que costoso y lleva mucho tiempo. dificultan la adopción de la misma. Falso. Contrario a lo que se cree, la complejidad de un proyecto de Minería de Datos no proviene de las 1. El cliente debe tener implementado un Data Warehouse herramientas, sino de la comprensión “real” del para ser considerado prospecto potencial. negocio. Típicamente los departamentos de Falso. Las herramientas modernas como el SQL Server Tecnologías de Información son dados a pensar que 2012 y otras existentes en el mercado nos permiten saben lo que los usuarios quieren, esto es lo que implementar Minería de Datos con datos provenientes de normalmente lleva un proyecto de este tipo al bases de datos, archivos de Excel, archivos planos etc. fracaso. El consumo en tiempo y costo va a radicar 2. La Minería de Datos es para grandes volúmenes de mayormente, en la habilidad de comprender el datos. negocio para implementar modelos útiles. Falso. El nivel de aprovechamiento de la información no 6. No hay recurso humano técnico disponible. depende de la cantidad de Gigabytes, Terabytes o Verdadero. Lamentablemente, en el ámbito Petabytes. Ciertamente es requerido que a la hora de latinoamericano no se cuenta con amplia demanda hacer un análisis se cuente con la mayoría de datos de estos servicios, esto genera baja oferta tanto a relevantes al modelo, pero debemos tener claro que si la nivel profesional como corporativo. realidad de la organización es que maneja solamente cientos o miles de datos, estos son suficientes para identificar los patrones de comportamiento de los datos. MITOS FUNCIONALES 3. Se requiere la eliminación datos basura y datos faltantes. Falso. Si bien la limpieza de datos es lo más recomendado. 1. El departamento de tecnologías de información Los algoritmos en los cuales se implementa la Minería de brinda los análisis y pronósticos. Datos están basados en estadísticas que asumen Falso. La responsabilidad del departamento de probabilidades y márgenes de aceptación. Por lo tanto, tecnologías de información es implementar el medio una cantidad relativamente pequeña de errores y datos tecnológico para que las áreas de negocio o faltantes no influye en el resultado del modelo. funcionales interpreten y generen nuevos análisis. 4. Se requiere un alto nivel de conocimiento matemático y Este tipo de proyectos comparten como todo estadístico. proyecto de Inteligencia de Negocios la Falso. Es cierto que los algoritmos usados en la Minería de obligatoriedad de que el proyecto se construya en Datos se basan en métodos como la inteligencia artificial, una estrecha relación entre las áreas técnicas y aprendizaje automático, estadística, ciencias matemáticas funcionales. como la lógica, probabilidad, etc. Pero estos algoritmos ya estánwww.businessintelligencelatam.com Página |4
  5. 5. Business Intelligence LATAM • Microsoft Naive Bayes CONCEPTOS PRACTICOS Clasifica y predice la probabilidad de que se cumpla una columna que se designa como elemento de predicción. Se caracteriza por no tomar en cuenta las Algo que clarificar es que no requerimos ser expertos relaciones de comportamiento que pudieran existir matemáticos o científicos para implementar Minería de entre los datos. De ahí su nombre “Naive” haciendo Datos, y no tenemos que entender cada uno de los referencia a que son suposiciones ingenuas. algoritmos existentes. Por ejemplo si mi empresa lo único Atributo que requiere es una segmentación de mercado, puede Edad únicamente identificar por cuales características por las que desea segmentar y aplicar un algoritmo de Clustering. Para ejemplificar los algoritmos se utilizarán los incorporados en el SQL Server en su versión 2012, con la aclaración de que cada proveedor de herramientas de Minería de Datos provee sus propios algoritmos, sin embargo los principios son compartidos. Género La minería de datos segmenta los atributos en dos grandes grupo: Atributo Discreto: Cantidad finita de características, normalmente reflejada como un valor alfanumérico. Atributo Continuo: Cantidad infinita de valores, normalmente reflejada como un valor real.  Microsoft Time Series A continuación se ilustran los algoritmos por los que En base al comportamiento demostrado en la debería iniciar toda empresa que desea iniciar en la información histórica proporciona un pronóstico de implementación de Minería de Datos: valores continuos en el tiempo futuro, tales como las ventas de productos, tendencias de mercado, • Microsoft Decision Trees estadísticas de producción. Basándose en las relaciones de comportamiento entre las columnas de un conjunto de datos, predice los estados de una columna que se designa como elemento de predicción. Ejemplo: Predecir qué clientes probablemente van a adquirir un determinado producto, dándose una secuencia de características. El resultado es presentado en un árbol jerárquico. Compra (60%) Carro Propio = SI Género = Compra(20%) Mujer Carro Propio = Compra(40%) NO Género = Compra (5%) Hombrewww.businessintelligencelatam.com Página |5
  6. 6. Business Intelligence LATAM • Microsoft Clustering “Personas técnico-funcionales con la facultad de El algoritmo utiliza técnicas iterativas para agrupar los convertir datos en dinero”, en Latinoamérica datos de un conjunto dentro de agrupaciones (mejor normalmente no se poseen dentro de nuestras conocidos como clústeres) que contienen características empresas, por esto es indispensable la participación similares. Estas agrupaciones son útiles para la exploración activa de las áreas funcionales y técnicas en la de datos, la identificación de anomalías en los datos y la definición del problema. creación de predicciones.  Utilizar la información correcta Los modelos de agrupación en clústeres identifican las Un proyecto de Minería de Datos se basa en los relaciones en un conjunto de datos que no se podrían datos, y si los datos tienen muchos errores los análisis derivar lógicamente a través de la observación casual. no darán resultados tan realista o con un porcentaje A pesar de que suena complejo es uno de los preferidos de error alto. Si bien como se aclaró en el segmento por su facilidad de implementación y que permite de una de Mitos, la minería no requiere obligatoriamente un forma visualmente simple detectar comportamientos en Data Warehouse y/o procesos de Data Quality, los datos. siempre va a ser la recomendación, por otro lado los datos que se usan para un algoritmo tienen que ser preparados, limpiados, transformados y reducidos, si estas tareas se hacen correctamente podemos tener un muy buen resultado.  Proceso de adopción Es normal que nuestros usuarios se sientan desconfiados de los resultados de los análisis y más aún cuando las predicciones o segmentaciones indican que las iniciativas o estrategias actuales no están basadas en la realidad de la empresa. Por esto es indispensable un proceso de adopción que le CRITERIOS DE ÉXITO permita a los tomadores de decisiones confiar en la tecnología implementada. Todo proyecto de Minería de Datos, como todo proyecto de Inteligencia de Negocios, son proyectos con un riesgo controlado si se toman en cuenta los siguientes criterios: CONTACTO  Definición del Problema Algo que tenemos que comprender es que nuestros Contacto: usuarios no van a llegar por si mismos a la conclusión de César Oviedo Blanco que es exactamente el requerimiento a implementar, si info@businessintelligencelatam.com bien ellos son los expertos del negocio y son los que www.facebook.com/groups/businessintelligencecr/ terminarán usando y analizando los resultados de los http://about.me/coviedo algoritmos; ellos normalmente no tienen la formación técnica ni conocen las características de cada algoritmo. Es por esto que normalmente se incorpora lo que llaman Científicos de Datos, una definición sencilla seríawww.businessintelligencelatam.com Página |6

×