Este reporte está orientado para tomadores de decisiones e implementadores de Inteligencia de Negocios con interés en conocer o implementar soluciones de Minería de Datos. En el simplificaremos el entorno de implementación, así como explorar los mitos y realidades de la Minería de Datos desde una perspectiva Latinoamericana. Se enfatiza en las razones del por qué esta tecnología ha tenido tan poco crecimiento, a pesar de que el mercado mundial apunta al análisis proactivo y predictivo de la información.
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Rompiendo el mito data mining
1. Rompiendo el Mito:
Minería de Datos
Una Perspectiva Latinoamericana
Por:
César Oviedo Blanco
Arquitecto de Inteligencia de Negocios
Conferencista Internacional, MCT, MCITP
Implementaciones con:
Reporte de Libre Distribución
2. Business Intelligence LATAM
ABSTRACT
BUSINESS INTELLIGENCE LATAM
Este documento forma parte de
una serie de reportes denominados
Es una comunidad de libre acceso a nivel latinoamericano con el
“Rompiendo el Mito”, esta serie
objetivo de promover las tecnologías relacionas a la Inteligencia de
tiene como objetivo simplificar y
Negocios. Durante su trayectoria se ha trazado la meta de crecer y
desmitificar las herramientas,
ser identificada como un punto de referencia de conocimiento
tecnologías y metodologías que
compartido, sin ningún fin de lucro.
han sido consideradas por parte del
Mercado Latinoamericano como
Se les invita a ser parte de la misma siguiéndonos en:
Mitos.
www.businessintelligencelatam.com
www.facebook.com/groups/businessintelligencecr/members/
Este reporte específicamente, está
www.youtube.com/user/BILATAM
orientado para tomadores de
decisiones e implementadores de
Inteligencia de Negocios con INTRODUCCIÓN
interés en conocer o implementar
soluciones de Minería de Datos. En En nuestras empresas o clientes, una de las limitaciones históricamente
el simplificaremos el entorno de más grandes es la facultad del análisis de datos. Esta necesidad
implementación, así como explorar normalmente se cubre con la implementación de Data Warehouse y
los mitos y realidades de la Minería modelos OLAP como soluciones analíticas. Cuando las necesidades se
de Datos desde una perspectiva empiezan a hacer más estratégicas, orientadas a la predicción o
Latinoamericana. Se enfatiza en las simplemente se requieren herramientas que determinen
razones del por qué esta tecnología comportamientos e identifiquen patrones ocultos que no pueden ser
ha tenido tan poco crecimiento, a analizados con las herramientas convencionales de Inteligencia de
pesar de que el mercado mundial Negocio; es cuando la Minería de Datos es la solución más completa
apunta al análisis proactivo y para resolver estos problemas.
predictivo de la información.
www.businessintelligencelatam.com Página |2
3. Business Intelligence LATAM
¿QUÉ ES LA MINERÍA DE DATOS? DATA MINING EN EL MUNDO
Una de las principales razones de la existencia de este Latinoamérica es conocido como uno de los
documento, es brindar una definición fácil pero completa exportadores de software más importantes a nivel
de la minería de datos. Debido a la falta de una definición mundial, Sin embargo cuando se habla de la
sencilla y comprensible en el mercado, se genera miedo a aplicación de tecnología a nivel local nos
la incursión de una implementación de un proyecto en un encontramos con un escenario muy diferente. Este
área desconocida. mismo comportamiento lo encontramos en las
empresas que implementan Minería de Datos, el
Wikipedia nos brinda una definición si bien válida, también siguiente grafico muestra la distribución por zona de
difícil de entender: “La minería de datos (es la etapa de las empresas que utilizan la Minería de Datos dentro
análisis de "Knowledge Discovery in Databases" o KDD), es de sus operaciones.
un campo de las ciencias de la computación referido al
proceso que intenta descubrir patrones en grandes
volúmenes de conjuntos de datos. Utiliza los métodos de
la inteligencia artificial, aprendizaje automático, estadística
y sistemas de bases de datos. El objetivo general del
proceso de minería de datos consiste en extraer
información de un conjunto de datos y transformarla en
una estructura comprensible para su uso posterior.
Además de la etapa de análisis en bruto, que involucra
aspectos de bases de datos y gestión de datos,
procesamiento de datos, el modelo y las consideraciones
de inferencia, métricas de Intereses, consideraciones de la
Teoría de la complejidad computacional, post- Fuente: KDnuggets - Industries where you applied Analytics / Data Mining in 2011
procesamiento de las estructuras descubiertas, la
visualización y actualización en línea.” Indiscutiblemente Latinoamérica se encuentra en una
posición poco favorable en relación al desarrollo
Una definición más acertada y simple es: Son herramientas económico, pero no así en desarrollo de tecnología.
que apoyan la toma de decisiones basándose en la Es ahí donde vale la pena preguntarse el ¿Por qué no
detección de patrones y comportamiento dentro de los se implementa Minería de Datos en Latinoamérica?
datos. Es decir, una forma de encontrar aspectos La respuesta es simple, desconocimiento de los
relevantes dentro de la información, para anticiparse en la beneficios e implicaciones implícitas, esta y otras
conducta futura. aclaraciones serán abundadas en las siguientes
secciones.
www.businessintelligencelatam.com Página |3
4. Business Intelligence LATAM
implementados, lo que se requiere es la comprensión
MITOS TÉCNICOS de dichos algoritmos para saber cuál debemos
implementar según las necesidades del negocio.
A continuación se listan los mitos que según el criterio del
5. Un proyecto de Minería de Datos es complejo,
autor, son los que rodean la Minería de Datos y que
costoso y lleva mucho tiempo.
dificultan la adopción de la misma.
Falso. Contrario a lo que se cree, la complejidad de
un proyecto de Minería de Datos no proviene de las
1. El cliente debe tener implementado un Data Warehouse
herramientas, sino de la comprensión “real” del
para ser considerado prospecto potencial.
negocio. Típicamente los departamentos de
Falso. Las herramientas modernas como el SQL Server
Tecnologías de Información son dados a pensar que
2012 y otras existentes en el mercado nos permiten
saben lo que los usuarios quieren, esto es lo que
implementar Minería de Datos con datos provenientes de
normalmente lleva un proyecto de este tipo al
bases de datos, archivos de Excel, archivos planos etc.
fracaso. El consumo en tiempo y costo va a radicar
2. La Minería de Datos es para grandes volúmenes de
mayormente, en la habilidad de comprender el
datos.
negocio para implementar modelos útiles.
Falso. El nivel de aprovechamiento de la información no
6. No hay recurso humano técnico disponible.
depende de la cantidad de Gigabytes, Terabytes o
Verdadero. Lamentablemente, en el ámbito
Petabytes. Ciertamente es requerido que a la hora de
latinoamericano no se cuenta con amplia demanda
hacer un análisis se cuente con la mayoría de datos
de estos servicios, esto genera baja oferta tanto a
relevantes al modelo, pero debemos tener claro que si la
nivel profesional como corporativo.
realidad de la organización es que maneja solamente
cientos o miles de datos, estos son suficientes para
identificar los patrones de comportamiento de los datos. MITOS FUNCIONALES
3. Se requiere la eliminación datos basura y datos faltantes.
Falso. Si bien la limpieza de datos es lo más recomendado. 1. El departamento de tecnologías de información
Los algoritmos en los cuales se implementa la Minería de brinda los análisis y pronósticos.
Datos están basados en estadísticas que asumen Falso. La responsabilidad del departamento de
probabilidades y márgenes de aceptación. Por lo tanto, tecnologías de información es implementar el medio
una cantidad relativamente pequeña de errores y datos tecnológico para que las áreas de negocio o
faltantes no influye en el resultado del modelo. funcionales interpreten y generen nuevos análisis.
4. Se requiere un alto nivel de conocimiento matemático y Este tipo de proyectos comparten como todo
estadístico. proyecto de Inteligencia de Negocios la
Falso. Es cierto que los algoritmos usados en la Minería de obligatoriedad de que el proyecto se construya en
Datos se basan en métodos como la inteligencia artificial, una estrecha relación entre las áreas técnicas y
aprendizaje automático, estadística, ciencias matemáticas funcionales.
como la lógica, probabilidad, etc. Pero estos algoritmos
ya están
www.businessintelligencelatam.com Página |4
5. Business Intelligence LATAM
• Microsoft Naive Bayes
CONCEPTOS PRACTICOS Clasifica y predice la probabilidad de que se cumpla
una columna que se designa como elemento de
predicción. Se caracteriza por no tomar en cuenta las
Algo que clarificar es que no requerimos ser expertos
relaciones de comportamiento que pudieran existir
matemáticos o científicos para implementar Minería de
entre los datos. De ahí su nombre “Naive” haciendo
Datos, y no tenemos que entender cada uno de los
referencia a que son suposiciones ingenuas.
algoritmos existentes. Por ejemplo si mi empresa lo único
Atributo
que requiere es una segmentación de mercado, puede
Edad
únicamente identificar por cuales características por las
que desea segmentar y aplicar un algoritmo de Clustering.
Para ejemplificar los algoritmos se utilizarán los
incorporados en el SQL Server en su versión 2012, con la
aclaración de que cada proveedor de herramientas de
Minería de Datos provee sus propios algoritmos, sin
embargo los principios son compartidos. Género
La minería de datos segmenta los atributos en dos
grandes grupo:
Atributo Discreto: Cantidad finita de características,
normalmente reflejada como un valor alfanumérico.
Atributo Continuo: Cantidad infinita de valores,
normalmente reflejada como un valor real.
Microsoft Time Series
A continuación se ilustran los algoritmos por los que
En base al comportamiento demostrado en la
debería iniciar toda empresa que desea iniciar en la
información histórica proporciona un pronóstico de
implementación de Minería de Datos:
valores continuos en el tiempo futuro, tales como las
ventas de productos, tendencias de mercado,
• Microsoft Decision Trees
estadísticas de producción.
Basándose en las relaciones de comportamiento entre las
columnas de un conjunto de datos, predice los estados
de una columna que se designa como elemento de
predicción.
Ejemplo: Predecir qué clientes probablemente van a
adquirir un determinado producto, dándose una
secuencia de características. El resultado es presentado en
un árbol jerárquico.
Compra (60%)
Carro Propio =
SI
Género = Compra(20%)
Mujer
Carro Propio =
Compra(40%)
NO
Género =
Compra (5%)
Hombre
www.businessintelligencelatam.com Página |5
6. Business Intelligence LATAM
• Microsoft Clustering “Personas técnico-funcionales con la facultad de
El algoritmo utiliza técnicas iterativas para agrupar los convertir datos en dinero”, en Latinoamérica
datos de un conjunto dentro de agrupaciones (mejor normalmente no se poseen dentro de nuestras
conocidos como clústeres) que contienen características empresas, por esto es indispensable la participación
similares. Estas agrupaciones son útiles para la exploración activa de las áreas funcionales y técnicas en la
de datos, la identificación de anomalías en los datos y la definición del problema.
creación de predicciones. Utilizar la información correcta
Los modelos de agrupación en clústeres identifican las Un proyecto de Minería de Datos se basa en los
relaciones en un conjunto de datos que no se podrían datos, y si los datos tienen muchos errores los análisis
derivar lógicamente a través de la observación casual. no darán resultados tan realista o con un porcentaje
A pesar de que suena complejo es uno de los preferidos de error alto. Si bien como se aclaró en el segmento
por su facilidad de implementación y que permite de una de Mitos, la minería no requiere obligatoriamente un
forma visualmente simple detectar comportamientos en Data Warehouse y/o procesos de Data Quality,
los datos. siempre va a ser la recomendación, por otro lado los
datos que se usan para un algoritmo tienen que ser
preparados, limpiados, transformados y reducidos, si
estas tareas se hacen correctamente podemos tener
un muy buen resultado.
Proceso de adopción
Es normal que nuestros usuarios se sientan
desconfiados de los resultados de los análisis y más
aún cuando las predicciones o segmentaciones
indican que las iniciativas o estrategias actuales no
están basadas en la realidad de la empresa. Por esto
es indispensable un proceso de adopción que le
CRITERIOS DE ÉXITO permita a los tomadores de decisiones confiar en la
tecnología implementada.
Todo proyecto de Minería de Datos, como todo proyecto
de Inteligencia de Negocios, son proyectos con un riesgo
controlado si se toman en cuenta los siguientes criterios: CONTACTO
Definición del Problema
Algo que tenemos que comprender es que nuestros
Contacto:
usuarios no van a llegar por si mismos a la conclusión de
César Oviedo Blanco
que es exactamente el requerimiento a implementar, si
info@businessintelligencelatam.com
bien ellos son los expertos del negocio y son los que
www.facebook.com/groups/businessintelligencecr/
terminarán usando y analizando los resultados de los
http://about.me/coviedo
algoritmos; ellos normalmente no tienen la formación
técnica ni conocen las características de cada algoritmo.
Es por esto que normalmente se incorpora lo que llaman
Científicos de Datos, una definición sencilla sería
www.businessintelligencelatam.com Página |6