SlideShare una empresa de Scribd logo
1 de 6
Descargar para leer sin conexión
Rompiendo el Mito:
               Minería de Datos
               Una Perspectiva Latinoamericana
                                                                                     Por:
                                                                     César Oviedo Blanco
                                                  Arquitecto de Inteligencia de Negocios
                                                 Conferencista Internacional, MCT, MCITP



                                Implementaciones con:




Reporte de Libre Distribución
Business Intelligence LATAM




       ABSTRACT
                                              BUSINESS INTELLIGENCE LATAM
       Este documento forma parte de
       una serie de reportes denominados
                                              Es una comunidad de libre acceso a nivel latinoamericano con el
       “Rompiendo el Mito”, esta serie
                                              objetivo de promover las tecnologías relacionas a la Inteligencia de
       tiene como objetivo simplificar y
                                              Negocios. Durante su trayectoria se ha trazado la meta de crecer y
       desmitificar    las   herramientas,
                                              ser identificada como un punto de referencia de conocimiento
       tecnologías y metodologías que
                                              compartido, sin ningún fin de lucro.
       han sido consideradas por parte del
       Mercado Latinoamericano como
                                              Se les invita a ser parte de la misma siguiéndonos en:
       Mitos.
                                              www.businessintelligencelatam.com
                                              www.facebook.com/groups/businessintelligencecr/members/
       Este reporte específicamente, está
                                              www.youtube.com/user/BILATAM
       orientado para tomadores de
       decisiones e implementadores de
       Inteligencia de Negocios con           INTRODUCCIÓN
       interés en conocer o implementar
       soluciones de Minería de Datos. En     En nuestras empresas o clientes, una de las limitaciones históricamente
       el simplificaremos el entorno de       más grandes es la facultad del análisis de datos. Esta necesidad
       implementación, así como explorar      normalmente se cubre con la implementación de Data Warehouse y
       los mitos y realidades de la Minería   modelos OLAP como soluciones analíticas. Cuando las necesidades se
       de Datos desde una perspectiva         empiezan a hacer más estratégicas, orientadas a la predicción o
       Latinoamericana. Se enfatiza en las    simplemente se requieren herramientas que determinen
       razones del por qué esta tecnología    comportamientos e identifiquen patrones ocultos que no pueden ser
       ha tenido tan poco crecimiento, a      analizados con las herramientas convencionales de Inteligencia de
       pesar de que el mercado mundial        Negocio; es cuando la Minería de Datos es la solución más completa
       apunta al análisis proactivo y         para resolver estos problemas.
       predictivo de la información.




www.businessintelligencelatam.com                                                                          Página |2
Business Intelligence LATAM

              ¿QUÉ ES LA MINERÍA DE DATOS?                                       DATA MINING EN EL MUNDO

      Una de las principales razones de la existencia de este         Latinoamérica es conocido como uno de los
      documento, es brindar una definición fácil pero completa        exportadores de software más importantes a nivel
      de la minería de datos. Debido a la falta de una definición     mundial, Sin embargo cuando se habla de la
      sencilla y comprensible en el mercado, se genera miedo a        aplicación de tecnología a nivel local nos
      la incursión de una implementación de un proyecto en un         encontramos con un escenario muy diferente. Este
      área desconocida.                                               mismo comportamiento lo encontramos en las
                                                                      empresas que implementan Minería de Datos, el
      Wikipedia nos brinda una definición si bien válida, también siguiente grafico muestra la distribución por zona de
      difícil de entender: “La minería de datos (es la etapa de las empresas que utilizan la Minería de Datos dentro
      análisis de "Knowledge Discovery in Databases" o KDD), es de sus operaciones.
      un campo de las ciencias de la computación referido al
      proceso que intenta descubrir patrones en grandes
      volúmenes de conjuntos de datos. Utiliza los métodos de
      la inteligencia artificial, aprendizaje automático, estadística
      y sistemas de bases de datos. El objetivo general del
      proceso de minería de datos consiste en extraer
      información de un conjunto de datos y transformarla en
      una estructura comprensible para su uso posterior.
      Además de la etapa de análisis en bruto, que involucra
      aspectos de bases de datos y gestión de datos,
      procesamiento de datos, el modelo y las consideraciones
      de inferencia, métricas de Intereses, consideraciones de la
      Teoría de la complejidad computacional, post- Fuente: KDnuggets - Industries where you applied Analytics / Data Mining in 2011
      procesamiento de las estructuras descubiertas, la
      visualización y actualización en línea.”                        Indiscutiblemente Latinoamérica se encuentra en una
                                                                      posición poco favorable en relación al desarrollo
      Una definición más acertada y simple es: Son herramientas económico, pero no así en desarrollo de tecnología.
      que apoyan la toma de decisiones basándose en la Es ahí donde vale la pena preguntarse el ¿Por qué no
      detección de patrones y comportamiento dentro de los se implementa Minería de Datos en Latinoamérica?
      datos. Es decir, una forma de encontrar aspectos La respuesta es simple, desconocimiento de los
      relevantes dentro de la información, para anticiparse en la beneficios e implicaciones implícitas, esta y otras
      conducta futura.                                                aclaraciones serán abundadas en las siguientes
                                                                      secciones.




www.businessintelligencelatam.com                                                                                        Página |3
Business Intelligence LATAM
                                                                      implementados, lo que se requiere es la comprensión
              MITOS TÉCNICOS                                          de dichos algoritmos para saber cuál debemos
                                                                      implementar según las necesidades del negocio.
      A continuación se listan los mitos que según el criterio del
                                                                      5. Un proyecto de Minería de Datos es complejo,
      autor, son los que rodean la Minería de Datos y que
                                                                      costoso y lleva mucho tiempo.
      dificultan la adopción de la misma.
                                                                      Falso. Contrario a lo que se cree, la complejidad de
                                                                      un proyecto de Minería de Datos no proviene de las
      1. El cliente debe tener implementado un Data Warehouse
                                                                      herramientas, sino de la comprensión “real” del
      para ser considerado prospecto potencial.
                                                                      negocio. Típicamente los departamentos de
      Falso. Las herramientas modernas como el SQL Server
                                                                      Tecnologías de Información son dados a pensar que
      2012 y otras existentes en el mercado nos permiten
                                                                      saben lo que los usuarios quieren, esto es lo que
      implementar Minería de Datos con datos provenientes de
                                                                      normalmente lleva un proyecto de este tipo al
      bases de datos, archivos de Excel, archivos planos etc.
                                                                      fracaso. El consumo en tiempo y costo va a radicar
      2. La Minería de Datos es para grandes volúmenes de
                                                                      mayormente, en la habilidad de comprender el
      datos.
                                                                      negocio para implementar modelos útiles.
      Falso. El nivel de aprovechamiento de la información no
                                                                      6. No hay recurso humano técnico disponible.
      depende de la cantidad de Gigabytes, Terabytes o
                                                                      Verdadero. Lamentablemente, en el ámbito
      Petabytes. Ciertamente es requerido que a la hora de
                                                                      latinoamericano no se cuenta con amplia demanda
      hacer un análisis se cuente con la mayoría de datos
                                                                      de estos servicios, esto genera baja oferta tanto a
      relevantes al modelo, pero debemos tener claro que si la
                                                                      nivel profesional como corporativo.
      realidad de la organización es que maneja solamente
      cientos o miles de datos, estos son suficientes para
      identificar los patrones de comportamiento de los datos.               MITOS FUNCIONALES
      3. Se requiere la eliminación datos basura y datos faltantes.
      Falso. Si bien la limpieza de datos es lo más recomendado.      1. El departamento de tecnologías de información
      Los algoritmos en los cuales se implementa la Minería de        brinda los análisis y pronósticos.
      Datos están basados en estadísticas que asumen                  Falso. La responsabilidad del departamento de
      probabilidades y márgenes de aceptación. Por lo tanto,          tecnologías de información es implementar el medio
      una cantidad relativamente pequeña de errores y datos           tecnológico para que las áreas de negocio o
      faltantes no influye en el resultado del modelo.                funcionales interpreten y generen nuevos análisis.
      4. Se requiere un alto nivel de conocimiento matemático y       Este tipo de proyectos comparten como todo
      estadístico.                                                    proyecto de Inteligencia de Negocios la
      Falso. Es cierto que los algoritmos usados en la Minería de     obligatoriedad de que el proyecto se construya en
      Datos se basan en métodos como la inteligencia artificial,      una estrecha relación entre las áreas técnicas y
      aprendizaje automático, estadística, ciencias matemáticas       funcionales.
      como la lógica, probabilidad, etc. Pero estos algoritmos
      ya están




www.businessintelligencelatam.com                                                                               Página |4
Business Intelligence LATAM
                                                                      • Microsoft Naive Bayes
             CONCEPTOS PRACTICOS                                  Clasifica y predice la probabilidad de que se cumpla
                                                                  una columna que se designa como elemento de
                                                                  predicción. Se caracteriza por no tomar en cuenta las
      Algo que clarificar es que no requerimos ser expertos
                                                                  relaciones de comportamiento que pudieran existir
      matemáticos o científicos para implementar Minería de
                                                                  entre los datos. De ahí su nombre “Naive” haciendo
      Datos, y no tenemos que entender cada uno de los
                                                                  referencia a que son suposiciones ingenuas.
      algoritmos existentes. Por ejemplo si mi empresa lo único
                                                                      Atributo
      que requiere es una segmentación de mercado, puede
                                                                      Edad
      únicamente identificar por cuales características por las
      que desea segmentar y aplicar un algoritmo de Clustering.
      Para ejemplificar los algoritmos se utilizarán los
      incorporados en el SQL Server en su versión 2012, con la
      aclaración de que cada proveedor de herramientas de
      Minería de Datos provee sus propios algoritmos, sin
      embargo los principios son compartidos.                         Género
      La minería de datos segmenta los atributos en dos
      grandes grupo:
      Atributo Discreto: Cantidad finita de características,
      normalmente reflejada como un valor alfanumérico.
      Atributo Continuo: Cantidad infinita de valores,
      normalmente reflejada como un valor real.
                                                                       Microsoft Time Series
      A continuación se ilustran los algoritmos por los que
                                                                  En base al comportamiento demostrado en la
      debería iniciar toda empresa que desea iniciar en la
                                                                  información histórica proporciona un pronóstico de
      implementación de Minería de Datos:
                                                                  valores continuos en el tiempo futuro, tales como las
                                                                  ventas de productos, tendencias de mercado,
          • Microsoft Decision Trees
                                                                  estadísticas de producción.
      Basándose en las relaciones de comportamiento entre las
      columnas de un conjunto de datos, predice los estados
      de una columna que se designa como elemento de
      predicción.
      Ejemplo: Predecir qué clientes probablemente van a
      adquirir un determinado producto, dándose una
      secuencia de características. El resultado es presentado en
      un árbol jerárquico.
                                               Compra (60%)
                              Carro Propio =
                                    SI
                 Género =                      Compra(20%)
                  Mujer
                              Carro Propio =
                                               Compra(40%)
                                   NO

                 Género =
                               Compra (5%)
                 Hombre




www.businessintelligencelatam.com                                                                            Página |5
Business Intelligence LATAM
          • Microsoft Clustering                                     “Personas técnico-funcionales con la facultad de
      El algoritmo utiliza técnicas iterativas para agrupar los      convertir datos en dinero”, en Latinoamérica
      datos de un conjunto dentro de agrupaciones (mejor             normalmente no se poseen dentro de nuestras
      conocidos como clústeres) que contienen características        empresas, por esto es indispensable la participación
      similares. Estas agrupaciones son útiles para la exploración   activa de las áreas funcionales y técnicas en la
      de datos, la identificación de anomalías en los datos y la     definición del problema.
      creación de predicciones.                                           Utilizar la información correcta
      Los modelos de agrupación en clústeres identifican las         Un proyecto de Minería de Datos se basa en los
      relaciones en un conjunto de datos que no se podrían           datos, y si los datos tienen muchos errores los análisis
      derivar lógicamente a través de la observación casual.         no darán resultados tan realista o con un porcentaje
      A pesar de que suena complejo es uno de los preferidos         de error alto. Si bien como se aclaró en el segmento
      por su facilidad de implementación y que permite de una        de Mitos, la minería no requiere obligatoriamente un
      forma visualmente simple detectar comportamientos en           Data Warehouse y/o procesos de Data Quality,
      los datos.                                                     siempre va a ser la recomendación, por otro lado los
                                                                     datos que se usan para un algoritmo tienen que ser
                                                                     preparados, limpiados, transformados y reducidos, si
                                                                     estas tareas se hacen correctamente podemos tener
                                                                     un muy buen resultado.
                                                                          Proceso de adopción
                                                                     Es normal que nuestros usuarios se sientan
                                                                     desconfiados de los resultados de los análisis y más
                                                                     aún cuando las predicciones o segmentaciones
                                                                     indican que las iniciativas o estrategias actuales no
                                                                     están basadas en la realidad de la empresa. Por esto
                                                                     es indispensable un proceso de adopción que le
             CRITERIOS DE ÉXITO                                      permita a los tomadores de decisiones confiar en la
                                                                     tecnología implementada.
      Todo proyecto de Minería de Datos, como todo proyecto
      de Inteligencia de Negocios, son proyectos con un riesgo
      controlado si se toman en cuenta los siguientes criterios:             CONTACTO
           Definición del Problema
      Algo que tenemos que comprender es que nuestros
                                                                     Contacto:
      usuarios no van a llegar por si mismos a la conclusión de
                                                                     César Oviedo Blanco
      que es exactamente el requerimiento a implementar, si
                                                                     info@businessintelligencelatam.com
      bien ellos son los expertos del negocio y son los que
                                                                     www.facebook.com/groups/businessintelligencecr/
      terminarán usando y analizando los resultados de los
                                                                     http://about.me/coviedo
      algoritmos; ellos normalmente no tienen la formación
      técnica ni conocen las características de cada algoritmo.
      Es por esto que normalmente se incorpora lo que llaman
      Científicos de Datos, una definición sencilla sería




www.businessintelligencelatam.com                                                                                 Página |6

Más contenido relacionado

La actualidad más candente

Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociossoniareyna11
 
Introduccion inteligencia negocios | business intelligence
Introduccion inteligencia negocios | business intelligenceIntroduccion inteligencia negocios | business intelligence
Introduccion inteligencia negocios | business intelligenceJose Luis Bugarin Peche
 
INTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOSINTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOSluiy90
 
Ciclo de vida del dato en ambientes de Business Intelligence
Ciclo de vida del dato en ambientes de Business IntelligenceCiclo de vida del dato en ambientes de Business Intelligence
Ciclo de vida del dato en ambientes de Business IntelligenceAlex Rayón Jerez
 

La actualidad más candente (6)

Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Introduccion inteligencia negocios | business intelligence
Introduccion inteligencia negocios | business intelligenceIntroduccion inteligencia negocios | business intelligence
Introduccion inteligencia negocios | business intelligence
 
INTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOSINTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOS
 
Inteligencia de negocios.
Inteligencia de negocios.Inteligencia de negocios.
Inteligencia de negocios.
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Ciclo de vida del dato en ambientes de Business Intelligence
Ciclo de vida del dato en ambientes de Business IntelligenceCiclo de vida del dato en ambientes de Business Intelligence
Ciclo de vida del dato en ambientes de Business Intelligence
 

Destacado

Redes sociales en_el_ambito_escolar
Redes sociales en_el_ambito_escolarRedes sociales en_el_ambito_escolar
Redes sociales en_el_ambito_escolarPaola Romero
 
Student Affairs Interview Paper
Student Affairs Interview PaperStudent Affairs Interview Paper
Student Affairs Interview PaperAmy Peterson
 
Los peligros del internet
Los peligros del internetLos peligros del internet
Los peligros del internetFelix_Baquero
 
Southern caribbean
Southern caribbeanSouthern caribbean
Southern caribbeanMauikho09
 
New dawning magazine september october 2016 edit 7
New dawning magazine september october 2016 edit 7New dawning magazine september october 2016 edit 7
New dawning magazine september october 2016 edit 7Joyce Eason
 
La música en grecia
La música en greciaLa música en grecia
La música en greciapepito35
 
Redes sociales
Redes socialesRedes sociales
Redes socialeselidilis
 
Redes sociales en el ámbito escolar
Redes sociales en el ámbito escolarRedes sociales en el ámbito escolar
Redes sociales en el ámbito escolarPaola Romero
 
Thesis presentation reduced
Thesis presentation reducedThesis presentation reduced
Thesis presentation reducedSanam Badshah
 
Bilatam - BI for Beginners
Bilatam - BI for BeginnersBilatam - BI for Beginners
Bilatam - BI for BeginnersBILATAM
 
L'iSAD en la gestió del SAD al Pallars Sobirà
L'iSAD en la gestió del SAD al Pallars SobiràL'iSAD en la gestió del SAD al Pallars Sobirà
L'iSAD en la gestió del SAD al Pallars SobiràProjecte iSAD
 
La gestió del SAD des de les TIC el nou aplicatiu ISAD
La gestió del SAD des de les TIC el nou aplicatiu ISADLa gestió del SAD des de les TIC el nou aplicatiu ISAD
La gestió del SAD des de les TIC el nou aplicatiu ISADProjecte iSAD
 
Perfil socioeconómicos de los estudiantes universitarios
Perfil socioeconómicos de los estudiantes universitariosPerfil socioeconómicos de los estudiantes universitarios
Perfil socioeconómicos de los estudiantes universitariosMargaRo08
 
Aline ensayo de relaciones internacionales y patos y caballos perros y gatos
Aline ensayo de relaciones internacionales y patos y caballos perros y gatosAline ensayo de relaciones internacionales y patos y caballos perros y gatos
Aline ensayo de relaciones internacionales y patos y caballos perros y gatosAlinhe Perez
 

Destacado (20)

Redes sociales en_el_ambito_escolar
Redes sociales en_el_ambito_escolarRedes sociales en_el_ambito_escolar
Redes sociales en_el_ambito_escolar
 
Student Affairs Interview Paper
Student Affairs Interview PaperStudent Affairs Interview Paper
Student Affairs Interview Paper
 
Los peligros del internet
Los peligros del internetLos peligros del internet
Los peligros del internet
 
WebBestPractices3
WebBestPractices3WebBestPractices3
WebBestPractices3
 
Southern caribbean
Southern caribbeanSouthern caribbean
Southern caribbean
 
New dawning magazine september october 2016 edit 7
New dawning magazine september october 2016 edit 7New dawning magazine september october 2016 edit 7
New dawning magazine september october 2016 edit 7
 
La música en grecia
La música en greciaLa música en grecia
La música en grecia
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Redes sociales en el ámbito escolar
Redes sociales en el ámbito escolarRedes sociales en el ámbito escolar
Redes sociales en el ámbito escolar
 
Thesis presentation reduced
Thesis presentation reducedThesis presentation reduced
Thesis presentation reduced
 
Bilatam - BI for Beginners
Bilatam - BI for BeginnersBilatam - BI for Beginners
Bilatam - BI for Beginners
 
Trabajo colaborativo 2
Trabajo colaborativo 2Trabajo colaborativo 2
Trabajo colaborativo 2
 
Trabajo colaborativo 2
Trabajo colaborativo 2Trabajo colaborativo 2
Trabajo colaborativo 2
 
L'iSAD en la gestió del SAD al Pallars Sobirà
L'iSAD en la gestió del SAD al Pallars SobiràL'iSAD en la gestió del SAD al Pallars Sobirà
L'iSAD en la gestió del SAD al Pallars Sobirà
 
estimulacion temprana
estimulacion tempranaestimulacion temprana
estimulacion temprana
 
La gestió del SAD des de les TIC el nou aplicatiu ISAD
La gestió del SAD des de les TIC el nou aplicatiu ISADLa gestió del SAD des de les TIC el nou aplicatiu ISAD
La gestió del SAD des de les TIC el nou aplicatiu ISAD
 
Perfil socioeconómicos de los estudiantes universitarios
Perfil socioeconómicos de los estudiantes universitariosPerfil socioeconómicos de los estudiantes universitarios
Perfil socioeconómicos de los estudiantes universitarios
 
La renga
La rengaLa renga
La renga
 
Aline ensayo de relaciones internacionales y patos y caballos perros y gatos
Aline ensayo de relaciones internacionales y patos y caballos perros y gatosAline ensayo de relaciones internacionales y patos y caballos perros y gatos
Aline ensayo de relaciones internacionales y patos y caballos perros y gatos
 
george youssief2
george youssief2george youssief2
george youssief2
 

Similar a Rompiendo el mito data mining

Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BIfabian fernandez
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptChemyTacza
 
Hacia ti capacitación virtual pasos 01, 02, 03
Hacia ti capacitación virtual pasos 01, 02, 03Hacia ti capacitación virtual pasos 01, 02, 03
Hacia ti capacitación virtual pasos 01, 02, 03sbmalambo
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Daniela Bedascarrasbure
 
Segundo Curso de Minería de Datos
Segundo Curso de Minería de DatosSegundo Curso de Minería de Datos
Segundo Curso de Minería de Datosdataminingperu
 
Segundo Curso de Minería de Datos
Segundo Curso de Minería de DatosSegundo Curso de Minería de Datos
Segundo Curso de Minería de Datosdataminingperu
 
Tendencias de la Tecnología de Información.
Tendencias de la Tecnología de Información.Tendencias de la Tecnología de Información.
Tendencias de la Tecnología de Información.Roberto Ramírez Amaya
 
Revista Mundo Contact Junio 2015
Revista Mundo Contact Junio 2015Revista Mundo Contact Junio 2015
Revista Mundo Contact Junio 2015Mundo Contact
 
Plan de negocio
Plan de negocio Plan de negocio
Plan de negocio ITFIP
 
Tarea sistemas definiciones
Tarea  sistemas definicionesTarea  sistemas definiciones
Tarea sistemas definicionesCarlos Mancilla
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Joaquín Borrego-Díaz
 

Similar a Rompiendo el mito data mining (20)

Mineria datos vallejos
Mineria datos vallejosMineria datos vallejos
Mineria datos vallejos
 
Mineria datos vallejos
Mineria datos vallejosMineria datos vallejos
Mineria datos vallejos
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
 
Hacia ti capacitación virtual pasos 01, 02, 03
Hacia ti capacitación virtual pasos 01, 02, 03Hacia ti capacitación virtual pasos 01, 02, 03
Hacia ti capacitación virtual pasos 01, 02, 03
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
ppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdfppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdf
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21
 
bi-180616123404 (1).pptx
bi-180616123404 (1).pptxbi-180616123404 (1).pptx
bi-180616123404 (1).pptx
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Segundo Curso de Minería de Datos
Segundo Curso de Minería de DatosSegundo Curso de Minería de Datos
Segundo Curso de Minería de Datos
 
Segundo Curso de Minería de Datos
Segundo Curso de Minería de DatosSegundo Curso de Minería de Datos
Segundo Curso de Minería de Datos
 
Tendencias de la Tecnología de Información.
Tendencias de la Tecnología de Información.Tendencias de la Tecnología de Información.
Tendencias de la Tecnología de Información.
 
Revista Mundo Contact Junio 2015
Revista Mundo Contact Junio 2015Revista Mundo Contact Junio 2015
Revista Mundo Contact Junio 2015
 
Plan de negocio
Plan de negocio Plan de negocio
Plan de negocio
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
B dtrab4
B dtrab4B dtrab4
B dtrab4
 
Tarea sistemas definiciones
Tarea  sistemas definicionesTarea  sistemas definiciones
Tarea sistemas definiciones
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
 

Rompiendo el mito data mining

  • 1. Rompiendo el Mito: Minería de Datos Una Perspectiva Latinoamericana Por: César Oviedo Blanco Arquitecto de Inteligencia de Negocios Conferencista Internacional, MCT, MCITP Implementaciones con: Reporte de Libre Distribución
  • 2. Business Intelligence LATAM ABSTRACT BUSINESS INTELLIGENCE LATAM Este documento forma parte de una serie de reportes denominados Es una comunidad de libre acceso a nivel latinoamericano con el “Rompiendo el Mito”, esta serie objetivo de promover las tecnologías relacionas a la Inteligencia de tiene como objetivo simplificar y Negocios. Durante su trayectoria se ha trazado la meta de crecer y desmitificar las herramientas, ser identificada como un punto de referencia de conocimiento tecnologías y metodologías que compartido, sin ningún fin de lucro. han sido consideradas por parte del Mercado Latinoamericano como Se les invita a ser parte de la misma siguiéndonos en: Mitos. www.businessintelligencelatam.com www.facebook.com/groups/businessintelligencecr/members/ Este reporte específicamente, está www.youtube.com/user/BILATAM orientado para tomadores de decisiones e implementadores de Inteligencia de Negocios con INTRODUCCIÓN interés en conocer o implementar soluciones de Minería de Datos. En En nuestras empresas o clientes, una de las limitaciones históricamente el simplificaremos el entorno de más grandes es la facultad del análisis de datos. Esta necesidad implementación, así como explorar normalmente se cubre con la implementación de Data Warehouse y los mitos y realidades de la Minería modelos OLAP como soluciones analíticas. Cuando las necesidades se de Datos desde una perspectiva empiezan a hacer más estratégicas, orientadas a la predicción o Latinoamericana. Se enfatiza en las simplemente se requieren herramientas que determinen razones del por qué esta tecnología comportamientos e identifiquen patrones ocultos que no pueden ser ha tenido tan poco crecimiento, a analizados con las herramientas convencionales de Inteligencia de pesar de que el mercado mundial Negocio; es cuando la Minería de Datos es la solución más completa apunta al análisis proactivo y para resolver estos problemas. predictivo de la información. www.businessintelligencelatam.com Página |2
  • 3. Business Intelligence LATAM ¿QUÉ ES LA MINERÍA DE DATOS? DATA MINING EN EL MUNDO Una de las principales razones de la existencia de este Latinoamérica es conocido como uno de los documento, es brindar una definición fácil pero completa exportadores de software más importantes a nivel de la minería de datos. Debido a la falta de una definición mundial, Sin embargo cuando se habla de la sencilla y comprensible en el mercado, se genera miedo a aplicación de tecnología a nivel local nos la incursión de una implementación de un proyecto en un encontramos con un escenario muy diferente. Este área desconocida. mismo comportamiento lo encontramos en las empresas que implementan Minería de Datos, el Wikipedia nos brinda una definición si bien válida, también siguiente grafico muestra la distribución por zona de difícil de entender: “La minería de datos (es la etapa de las empresas que utilizan la Minería de Datos dentro análisis de "Knowledge Discovery in Databases" o KDD), es de sus operaciones. un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y gestión de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, métricas de Intereses, consideraciones de la Teoría de la complejidad computacional, post- Fuente: KDnuggets - Industries where you applied Analytics / Data Mining in 2011 procesamiento de las estructuras descubiertas, la visualización y actualización en línea.” Indiscutiblemente Latinoamérica se encuentra en una posición poco favorable en relación al desarrollo Una definición más acertada y simple es: Son herramientas económico, pero no así en desarrollo de tecnología. que apoyan la toma de decisiones basándose en la Es ahí donde vale la pena preguntarse el ¿Por qué no detección de patrones y comportamiento dentro de los se implementa Minería de Datos en Latinoamérica? datos. Es decir, una forma de encontrar aspectos La respuesta es simple, desconocimiento de los relevantes dentro de la información, para anticiparse en la beneficios e implicaciones implícitas, esta y otras conducta futura. aclaraciones serán abundadas en las siguientes secciones. www.businessintelligencelatam.com Página |3
  • 4. Business Intelligence LATAM implementados, lo que se requiere es la comprensión MITOS TÉCNICOS de dichos algoritmos para saber cuál debemos implementar según las necesidades del negocio. A continuación se listan los mitos que según el criterio del 5. Un proyecto de Minería de Datos es complejo, autor, son los que rodean la Minería de Datos y que costoso y lleva mucho tiempo. dificultan la adopción de la misma. Falso. Contrario a lo que se cree, la complejidad de un proyecto de Minería de Datos no proviene de las 1. El cliente debe tener implementado un Data Warehouse herramientas, sino de la comprensión “real” del para ser considerado prospecto potencial. negocio. Típicamente los departamentos de Falso. Las herramientas modernas como el SQL Server Tecnologías de Información son dados a pensar que 2012 y otras existentes en el mercado nos permiten saben lo que los usuarios quieren, esto es lo que implementar Minería de Datos con datos provenientes de normalmente lleva un proyecto de este tipo al bases de datos, archivos de Excel, archivos planos etc. fracaso. El consumo en tiempo y costo va a radicar 2. La Minería de Datos es para grandes volúmenes de mayormente, en la habilidad de comprender el datos. negocio para implementar modelos útiles. Falso. El nivel de aprovechamiento de la información no 6. No hay recurso humano técnico disponible. depende de la cantidad de Gigabytes, Terabytes o Verdadero. Lamentablemente, en el ámbito Petabytes. Ciertamente es requerido que a la hora de latinoamericano no se cuenta con amplia demanda hacer un análisis se cuente con la mayoría de datos de estos servicios, esto genera baja oferta tanto a relevantes al modelo, pero debemos tener claro que si la nivel profesional como corporativo. realidad de la organización es que maneja solamente cientos o miles de datos, estos son suficientes para identificar los patrones de comportamiento de los datos. MITOS FUNCIONALES 3. Se requiere la eliminación datos basura y datos faltantes. Falso. Si bien la limpieza de datos es lo más recomendado. 1. El departamento de tecnologías de información Los algoritmos en los cuales se implementa la Minería de brinda los análisis y pronósticos. Datos están basados en estadísticas que asumen Falso. La responsabilidad del departamento de probabilidades y márgenes de aceptación. Por lo tanto, tecnologías de información es implementar el medio una cantidad relativamente pequeña de errores y datos tecnológico para que las áreas de negocio o faltantes no influye en el resultado del modelo. funcionales interpreten y generen nuevos análisis. 4. Se requiere un alto nivel de conocimiento matemático y Este tipo de proyectos comparten como todo estadístico. proyecto de Inteligencia de Negocios la Falso. Es cierto que los algoritmos usados en la Minería de obligatoriedad de que el proyecto se construya en Datos se basan en métodos como la inteligencia artificial, una estrecha relación entre las áreas técnicas y aprendizaje automático, estadística, ciencias matemáticas funcionales. como la lógica, probabilidad, etc. Pero estos algoritmos ya están www.businessintelligencelatam.com Página |4
  • 5. Business Intelligence LATAM • Microsoft Naive Bayes CONCEPTOS PRACTICOS Clasifica y predice la probabilidad de que se cumpla una columna que se designa como elemento de predicción. Se caracteriza por no tomar en cuenta las Algo que clarificar es que no requerimos ser expertos relaciones de comportamiento que pudieran existir matemáticos o científicos para implementar Minería de entre los datos. De ahí su nombre “Naive” haciendo Datos, y no tenemos que entender cada uno de los referencia a que son suposiciones ingenuas. algoritmos existentes. Por ejemplo si mi empresa lo único Atributo que requiere es una segmentación de mercado, puede Edad únicamente identificar por cuales características por las que desea segmentar y aplicar un algoritmo de Clustering. Para ejemplificar los algoritmos se utilizarán los incorporados en el SQL Server en su versión 2012, con la aclaración de que cada proveedor de herramientas de Minería de Datos provee sus propios algoritmos, sin embargo los principios son compartidos. Género La minería de datos segmenta los atributos en dos grandes grupo: Atributo Discreto: Cantidad finita de características, normalmente reflejada como un valor alfanumérico. Atributo Continuo: Cantidad infinita de valores, normalmente reflejada como un valor real.  Microsoft Time Series A continuación se ilustran los algoritmos por los que En base al comportamiento demostrado en la debería iniciar toda empresa que desea iniciar en la información histórica proporciona un pronóstico de implementación de Minería de Datos: valores continuos en el tiempo futuro, tales como las ventas de productos, tendencias de mercado, • Microsoft Decision Trees estadísticas de producción. Basándose en las relaciones de comportamiento entre las columnas de un conjunto de datos, predice los estados de una columna que se designa como elemento de predicción. Ejemplo: Predecir qué clientes probablemente van a adquirir un determinado producto, dándose una secuencia de características. El resultado es presentado en un árbol jerárquico. Compra (60%) Carro Propio = SI Género = Compra(20%) Mujer Carro Propio = Compra(40%) NO Género = Compra (5%) Hombre www.businessintelligencelatam.com Página |5
  • 6. Business Intelligence LATAM • Microsoft Clustering “Personas técnico-funcionales con la facultad de El algoritmo utiliza técnicas iterativas para agrupar los convertir datos en dinero”, en Latinoamérica datos de un conjunto dentro de agrupaciones (mejor normalmente no se poseen dentro de nuestras conocidos como clústeres) que contienen características empresas, por esto es indispensable la participación similares. Estas agrupaciones son útiles para la exploración activa de las áreas funcionales y técnicas en la de datos, la identificación de anomalías en los datos y la definición del problema. creación de predicciones.  Utilizar la información correcta Los modelos de agrupación en clústeres identifican las Un proyecto de Minería de Datos se basa en los relaciones en un conjunto de datos que no se podrían datos, y si los datos tienen muchos errores los análisis derivar lógicamente a través de la observación casual. no darán resultados tan realista o con un porcentaje A pesar de que suena complejo es uno de los preferidos de error alto. Si bien como se aclaró en el segmento por su facilidad de implementación y que permite de una de Mitos, la minería no requiere obligatoriamente un forma visualmente simple detectar comportamientos en Data Warehouse y/o procesos de Data Quality, los datos. siempre va a ser la recomendación, por otro lado los datos que se usan para un algoritmo tienen que ser preparados, limpiados, transformados y reducidos, si estas tareas se hacen correctamente podemos tener un muy buen resultado.  Proceso de adopción Es normal que nuestros usuarios se sientan desconfiados de los resultados de los análisis y más aún cuando las predicciones o segmentaciones indican que las iniciativas o estrategias actuales no están basadas en la realidad de la empresa. Por esto es indispensable un proceso de adopción que le CRITERIOS DE ÉXITO permita a los tomadores de decisiones confiar en la tecnología implementada. Todo proyecto de Minería de Datos, como todo proyecto de Inteligencia de Negocios, son proyectos con un riesgo controlado si se toman en cuenta los siguientes criterios: CONTACTO  Definición del Problema Algo que tenemos que comprender es que nuestros Contacto: usuarios no van a llegar por si mismos a la conclusión de César Oviedo Blanco que es exactamente el requerimiento a implementar, si info@businessintelligencelatam.com bien ellos son los expertos del negocio y son los que www.facebook.com/groups/businessintelligencecr/ terminarán usando y analizando los resultados de los http://about.me/coviedo algoritmos; ellos normalmente no tienen la formación técnica ni conocen las características de cada algoritmo. Es por esto que normalmente se incorpora lo que llaman Científicos de Datos, una definición sencilla sería www.businessintelligencelatam.com Página |6