SlideShare una empresa de Scribd logo
1 de 11
Descargar para leer sin conexión
MINERÍA DE DATOS:
cómo hallar una
                                                               aguja en un pajar
Gilberto Lorenzo Martínez Luna



                   Recientemente la computación ha creado la minería de datos. Este sis-
                   tema tiene como finalidad prevenir a los directivos de empresas sobre
                   situaciones interesantes, anomalías, e incluso peligros no detectados con
                   anticipación. Los llamados “mineros” son auxiliares indispensables para el
                   ejecutivo de cualquier empresa bien organizada.




                  L
                           as instituciones y empresas privadas coleccionan bastante información
                           (ventas, clientes, cobros, pacientes, tratamientos, estudiantes, calificacio-
                           nes, fenómenos meteorológicos, etcétera, según su giro), aprovechando
                           que las computadoras y los discos de almacenamiento se han abaratado, y
                   las comunicaciones son también baratas y confiables. Esta información reside en
                   bases de datos operacionales, llamadas así porque con ellas se lleva a cabo la labor
                   sustantiva de la empresa: envío de mercancía a clientes, registro de estudiantes, tra-
                   tamiento a pacientes, cobranza, entre otros.
                       Posteriormente la información se depura y sumariza (resume) para transferirla
                   a bases de datos conocidas como bodegas de datos. Son “fotografías” periódicas (tri-
                   mestrales, digamos) del estado de la empresa. Aquí se lleva a cabo la labor estraté-
                   gica de la misma: averiguar qué pasa en ella. ¿Qué productos se venden significa-
                   tivamente menos? ¿Ha habido un auge inesperado de deserciones de las carreras
                   en las ciencias sociales? ¿El aumento de la inversión en perforación de nuevos
                   pozos no guarda proporción con la disminución de las reservas probables y proba-
                   das de hidrocarburos? Ésta es la zona de las decisiones estratégicas, y los sistemas
                   usados para ellas se conocen como Sistemas de Apoyo a la Toma de Decisiones.
                   Estos sistemas muestran al funcionario los indicadores principales del estado de la
                   empresa (en el último bimestre, digamos). El funcionario indaga o averigua situa-
                   ciones que él cree son de interés o preocupación. El sistema contesta con datos y


18 ciencia   •   julio-septiembre 2011
Computación: rumbos estratégicos




      gráficas para que aquél pueda tomar decisiones. Aun-         tivo de una empresa bien organizada. Para que los
      que el directivo o gerente tiene la experiencia necesa-      mineros trabajen bien, la empresa debe: a) tener regis-
      ria, a menudo (por falta de tiempo, o porque no se le        tros operacionales que apoyen sus trabajos cotidianos,
      ocurrió) no mira situaciones que están tomando rum-          sus funciones sustantivas; b) “fotografiar” periódicamen-
      bos interesantes, peligrosos quizá. Así, ciertas decisio-    te estos registros, resumiéndolos (sumarizándolos), en
      nes importantes pueden ser soslayadas, ignoradas, o          “instantáneas trimestrales” que forman parte de la bo-
      tomarse ya muy tarde. Se pueden así desperdiciar opor-       dega de datos; y c) crear y depurar sus mineros de datos,
      tunidades o admitirse riesgos indeseables.                   haciéndolos trabajar exhaustivamente sobre la bodega
          Recientemente, la computación ha inventado la            de datos. En los primeros tres apartados de este artículo
      minería de datos, en auxilio del directivo que toma de-      abordaremos estos aspectos. Finalmente, en el cuarto y
      cisiones. En las bodegas de datos se colocan “mineros”,      final, daremos ejemplos de mineros creados y usados
      algoritmos que buscan tendencias, anomalías, desvia-         en México.
      ciones o situaciones interesantes pero desconocidas, y
      otros eventos importantes. Estos mineros auxilian al
      directivo al mando del timón de la institución a man-            I. La operación cotidiana de la
      tener el mejor rumbo posible. Utilizan, además de las            empresa
      bases de datos, la inteligencia artificial (procedimientos       ¿De dónde proviene el mar de datos?
      para hallar grupos en situaciones similares, clasificar          Todas las organizaciones y empresas coleccionan y
      eventos nuevos en categorías conocidas, etcétera) y la           administran datos de su interés relacionados con
      estadística. Pero a diferencia de esta última, que toma          personas, procesos u otro tipo de actividades para
      una muestra de los datos y la estudia, la minería de         las cuales fueron creadas. Los más comunes son los
      datos estudia todos los datos. Mientras más datos se         relacionados con ventas de productos o servicios, em-
      analicen, más precisa es, y su poder de detección y pre-     pleados, pacientes o con clientes, o tan sofisticados
      dicción aumenta.                                             como los que usa una organización dedicada a pronos-
          En este artículo hablaremos de los mineros. En un        ticar el clima, o en actividades muy especializadas,
      mundo globalizado, donde es importante saber lo que          como la detección de fraudes en el consumo de ener-
      ocurre en el entorno de la institución, en su contexto,      gía eléctrica.
      los mineros son auxiliares indispensables para el ejecu-         Las colecciones se pueden almacenar en discos de
                                                                   gran capacidad, que es ya posible comprar y tener en el
                                                                   hogar, y que pueden ser del tamaño de la palma de la
                                                                   mano o menos. Para darnos una idea de su capacidad,
                                                                   pueden almacenar el número del Registro Federal de
                                                                   Causantes (RFC) y la edad de cada uno de los habitan-
                                                                   tes de la República Mexicana, para lo cual basta un
                                                                   disco con capacidad de almacenamiento de un tera-
                                                                   byte (mil gigabytes, equivalentes a un millón de me-
                                                                   gabytes, o 1012 bytes, es decir, 1012 caracteres).

                                                                   El uso del mar de datos que surte
                                                                   al océano de datos
                                                                   En general estas colecciones tienen dos principales
                                                                   tipos de usos o aplicaciones:
                                                                       a) El primer uso es en aplicaciones conocidas como
                                                                   procesamiento de transacciones en línea (OLTP, por sus
                                                                   siglas en inglés). En este tipo de aplicaciones, las tran-


      20 ciencia   •   julio-septiembre 2011
Minería de datos: cómo hallar una aguja en un pajar




sacciones son para adicionar más información, reali-             analítico en línea (OLAP, por sus siglas en inglés, OnLine
zando operaciones sobre uno o algunos datos de su                Analytical Processing), o la minería de datos. Ambos
interés, datos que también pueden ser borrados o                 análisis se caracterizan por utilizar un gran número de
modificados. Estas transacciones se llevan a cabo regu-          datos de interés (caso contrario de las OLTP) que se
larmente todos los días (ver artículo “La información            generaron a través de varios días, meses o años, de
es poder… sobre todo si está en una base de datos”, de           acuerdo con el interés de la organización.
Hugo César Coyote, en este mismo número de Cien-                    En la Tabla 2 se dan valores aproximados del nú-
cia). Ejemplos de adición de nuevos datos es el registro         mero de datos que se almacenan por varios años en
de nuevas ventas o nuevos clientes; ejemplos de modi-            una bodega de datos.
ficaciones a ellos es la disminución del saldo de las
deudas por pago de los deudores, o cuando se incre-              ¿Cómo trabaja el análisis O L A P ?
menta la deuda por compras con tarjeta de crédito; y             En las bodegas, los datos se organizan en lo que se
ejemplos de borrado es cuando ya no es necesario                 conoce como cubo de datos, cuyos componentes prin-
almacenar datos de clientes que ya no compran, de                cipales son las variables de análisis conocidas como
deudas ya pagadas, de calificaciones de alumnos que ya           dimensiones, y la variable numérica a revisar llamada
terminaron sus estudios en una escuela, de inventarios           hecho o medida.
de años anteriores, o de ventas diarias de años ante-                Un ejemplo de un cubo de datos con cuatro dimen-
riores, entre otras situaciones.                                 siones y una medida a analizar puede verse en la Ta-
    Como muestra, en la Tabla 1 se indican números               bla 3, y la Figura 1 muestra una representación gráfica.
aproximados de transacciones que administran algu-                   Las operaciones que aquí se realizan son principal-
nas empresas a nivel nacional en México.                         mente conteos de datos, sumas de sus ventas o su pro-
                                                                 ducción y otras operaciones como saber el máximo o
                                                                 mínimo o promedio en un periodo de tiempo. Cuando
    II. Las bodegas de datos se usan para                        se hace lo anterior, se dice que se desarrolla el análisis
    tomar decisiones estratégicas                                OLAP, y el resultado sirve como base para tomar deci-
    Al paso del tiempo, los datos de las aplicaciones            siones, pues se revisa el comportamiento de interés.
    OLTP se transfieren, con una serie de procesos                   Los análisis se visualizan en gráficas, en las que se
    conocidos como extracción, transformación y limpie-          pueden inferir situaciones de interés. Por ejemplo, en
za a colecciones llamadas bodegas de datos, donde su             un conteo de pérdidas en varios meses, una gráfica po-
segundo uso es el análisis; ya sea con el procesamiento          dría mostrar que es una tendencia a crecer; otra gráfica


Tabla 1. Ejemplo de transacciones que almacenan algunas bases de datos
                                                 Transacciones
                          Dato de                mensuales (año 2010),       Transacciones anuales        Otras
 Empresa                  interés         Año    en millones                 (millones)                   transacciones
 Comisión Federal de      Clientes
 Electricidad ( CFE )     34.2 millones   2010   Consumo-pago, 68.4          820.8
 Teléfonos de México      Líneas                                                                          Llamadas en un
 (Telmex)                 15.6 millones   2010   Servicio-pago, 31.2         374.4                        trimestre 4 900 millones
 Comercial Mexicana       Productos
                          70 000          2008   Compras, 22                 264
 Instituto Mexicano del   Pacientes              Consultas, 10.2
 Seguro Social ( IMSS )   44 693 474      2010   (hasta noviembre)           120
 Instituto Politécnico    Estudiantes            Calificaciones de cuatro    (Seis evaluaciones)
 Nacional ( IPN )         160 000         2010   materias 0.64               3.84



                                                                                                   julio-septiembre 2011   •   ciencia   21
Computación: rumbos estratégicos



      Tabla 2. Ejemplo de historial de datos                                     que muestre sumatorias (sumas) de producción de deri-
      almacenados en una bodega de datos                                         vados de petróleo en dos años podría indicar si la pro-
       Empresa           Transacciones anuales                  10 años          ducción se mantiene en los dos años; otra gráfica con
       CFE               820.8 millones consumos y pagos        8 208 millones
                                                                                 las sumatorias de nacimientos contra muertes por año
       Telmex            374.4 millones de servicios y pagos    3 744 millones
                                                                                 en un periodo de 55 años podría indicar cuándo habrá
       Comercial
                                                                                 una coincidencia de ambas (muertes y nacimientos).
       Mexicana          264 millones de compras                2 640 millones
       IMSS              120 millones de consultas              1 200 millones       El análisis OLAP, con el historial de las actividades
       IPN               3.84 millones de calificaciones        38.4 millones    que han realizado los generadores de los datos, se rea-
                                                                                 liza de manera manual, y dirigida por quien está al
                                                                                 frente de la computadora revisando los cubos.


      Tabla 3. Ejemplo de cubo de datos para
                                                                                      III. La minería de datos al auxilio
      analizar consumos de energía
                                                                                      al alto ejecutivo
       Dimensión/
                                                                                      La minería de datos se especializa en realizar estas
       valor              Descripción                 Valores por dimensión
       1. Medidor                                     34*10 6
                                                                                      tareas con ayuda de una computadora, apoyándose
       2. Tarifa          Tipos de tarifas en la      Aproximadamente más             en un modelo de trabajo o proceso que se ha cons-
                          República Mexicana          de 100                     truido con la secuencia que se indica en la Figura 2. En
       3. División        División geográfica         13                         esta sección nos concentraremos en la etapa de mine-
                          propia de CFE                                          ría de datos.
       4. Mes             12 por año                  12
       Medición:          Consumo                     Más de
                                                                                 ¿Cómo trabaja la minería de datos?
       Consumo                                        34 ¥ 106 ¥ 100 ¥ 13 ¥ 12
                                                                                 Para detectar situaciones interesantes y anomalías
                                                      consumos en un año
                                                                                 (desviaciones de lo previsto), el software que lleva a
                                                                                 cabo minería de datos se vale de varias técnicas y pro-
                                                                                 cedimientos (“algoritmos”). Algunos son:

                                                                                 • Umbrales: si tenemos un registro periódico (diario,
                                                                                   semanal, etc.) de alguna variable de interés (las ven-
                                                                                   tas de cierto producto, digamos) podemos fijarles
                                                                                   un máximo “tolerado”, arriba del cual nos interesa
                                                                                   detectar excesos, y un mínimo “permitido”, aba-


                                                                                                                     Interpretación/
                                                                                                                        evaluación
                                                                                                       Minería de datos
                                                                                                                                       Conocimiento
                                                                                                  Transformación
                                                                                                                               Patrones
                                                                                       Preprocesamiento                       resultantes

                                                                                      Selección                        Datos
                                                                                                                   transformados
                                                                                                             Datos
                                                                                                         preprocesados
                                                                                 Base de           Datos
                                                                                  datos           objetivo

       Figura 1. Representación gráfica del cubo con sólo tres                    Figura 2. Fases del proceso de Descubrimiento en Bases de
       dimensiones para analizar consumos de energía.                             Datos. Tomada de Usama Fayyad y Evangelos Simoudis.



      22 ciencia     •   julio-septiembre 2011
Minería de datos: cómo hallar una aguja en un pajar




    jo del cual deseamos que el minero nos informe. El
    algoritmo observa las ventas conforme pasan los
    días, y cuando detecta un valor más allá de los lími-
    tes o umbrales fijados, nos avisa. Para no distraernos
    con “picos” pasajeros, podemos programar al minero
    para que nos avise si hay más de tres picos consecu-
    tivos (en tres semanas seguidas, por ejemplo).
•   Tendencias: este algoritmo observa si de una semana
    a la siguiente la variable observada (las ventas,
    en nuestro ejemplo) tiene un crecimiento o dismi-
    nución considerable (del 15 por ciento o más, di-
    gamos). Nos avisa de oportunidades que hay que
    aprovechar, o de problemas que debemos resolver.
    También se le puede pedir que sólo nos avise de los
    aumentos que ocurren en tres periodos de tiempo
    consecutivos, o si estos aumentos ocurren en esta-
    blecimientos geográficamente cercanos (lo que sig-
    nifica que la tendencia se observa en toda una zona).
•   Franja de normalidad: como a menudo la variable
    que estamos observando tiene un comportamiento
    estacional (por ejemplo, en época de frío se vende
    menos helado que en la de calor), en vez de esta-
    blecer cotas superiores e inferiores, podemos decir-
    le al minero que nos informe cuando la variable de
    interés se salga de una “franja de normalidad” esta-
    blecida, tomando en cuenta, digamos, cómo se             establece que (leche, pan) es un patrón frecuente.
    comportó esa variable (ese fenómeno que estamos          Para que un patrón sea frecuente, sus componentes
    observando) durante el año pasado.                       deben serlo (si pan es un producto poco comprado,
•   Comportamiento errático: quizá nos interese que el       entonces no puede ser miembro de ningún par de
    minero nos informe de épocas (o de zonas del terri-      productos frecuentes). Los patrones frecuentes
    torio, o de productos) en que el comportamiento          deben tener un soporte (el porcentaje de compro-
    no siga una tendencia definida, es decir, registre       bantes de compra del supermercado donde se com-
    tumbos, suba o baje. En este caso, el minero com-        pró leche y pan) mínimo, digamos 6 por ciento de
    parará varios valores semanales consecutivos.            los comprobantes. Podría ser que el patrón frecuen-
•   Máximos: ¿qué productos se venden más?, ¿en qué          te (leche, pan) fuera parte de otro patrón frecuente
    temporadas se venden más productos de ferrete-           más extenso, digamos (leche, pan, arroz). Para de-
    ría?, ¿en qué zonas se venden más desodorantes pa-       terminar los patrones frecuentes, el minero co-
    ra hombre? Un minero que sistemáticamente barra          mienza examinando todos los comprobantes para
    las ventas y detecte máximos podrá contestar pre-        saber cuáles son los ítems (productos individuales)
    guntas de este tipo. Igualmente sucede con los va-       frecuentes. Como a menudo los datos a examinar
    lores mínimos: algo que se venda poco, una carrera       son voluminosos, no caben en la memoria principal
    en un instituto que tenga pocos egresados, una en-       de la computadora, y es necesario que el minero
    fermedad que ya casi no ocurre, etcétera.                maneje cuidadosamente los accesos (lecturas) al dis-
•   Patrones frecuentes: “cada vez que alguien compra        co, para no desperdiciar tiempo. Una vez detectados
    leche, compra pan”; es una regla que, de ser cierta,     los patrones frecuentes, es relativamente fácil detec-


                                                                                       julio-septiembre 2011   •   ciencia   23
Computación: rumbos estratégicos




        tar los pares de patrones frecuentes, y de ellos ver        entre sí, pero distintas a los pertenecientes a otros
        cuáles son los tríos de patrones frecuentes, etcétera.      cúmulos.
      • Reglas de asociación: una vez determinado un patrón
        frecuente, por ejemplo (leche, pan, arroz), sería            Hay otros métodos, omitidos aquí por brevedad.
        interesante para el minero descubrir cuál producto       Así, usando la estadística, las bases de datos y la inteli-
        causa que los otros sean comprados. Por ejemplo,         gencia artificial, los mineros van descubriendo auto-
        ¿quien compra leche, compra también pan y arroz?         máticamente situaciones interesantes en un mar de
        En este caso, leche  pan, arroz. Pero pudiera ser       datos. A diferencia de la estadística, que examina una
        que quien compra arroz y leche compra también            muestra (una pequeña porción) de los datos para infe-
        pan. En este caso, arroz, leche  pan. Éstas se lla-     rir características de todos los datos, el minero exami-
        man reglas de asociación, útiles para determinar         na todos los datos. Éstos a menudo son muchos, por lo
        causa y efecto. Para que una regla de asociación sea     que, como hemos dicho, debe efectuar sus lecturas de
        establecida como tal, se requiere que la regla reba-     disco y sus procedimientos en memoria con cierto
        se cierta confianza mínima. Por ejemplo, la confian-     orden, a fin de no desperdiciar tiempo.
        za de la regla leche  pan, arroz es el porcentaje           El análisis mediante minería de datos se lleva a
        de los clientes que, habiendo comprado leche, efec-      cabo con dos actividades para obtener conocimiento no
        tivamente también compraron pan y arroz. Co-             conocido: a) describir en detalle a los generadores de
        mo hay muchas reglas posibles a ensayar, el minero       datos, y b) predecir su comportamiento en su entorno;
        tiene que efectuar esos ensayos en un orden cuida-       todo esto utilizando la historia almacenada en la bode-
        dosamente establecido, a fin de no desperdiciar          ga de datos.
        tiempo de máquina.                                           La descripción en detalle se hace a partir de una
      • Cúmulos (clusters): dados todos los clientes de una      revisión exhaustiva de toda la información disponi-
        cadena de establecimientos (o todos los pacientes        ble, revisión que también permite conocer a los ge-
        de un conjunto de hospitales), usando técnicas de        neradores de datos en cada momento. Y conocer el
        agrupación se pueden agrupar o clasificar a los clien-   comportamiento de los generadores puede ayudar a las
        tes en, digamos, seis categorías o cúmulos, que nos      personas que toman decisiones a identificar futuras
        representan a clientes con propiedades parecidas         situaciones deseadas o no deseadas, aun con datos fal-
                                                                 tantes, y poder indicar el valor de éstos con cierta
                                                                 certidumbre.
                                                                     El conocimiento obtenido puede ayudar a los eje-
                                                                 cutivos en objetivos como los siguientes:

                                                                 • Mejorar los servicios o productos que se ofrecen. Esto
                                                                   es posible si se registra en la bodega el detalle de la
                                                                   respuesta a la compra por parte de los clientes al
                                                                   haber cambios en los productos o servicios, en
                                                                   cuanto a si se incrementa o se disminuye la venta.
                                                                   De estos resultados se puede aprender.
                                                                 • Evitar situaciones no deseadas, como la de perder
                                                                   clientes en servicios contratados. Estas situaciones
                                                                   se pueden prevenir, ya que se tiene el historial de
                                                                   la facturación de un servicio contratado, como el
                                                                   teléfono, al igual que los clientes que tienen el an-
                                                                   tecedente de que se han quejado por el servicio, los
                                                                   periodos de tiempo en que su número de llamadas


      24 ciencia   •   julio-septiembre 2011
Minería de datos: cómo hallar una aguja en un pajar




  decrece, y los que han cancelado su contrato en
  condiciones similares. También se debe tener datos
  de clientes que se han logrado retener y con qué
  estrategias se logró, al igual que el costo de cada
  estrategia. Se busca retener clientes, dado que es
  más barato mantenerlos que ganar nuevos clientes.
• No manufacturar productos que en un futuro ya no se
  venderán. Se pueden predecir cambios en los gustos
  de los consumidores, dado que con el historial de
  ventas se detectan las características de los produc-
  tos que se dejan de vender.
• Detectar productos de temporada. Una tienda comer-
  cial vende sus productos y registra la fecha de
  venta. Al revisar sus ventas por largos periodos,
  puede saber con precisión el intervalo de fechas en
  que algunos de estos productos tienen un alto vo-
  lumen de ventas, y con esta información tomar
  una serie de decisiones alrededor de este comporta-
  miento: cuáles productos comprar y ofrecer, cuán-        del petróleo o de energía eléctrica a través del tiempo
  do pedir los productos para tenerlos disponibles,        en el país.
  qué cantidad solicitar y almacenar para esas ventas          Para Pemex, en qué lugares se tiene un consumo
  con el fin de no tener sobrantes, realizar la publici-   similar de cierto derivado a través del tiempo, y así pla-
  dad apropiada para su venta, y en qué lugares ofre-      near la distribución de este hidrocarburo.
  cer los productos o servicios.                               Para CFE, saber esto le servirá para preparar la fuen-
• Conocer productos o servicios que se pueden vender       te generadora de energía con tiempo, generalmente
  en forma conjunta. Al revisar el historial de las ven-   con ayuda del agua de ríos o presas, dado que la ener-
  tas se identificarán los productos que coinciden         gía hidroeléctrica es más barata que la generada por
  en su venta conjunta, y con las estadísticas se          otros medios, como la termoeléctrica o la nuclear.
  seleccionarán los conjuntos de productos que                 El Centro de Investigación en Computación (CIC)
  coinciden en alto porcentaje, definido por el usua-      del IPN construyó una herramienta llamada Sistema de
  rio interesado.                                          Minería de Datos, módulo de ANASIN (conjunto de
                                                           herramientas para realizar análisis), que puede tomar
                                                           como fuente los consumos del derivado de gasolina por
    IV. Ejemplos de mineros y sus                          centro de distribución, en qué periodos se realizaron,
    aplicaciones                                           o los consumos de energía eléctrica por zonas, con
    Conviene dar algunos ejemplos que nos ilustren         mediciones mensuales a través de varios años para
    para qué sirven y cómo pueden ayudar los mineros       reconocer algunos patrones o tendencias de consumo
    a la toma de decisiones estratégicas y a mediano       de energía.
plazo. Usaremos trabajos realizados en el Centro de            Con este sistema se puede seleccionar un patrón
Investigación en Computación.                              o tendencia (crecimiento, decrecimiento, constante o
                                                           variada) con los valores de interés (consumos, en este
Localizar tendencias de consumo a través del tiempo        ejemplo) a través de varios lapsos (días, semanas, me-
Tomando como ejemplos a Pemex y la Comisión Fede-          ses, entre otros).
ral de Electricidad (CFE), en estas empresas es impor-         Los programas del módulo ANASIN revisan en for-
tante saber cómo se realiza el consumo de derivados        ma exhaustiva el cubo de datos, como el de la Figu-


                                                                                        julio-septiembre 2011   •   ciencia   25
Computación: rumbos estratégicos




                         ANASIN-Minería de Datos 2.1                   una buena medición del consumo, pero sin indicar a
                        (Reconocimiento de patrones)                   los programas la clasificación de la medición (buena o
        Después de la                                                  mala), estos programas, tomando como referencia la
        realización del proceso
        de minería, se pueden                                          fase 1, deben indicar qué medidores realizaban una
        visualizar los
        resultados.                                                    buena o una mala medición. Según el número de
                                                                       aciertos, se podía calificar la eficiencia de estos pro-
                                                                       gramas. El resultado de la eficiencia depende del con-
                                                                       junto dado en la fase 1, así que se puede mejorar ésta
                                                                       si se cambia el conjunto, hasta que el usuario quede
                                                                       satisfecho.
       Análisis y búsqueda                                                 3. Ya con otro conjunto de medidores, sin saber si
       de patrones
                                                          Resultados   éstos realizan una mala o buena medición del consumo,
       Figura 3. Presentación de patrones solicitados y localizados.   y también tomando como referencia la fase 1, los pro-
                                                                       gramas producen una estadística de cuántos medidores
                                                                       realizan una buena o una mala medición, además del
      ra 1, y terminan su trabajo regresando ya sea un reporte         conocimiento para identificar los medidores (como se
      o una serie de gráficas con los espacios de tiempo               ilustra en la Figura 4). Esta identificación puede to-
      donde se cumple el tipo de tendencia buscado. Por                marse como referencia para que los empleados de la
      ejemplo, las gasolineras con los periodos donde hay un           empresa corroboren la situación de posible fraude en el
      crecimiento cuatrimestral continuo en su consumo del             consumo de energía, visitando la instalación del medi-
      derivado (Figura 3). El conocimiento de las caracterís-          dor. Tener una herramienta con un menor error que la
      ticas de las áreas con el tipo consumo localizado las            creencia humana al visitar un medidor que pudiera es-
      deduce el usuario (las del sur de la República, o las del        tar realizando malas mediciones se refleja en una me-
      norte, por ejemplo).                                             nor inversión de tiempo, dinero y personas asociadas a
                                                                       esta tarea.
      Localizar medidores de consumo de energía                            Como imaginará el lector, la utilidad de esta acti-
      clasificados como malos medidores                                vidad es disminuir el esfuerzo y tiempo para detectar
      Para la tarea de identificar o clasificar malos medido-          y clasificar estas situaciones, además de usar un menor
      res de energía se construyó un conjunto de programas
      con el nombre de “clasificadores”, también del módu-
      lo de ANASIN, que pueden tomar como fuente las
      mediciones de los consumos mensuales de energía para
      realizar las siguientes tres fases:
          1. Con un conjunto de medidores de energía eléc-
      trica y sus características (tipo, edad, número de hilos,
      tipo de negocio, cantidad de consumo, tipo de medi-
      ción, entre otras), donde se indica quiénes realizan
      tanto una mala medición (ya sea en forma intenciona-
      da o no) como quienes realizan una buena medición,
      los programas aprenden a reconocer estas situaciones,
      regresando varios resultados; entre ellos, una estadísti-
      ca similar a la de la Figura 4. La mala medición posi-
      blemente es un fraude en el consumo.
          2. Después, con otro conjunto de medidores y sus              Figura 4. Resultados de clasificar un conjunto de objetos sin
      características, donde algunos realizan una mala y otros          clases.



      26 ciencia    •   julio-septiembre 2011
Minería de datos: cómo hallar una aguja en un pajar




número de recursos físicos (personas, transporte y pla-
neación de las visitas). Las decisiones de mantener o
corregir esta situación dependían ya de la dueña de
los datos.

Herramienta para localizar comportamientos complejos
predefinidos
Otra herramienta construida es Antecumem (Análisis
Temporal en Cubos de datos en Memoria), la cual per-
mite localizar algunos análisis predefinidos en dife-
rentes ambientes de datos. Los análisis predefinidos
abarcan algunas de las consultas más frecuentes de
operaciones en cubos de datos sin usar jerarquías;
preguntas como “localizar los productos que más ba-
jaron sus ventas en dos temporadas” (pregunta 4)
o “localizar los productos de temporada en verano”                7. Pregunta de búsqueda de tendencias en elementos de
(pregunta 5).                                                 una dimensión: localiza los elementos que tienen un
    Aquí, el cubo de datos puede tener n dimensiones          comportamiento en un número de periodos o momen-
di, el valor numérico de interés con el agregado de           tos continuos de tiempo.
sumar (ejemplo: ventas). Q es la consulta que define              A una pregunta de temporalidad como “se desea
un subcubo, vi es el valor en la i-ésima dimensión, Ri        saber cuáles productos en el intervalo de [500-3000]
es un intervalo en la i-ésima dimensión, y S(C) es una        fueron los mejores en el año de 1998 y se conservaron
suma de valores en el subcubo C.                              entre los 10 primeros en las ventas en el año de 1999
    1. Pregunta puntual: localizar el valor del hecho en      en todos los clientes y en todas las promociones”,
valores por cada una de las di: Q(v1, v2, …, vn).             Antecumem responde indicando el tiempo que tardó,
    2. Pregunta sólo con rangos: se tiene un subcubo de       cuántos y qué productos se mantuvieron, y qué resul-
datos definido por rangos para cada una de las di, del        tados numéricos contribuyeron a la respuesta.
cual se obtendrá una suma. S(C)=Q(R1, R2, …, Rn).                 Otra pregunta de tendencia como “se desea saber
    3. Pregunta de eficiencia entre dos cubos: calcula un     cuáles productos en el intervalo de [500-3000] fueron
porcentaje de incremento o decremento en dos subcu-           de los diez mejores durante tres meses consecutivos a
bos de datos, E=100*[ (S(C2) /S(C1)) – 1].                    partir de febrero en 1998, es decir, se conservaron
    4. Pregunta de eficiencia grupal: eficiencia de un con-   entre los diez primeros en las ventas para todos los
junto de elementos de una dimensión entre dos subcu-          clientes y en todas las promociones”. Antecumem res-
bos de cada elemento, Ei=100*[ (S(Ci,2) /S(Ci,1)) – 1],       ponde nuevamente indicando el tiempo que tardó, y
donde i son cada uno de los elementos de la dimensión         cuántos y qué productos se mantuvieron con la tenden-
de interés.                                                   cia especificada. Por separado, se tendría que revisar
    5. Pregunta sobre conservación/pérdida: permite loca-     los valores en esos lapsos para corroborar el resultado.
lizar elementos en una dimensión entre dos subcubos               Al igual que las herramientas anteriores, la minería
que conservan o pierden una posición entre los mejo-          de datos realiza una revisión exhaustiva en los datos
res o peores; puede variarse el tiempo (para comparar         para hallar el conocimiento deseado, pero queda la
periodos) u otra dimensión.                                   tarea de que ésta sea validada por el usuario.
    6. Pregunta de temporalidad: igual que la pregunta            El futuro de estas herramientas está en tratar de
anterior, pero se trata de más de dos subcubos; si va-        facilitar los dos tipos de análisis de datos, pero agre-
rían las unidades del tiempo, serán periodos de tiempo        gando las técnicas del área de estudio conocida como
(días, semanas, meses, años…).                                “visualización de la información”. Para mayor infor-


                                                                                           julio-septiembre 2011   •   ciencia   27
Computación: rumbos estratégicos




      mación consultar www.kdnuggets.com y http://conferen-
      ces.computer.org/infovis/. El lector puede consultar una               Bibliografía
                                                                             Chaomei, Chen (2006), Visualization information, beyond
      amplia variedad de ejemplos de herramientas de mine-
                                                                                 the horizon, Londres, Springer.
      ría de datos y de OLAP tanto comerciales como de                       Chen, Z. (2001), Intelligent data warehousing, Boca Raton,
      acceso libre en la página www.kdnuggets.com                                CRC Press.
                                                                             David J. Hand, Heikki Mannila y Padhraic Smyth (2001),
                                                                                 Principles of data mining, Cambridge, Massachusetts,
                                                                                 MIT Press.
      Gilberto Lorenzo Martínez Luna estudió en la Escuela
                                                                             Fayyad, U. M. y G. Piatetsky-Shapiro (1996), Advances in
      Superior de Física y Matemáticas ( ESFM ) del Instituto Politécnico        knowledge discovery and data mining, Menlo Park, Ca-
      Nacional ( IPN ). Obtuvo la maestría en el Centro de Investigación y       lifornia, AAAI Press.
      Estudios Avanzados (Cinvestav) y el doctorado en computación           Jiawei, Han y Micheline Kamber (2006), Data mining: con-
                                                                                 cepts and techniques, 2ª ed., edición de Jim Gray, San
      en el Centro de Investigación en Computación ( CIC ), ambos del
                                                                                 Francisco, California, Morgan Kaufmann Publishers
      IPN .   Profesionalmente ha desarrollado sistemas de información           (The Morgan Kaufmann series in Data Management
      desde 1982, tanto en el sector público como en el privado. Desde           Systems).
      1987 ha impartido cursos en licenciatura, maestría y doctorado en      Pang-Ning, Tan, Michael Steinbach y Vipin Kumar
      diversas escuelas y universidades. Ha participado en la organiza-          (2006), Introduction to data mining, Addison-Wesley.
                                                                             Witten, Ian H., Frank Kaufmann y Morgan Kaufmann
      ción de eventos de minería de datos en el IPN , desde 1998 hasta
                                                                                 (2005), Data mining: practical machine learning tools and
      2005. Actualmente es jefe de laboratorio, imparte cursos, dirige           techniques, 2ª ed., edición de Jim Gray, San Francisco,
      tesis de posgrado, y hace investigación sobre bases de datos y             California, Morgan Kaufmann Publishers (The Morgan
      minería de datos.                                                          Kaufmann series in Data Management Systems).
      llunameztli@gmail.com




      28 ciencia      •   julio-septiembre 2011

Más contenido relacionado

Similar a Minería de datos

Datos en la era de la información
Datos en la era de la informaciónDatos en la era de la información
Datos en la era de la informaciónCarolina Guerrero
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining PabloMolina111
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Daniela Bedascarrasbure
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptVAOC1984
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
Informatica aplicada 1er corte
Informatica aplicada 1er corteInformatica aplicada 1er corte
Informatica aplicada 1er corteCarolains aguero
 
Tema 1 adai
Tema 1 adaiTema 1 adai
Tema 1 adaifemonde
 
Comprension lectora sistema informacion-contable
Comprension lectora sistema informacion-contableComprension lectora sistema informacion-contable
Comprension lectora sistema informacion-contableCONTABILIDAD FINANCIERA
 
Rompiendo el mito data mining
Rompiendo el mito   data miningRompiendo el mito   data mining
Rompiendo el mito data miningBILATAM
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataAlfredo Vela Zancada
 
Fundamentos de bases de datos
Fundamentos de bases de datosFundamentos de bases de datos
Fundamentos de bases de datosErick Fantasstiic
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 

Similar a Minería de datos (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Datos en la era de la información
Datos en la era de la informaciónDatos en la era de la información
Datos en la era de la información
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.ppt
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Informatica aplicada 1er corte
Informatica aplicada 1er corteInformatica aplicada 1er corte
Informatica aplicada 1er corte
 
Tema 1 adai
Tema 1 adaiTema 1 adai
Tema 1 adai
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Bases de Datos: Conceptos y Generalidades
Bases de Datos: Conceptos y GeneralidadesBases de Datos: Conceptos y Generalidades
Bases de Datos: Conceptos y Generalidades
 
Comprension lectora sistema informacion-contable
Comprension lectora sistema informacion-contableComprension lectora sistema informacion-contable
Comprension lectora sistema informacion-contable
 
Rompiendo el mito data mining
Rompiendo el mito   data miningRompiendo el mito   data mining
Rompiendo el mito data mining
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big Data
 
Fundamentos de bases de datos
Fundamentos de bases de datosFundamentos de bases de datos
Fundamentos de bases de datos
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Copy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.pptCopy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.ppt
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt
 

Más de Pedro Guadiana

Ponencia: Reivindicación del abstencionismo electoral
Ponencia: Reivindicación del abstencionismo electoralPonencia: Reivindicación del abstencionismo electoral
Ponencia: Reivindicación del abstencionismo electoralPedro Guadiana
 
La doble moral de algunas empresas del Teletón de México. 2015
La doble moral de algunas empresas del Teletón de México. 2015La doble moral de algunas empresas del Teletón de México. 2015
La doble moral de algunas empresas del Teletón de México. 2015Pedro Guadiana
 
Foda ponderado instrucciones para uso en Excel
Foda ponderado instrucciones para uso en ExcelFoda ponderado instrucciones para uso en Excel
Foda ponderado instrucciones para uso en ExcelPedro Guadiana
 
Métodos cuantitativos, cualitativos, objetivos, subjetivos e híbridos
Métodos cuantitativos, cualitativos, objetivos, subjetivos e híbridosMétodos cuantitativos, cualitativos, objetivos, subjetivos e híbridos
Métodos cuantitativos, cualitativos, objetivos, subjetivos e híbridosPedro Guadiana
 
Estilos de aprendizaje explicación
Estilos de aprendizaje explicaciónEstilos de aprendizaje explicación
Estilos de aprendizaje explicaciónPedro Guadiana
 
Encuesta Nacional de Lectura México 2012
Encuesta Nacional de Lectura México 2012Encuesta Nacional de Lectura México 2012
Encuesta Nacional de Lectura México 2012Pedro Guadiana
 
Los intrigantes del vaticano
Los intrigantes del vaticanoLos intrigantes del vaticano
Los intrigantes del vaticanoPedro Guadiana
 
La doble moral de algunas empresas que participan en el teletón de méxico. 2012
La doble moral de algunas empresas que participan en el teletón de méxico. 2012La doble moral de algunas empresas que participan en el teletón de méxico. 2012
La doble moral de algunas empresas que participan en el teletón de méxico. 2012Pedro Guadiana
 
Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...
Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...
Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...Pedro Guadiana
 

Más de Pedro Guadiana (20)

Ponencia: Reivindicación del abstencionismo electoral
Ponencia: Reivindicación del abstencionismo electoralPonencia: Reivindicación del abstencionismo electoral
Ponencia: Reivindicación del abstencionismo electoral
 
La doble moral de algunas empresas del Teletón de México. 2015
La doble moral de algunas empresas del Teletón de México. 2015La doble moral de algunas empresas del Teletón de México. 2015
La doble moral de algunas empresas del Teletón de México. 2015
 
Foda ponderado instrucciones para uso en Excel
Foda ponderado instrucciones para uso en ExcelFoda ponderado instrucciones para uso en Excel
Foda ponderado instrucciones para uso en Excel
 
Métodos cuantitativos, cualitativos, objetivos, subjetivos e híbridos
Métodos cuantitativos, cualitativos, objetivos, subjetivos e híbridosMétodos cuantitativos, cualitativos, objetivos, subjetivos e híbridos
Métodos cuantitativos, cualitativos, objetivos, subjetivos e híbridos
 
Guadiana pedro t_a
Guadiana pedro t_aGuadiana pedro t_a
Guadiana pedro t_a
 
Intro trabajo equipo
Intro trabajo equipoIntro trabajo equipo
Intro trabajo equipo
 
Estilos de aprendizaje explicación
Estilos de aprendizaje explicaciónEstilos de aprendizaje explicación
Estilos de aprendizaje explicación
 
Depression
DepressionDepression
Depression
 
Encuesta Nacional de Lectura México 2012
Encuesta Nacional de Lectura México 2012Encuesta Nacional de Lectura México 2012
Encuesta Nacional de Lectura México 2012
 
Los intrigantes del vaticano
Los intrigantes del vaticanoLos intrigantes del vaticano
Los intrigantes del vaticano
 
La doble moral de algunas empresas que participan en el teletón de méxico. 2012
La doble moral de algunas empresas que participan en el teletón de méxico. 2012La doble moral de algunas empresas que participan en el teletón de méxico. 2012
La doble moral de algunas empresas que participan en el teletón de méxico. 2012
 
SIC-2012-06-27-1
SIC-2012-06-27-1SIC-2012-06-27-1
SIC-2012-06-27-1
 
Peña nieto se rajó
Peña nieto se rajóPeña nieto se rajó
Peña nieto se rajó
 
Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...
Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...
Josefina = bajeza; peña = mediocridad; amlo = incongruencia. todos=verdades a...
 
SIC-2012-06-07-1
SIC-2012-06-07-1SIC-2012-06-07-1
SIC-2012-06-07-1
 
SIC-2012-06-03-1
SIC-2012-06-03-1SIC-2012-06-03-1
SIC-2012-06-03-1
 
SIC-2012-05-27-1
SIC-2012-05-27-1SIC-2012-05-27-1
SIC-2012-05-27-1
 
SIC-2012-05-24-1
SIC-2012-05-24-1SIC-2012-05-24-1
SIC-2012-05-24-1
 
SIC-2012-05-20-1
SIC-2012-05-20-1SIC-2012-05-20-1
SIC-2012-05-20-1
 
SIC-2012-05-16-1
SIC-2012-05-16-1SIC-2012-05-16-1
SIC-2012-05-16-1
 

Último

dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 

Último (20)

dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 

Minería de datos

  • 1. MINERÍA DE DATOS: cómo hallar una aguja en un pajar Gilberto Lorenzo Martínez Luna Recientemente la computación ha creado la minería de datos. Este sis- tema tiene como finalidad prevenir a los directivos de empresas sobre situaciones interesantes, anomalías, e incluso peligros no detectados con anticipación. Los llamados “mineros” son auxiliares indispensables para el ejecutivo de cualquier empresa bien organizada. L as instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes, calificacio- nes, fenómenos meteorológicos, etcétera, según su giro), aprovechando que las computadoras y los discos de almacenamiento se han abaratado, y las comunicaciones son también baratas y confiables. Esta información reside en bases de datos operacionales, llamadas así porque con ellas se lleva a cabo la labor sustantiva de la empresa: envío de mercancía a clientes, registro de estudiantes, tra- tamiento a pacientes, cobranza, entre otros. Posteriormente la información se depura y sumariza (resume) para transferirla a bases de datos conocidas como bodegas de datos. Son “fotografías” periódicas (tri- mestrales, digamos) del estado de la empresa. Aquí se lleva a cabo la labor estraté- gica de la misma: averiguar qué pasa en ella. ¿Qué productos se venden significa- tivamente menos? ¿Ha habido un auge inesperado de deserciones de las carreras en las ciencias sociales? ¿El aumento de la inversión en perforación de nuevos pozos no guarda proporción con la disminución de las reservas probables y proba- das de hidrocarburos? Ésta es la zona de las decisiones estratégicas, y los sistemas usados para ellas se conocen como Sistemas de Apoyo a la Toma de Decisiones. Estos sistemas muestran al funcionario los indicadores principales del estado de la empresa (en el último bimestre, digamos). El funcionario indaga o averigua situa- ciones que él cree son de interés o preocupación. El sistema contesta con datos y 18 ciencia • julio-septiembre 2011
  • 2.
  • 3. Computación: rumbos estratégicos gráficas para que aquél pueda tomar decisiones. Aun- tivo de una empresa bien organizada. Para que los que el directivo o gerente tiene la experiencia necesa- mineros trabajen bien, la empresa debe: a) tener regis- ria, a menudo (por falta de tiempo, o porque no se le tros operacionales que apoyen sus trabajos cotidianos, ocurrió) no mira situaciones que están tomando rum- sus funciones sustantivas; b) “fotografiar” periódicamen- bos interesantes, peligrosos quizá. Así, ciertas decisio- te estos registros, resumiéndolos (sumarizándolos), en nes importantes pueden ser soslayadas, ignoradas, o “instantáneas trimestrales” que forman parte de la bo- tomarse ya muy tarde. Se pueden así desperdiciar opor- dega de datos; y c) crear y depurar sus mineros de datos, tunidades o admitirse riesgos indeseables. haciéndolos trabajar exhaustivamente sobre la bodega Recientemente, la computación ha inventado la de datos. En los primeros tres apartados de este artículo minería de datos, en auxilio del directivo que toma de- abordaremos estos aspectos. Finalmente, en el cuarto y cisiones. En las bodegas de datos se colocan “mineros”, final, daremos ejemplos de mineros creados y usados algoritmos que buscan tendencias, anomalías, desvia- en México. ciones o situaciones interesantes pero desconocidas, y otros eventos importantes. Estos mineros auxilian al directivo al mando del timón de la institución a man- I. La operación cotidiana de la tener el mejor rumbo posible. Utilizan, además de las empresa bases de datos, la inteligencia artificial (procedimientos ¿De dónde proviene el mar de datos? para hallar grupos en situaciones similares, clasificar Todas las organizaciones y empresas coleccionan y eventos nuevos en categorías conocidas, etcétera) y la administran datos de su interés relacionados con estadística. Pero a diferencia de esta última, que toma personas, procesos u otro tipo de actividades para una muestra de los datos y la estudia, la minería de las cuales fueron creadas. Los más comunes son los datos estudia todos los datos. Mientras más datos se relacionados con ventas de productos o servicios, em- analicen, más precisa es, y su poder de detección y pre- pleados, pacientes o con clientes, o tan sofisticados dicción aumenta. como los que usa una organización dedicada a pronos- En este artículo hablaremos de los mineros. En un ticar el clima, o en actividades muy especializadas, mundo globalizado, donde es importante saber lo que como la detección de fraudes en el consumo de ener- ocurre en el entorno de la institución, en su contexto, gía eléctrica. los mineros son auxiliares indispensables para el ejecu- Las colecciones se pueden almacenar en discos de gran capacidad, que es ya posible comprar y tener en el hogar, y que pueden ser del tamaño de la palma de la mano o menos. Para darnos una idea de su capacidad, pueden almacenar el número del Registro Federal de Causantes (RFC) y la edad de cada uno de los habitan- tes de la República Mexicana, para lo cual basta un disco con capacidad de almacenamiento de un tera- byte (mil gigabytes, equivalentes a un millón de me- gabytes, o 1012 bytes, es decir, 1012 caracteres). El uso del mar de datos que surte al océano de datos En general estas colecciones tienen dos principales tipos de usos o aplicaciones: a) El primer uso es en aplicaciones conocidas como procesamiento de transacciones en línea (OLTP, por sus siglas en inglés). En este tipo de aplicaciones, las tran- 20 ciencia • julio-septiembre 2011
  • 4. Minería de datos: cómo hallar una aguja en un pajar sacciones son para adicionar más información, reali- analítico en línea (OLAP, por sus siglas en inglés, OnLine zando operaciones sobre uno o algunos datos de su Analytical Processing), o la minería de datos. Ambos interés, datos que también pueden ser borrados o análisis se caracterizan por utilizar un gran número de modificados. Estas transacciones se llevan a cabo regu- datos de interés (caso contrario de las OLTP) que se larmente todos los días (ver artículo “La información generaron a través de varios días, meses o años, de es poder… sobre todo si está en una base de datos”, de acuerdo con el interés de la organización. Hugo César Coyote, en este mismo número de Cien- En la Tabla 2 se dan valores aproximados del nú- cia). Ejemplos de adición de nuevos datos es el registro mero de datos que se almacenan por varios años en de nuevas ventas o nuevos clientes; ejemplos de modi- una bodega de datos. ficaciones a ellos es la disminución del saldo de las deudas por pago de los deudores, o cuando se incre- ¿Cómo trabaja el análisis O L A P ? menta la deuda por compras con tarjeta de crédito; y En las bodegas, los datos se organizan en lo que se ejemplos de borrado es cuando ya no es necesario conoce como cubo de datos, cuyos componentes prin- almacenar datos de clientes que ya no compran, de cipales son las variables de análisis conocidas como deudas ya pagadas, de calificaciones de alumnos que ya dimensiones, y la variable numérica a revisar llamada terminaron sus estudios en una escuela, de inventarios hecho o medida. de años anteriores, o de ventas diarias de años ante- Un ejemplo de un cubo de datos con cuatro dimen- riores, entre otras situaciones. siones y una medida a analizar puede verse en la Ta- Como muestra, en la Tabla 1 se indican números bla 3, y la Figura 1 muestra una representación gráfica. aproximados de transacciones que administran algu- Las operaciones que aquí se realizan son principal- nas empresas a nivel nacional en México. mente conteos de datos, sumas de sus ventas o su pro- ducción y otras operaciones como saber el máximo o mínimo o promedio en un periodo de tiempo. Cuando II. Las bodegas de datos se usan para se hace lo anterior, se dice que se desarrolla el análisis tomar decisiones estratégicas OLAP, y el resultado sirve como base para tomar deci- Al paso del tiempo, los datos de las aplicaciones siones, pues se revisa el comportamiento de interés. OLTP se transfieren, con una serie de procesos Los análisis se visualizan en gráficas, en las que se conocidos como extracción, transformación y limpie- pueden inferir situaciones de interés. Por ejemplo, en za a colecciones llamadas bodegas de datos, donde su un conteo de pérdidas en varios meses, una gráfica po- segundo uso es el análisis; ya sea con el procesamiento dría mostrar que es una tendencia a crecer; otra gráfica Tabla 1. Ejemplo de transacciones que almacenan algunas bases de datos Transacciones Dato de mensuales (año 2010), Transacciones anuales Otras Empresa interés Año en millones (millones) transacciones Comisión Federal de Clientes Electricidad ( CFE ) 34.2 millones 2010 Consumo-pago, 68.4 820.8 Teléfonos de México Líneas Llamadas en un (Telmex) 15.6 millones 2010 Servicio-pago, 31.2 374.4 trimestre 4 900 millones Comercial Mexicana Productos 70 000 2008 Compras, 22 264 Instituto Mexicano del Pacientes Consultas, 10.2 Seguro Social ( IMSS ) 44 693 474 2010 (hasta noviembre) 120 Instituto Politécnico Estudiantes Calificaciones de cuatro (Seis evaluaciones) Nacional ( IPN ) 160 000 2010 materias 0.64 3.84 julio-septiembre 2011 • ciencia 21
  • 5. Computación: rumbos estratégicos Tabla 2. Ejemplo de historial de datos que muestre sumatorias (sumas) de producción de deri- almacenados en una bodega de datos vados de petróleo en dos años podría indicar si la pro- Empresa Transacciones anuales 10 años ducción se mantiene en los dos años; otra gráfica con CFE 820.8 millones consumos y pagos 8 208 millones las sumatorias de nacimientos contra muertes por año Telmex 374.4 millones de servicios y pagos 3 744 millones en un periodo de 55 años podría indicar cuándo habrá Comercial una coincidencia de ambas (muertes y nacimientos). Mexicana 264 millones de compras 2 640 millones IMSS 120 millones de consultas 1 200 millones El análisis OLAP, con el historial de las actividades IPN 3.84 millones de calificaciones 38.4 millones que han realizado los generadores de los datos, se rea- liza de manera manual, y dirigida por quien está al frente de la computadora revisando los cubos. Tabla 3. Ejemplo de cubo de datos para III. La minería de datos al auxilio analizar consumos de energía al alto ejecutivo Dimensión/ La minería de datos se especializa en realizar estas valor Descripción Valores por dimensión 1. Medidor 34*10 6 tareas con ayuda de una computadora, apoyándose 2. Tarifa Tipos de tarifas en la Aproximadamente más en un modelo de trabajo o proceso que se ha cons- República Mexicana de 100 truido con la secuencia que se indica en la Figura 2. En 3. División División geográfica 13 esta sección nos concentraremos en la etapa de mine- propia de CFE ría de datos. 4. Mes 12 por año 12 Medición: Consumo Más de ¿Cómo trabaja la minería de datos? Consumo 34 ¥ 106 ¥ 100 ¥ 13 ¥ 12 Para detectar situaciones interesantes y anomalías consumos en un año (desviaciones de lo previsto), el software que lleva a cabo minería de datos se vale de varias técnicas y pro- cedimientos (“algoritmos”). Algunos son: • Umbrales: si tenemos un registro periódico (diario, semanal, etc.) de alguna variable de interés (las ven- tas de cierto producto, digamos) podemos fijarles un máximo “tolerado”, arriba del cual nos interesa detectar excesos, y un mínimo “permitido”, aba- Interpretación/ evaluación Minería de datos Conocimiento Transformación Patrones Preprocesamiento resultantes Selección Datos transformados Datos preprocesados Base de Datos datos objetivo Figura 1. Representación gráfica del cubo con sólo tres Figura 2. Fases del proceso de Descubrimiento en Bases de dimensiones para analizar consumos de energía. Datos. Tomada de Usama Fayyad y Evangelos Simoudis. 22 ciencia • julio-septiembre 2011
  • 6. Minería de datos: cómo hallar una aguja en un pajar jo del cual deseamos que el minero nos informe. El algoritmo observa las ventas conforme pasan los días, y cuando detecta un valor más allá de los lími- tes o umbrales fijados, nos avisa. Para no distraernos con “picos” pasajeros, podemos programar al minero para que nos avise si hay más de tres picos consecu- tivos (en tres semanas seguidas, por ejemplo). • Tendencias: este algoritmo observa si de una semana a la siguiente la variable observada (las ventas, en nuestro ejemplo) tiene un crecimiento o dismi- nución considerable (del 15 por ciento o más, di- gamos). Nos avisa de oportunidades que hay que aprovechar, o de problemas que debemos resolver. También se le puede pedir que sólo nos avise de los aumentos que ocurren en tres periodos de tiempo consecutivos, o si estos aumentos ocurren en esta- blecimientos geográficamente cercanos (lo que sig- nifica que la tendencia se observa en toda una zona). • Franja de normalidad: como a menudo la variable que estamos observando tiene un comportamiento estacional (por ejemplo, en época de frío se vende menos helado que en la de calor), en vez de esta- blecer cotas superiores e inferiores, podemos decir- le al minero que nos informe cuando la variable de interés se salga de una “franja de normalidad” esta- blecida, tomando en cuenta, digamos, cómo se establece que (leche, pan) es un patrón frecuente. comportó esa variable (ese fenómeno que estamos Para que un patrón sea frecuente, sus componentes observando) durante el año pasado. deben serlo (si pan es un producto poco comprado, • Comportamiento errático: quizá nos interese que el entonces no puede ser miembro de ningún par de minero nos informe de épocas (o de zonas del terri- productos frecuentes). Los patrones frecuentes torio, o de productos) en que el comportamiento deben tener un soporte (el porcentaje de compro- no siga una tendencia definida, es decir, registre bantes de compra del supermercado donde se com- tumbos, suba o baje. En este caso, el minero com- pró leche y pan) mínimo, digamos 6 por ciento de parará varios valores semanales consecutivos. los comprobantes. Podría ser que el patrón frecuen- • Máximos: ¿qué productos se venden más?, ¿en qué te (leche, pan) fuera parte de otro patrón frecuente temporadas se venden más productos de ferrete- más extenso, digamos (leche, pan, arroz). Para de- ría?, ¿en qué zonas se venden más desodorantes pa- terminar los patrones frecuentes, el minero co- ra hombre? Un minero que sistemáticamente barra mienza examinando todos los comprobantes para las ventas y detecte máximos podrá contestar pre- saber cuáles son los ítems (productos individuales) guntas de este tipo. Igualmente sucede con los va- frecuentes. Como a menudo los datos a examinar lores mínimos: algo que se venda poco, una carrera son voluminosos, no caben en la memoria principal en un instituto que tenga pocos egresados, una en- de la computadora, y es necesario que el minero fermedad que ya casi no ocurre, etcétera. maneje cuidadosamente los accesos (lecturas) al dis- • Patrones frecuentes: “cada vez que alguien compra co, para no desperdiciar tiempo. Una vez detectados leche, compra pan”; es una regla que, de ser cierta, los patrones frecuentes, es relativamente fácil detec- julio-septiembre 2011 • ciencia 23
  • 7. Computación: rumbos estratégicos tar los pares de patrones frecuentes, y de ellos ver entre sí, pero distintas a los pertenecientes a otros cuáles son los tríos de patrones frecuentes, etcétera. cúmulos. • Reglas de asociación: una vez determinado un patrón frecuente, por ejemplo (leche, pan, arroz), sería Hay otros métodos, omitidos aquí por brevedad. interesante para el minero descubrir cuál producto Así, usando la estadística, las bases de datos y la inteli- causa que los otros sean comprados. Por ejemplo, gencia artificial, los mineros van descubriendo auto- ¿quien compra leche, compra también pan y arroz? máticamente situaciones interesantes en un mar de En este caso, leche  pan, arroz. Pero pudiera ser datos. A diferencia de la estadística, que examina una que quien compra arroz y leche compra también muestra (una pequeña porción) de los datos para infe- pan. En este caso, arroz, leche  pan. Éstas se lla- rir características de todos los datos, el minero exami- man reglas de asociación, útiles para determinar na todos los datos. Éstos a menudo son muchos, por lo causa y efecto. Para que una regla de asociación sea que, como hemos dicho, debe efectuar sus lecturas de establecida como tal, se requiere que la regla reba- disco y sus procedimientos en memoria con cierto se cierta confianza mínima. Por ejemplo, la confian- orden, a fin de no desperdiciar tiempo. za de la regla leche  pan, arroz es el porcentaje El análisis mediante minería de datos se lleva a de los clientes que, habiendo comprado leche, efec- cabo con dos actividades para obtener conocimiento no tivamente también compraron pan y arroz. Co- conocido: a) describir en detalle a los generadores de mo hay muchas reglas posibles a ensayar, el minero datos, y b) predecir su comportamiento en su entorno; tiene que efectuar esos ensayos en un orden cuida- todo esto utilizando la historia almacenada en la bode- dosamente establecido, a fin de no desperdiciar ga de datos. tiempo de máquina. La descripción en detalle se hace a partir de una • Cúmulos (clusters): dados todos los clientes de una revisión exhaustiva de toda la información disponi- cadena de establecimientos (o todos los pacientes ble, revisión que también permite conocer a los ge- de un conjunto de hospitales), usando técnicas de neradores de datos en cada momento. Y conocer el agrupación se pueden agrupar o clasificar a los clien- comportamiento de los generadores puede ayudar a las tes en, digamos, seis categorías o cúmulos, que nos personas que toman decisiones a identificar futuras representan a clientes con propiedades parecidas situaciones deseadas o no deseadas, aun con datos fal- tantes, y poder indicar el valor de éstos con cierta certidumbre. El conocimiento obtenido puede ayudar a los eje- cutivos en objetivos como los siguientes: • Mejorar los servicios o productos que se ofrecen. Esto es posible si se registra en la bodega el detalle de la respuesta a la compra por parte de los clientes al haber cambios en los productos o servicios, en cuanto a si se incrementa o se disminuye la venta. De estos resultados se puede aprender. • Evitar situaciones no deseadas, como la de perder clientes en servicios contratados. Estas situaciones se pueden prevenir, ya que se tiene el historial de la facturación de un servicio contratado, como el teléfono, al igual que los clientes que tienen el an- tecedente de que se han quejado por el servicio, los periodos de tiempo en que su número de llamadas 24 ciencia • julio-septiembre 2011
  • 8. Minería de datos: cómo hallar una aguja en un pajar decrece, y los que han cancelado su contrato en condiciones similares. También se debe tener datos de clientes que se han logrado retener y con qué estrategias se logró, al igual que el costo de cada estrategia. Se busca retener clientes, dado que es más barato mantenerlos que ganar nuevos clientes. • No manufacturar productos que en un futuro ya no se venderán. Se pueden predecir cambios en los gustos de los consumidores, dado que con el historial de ventas se detectan las características de los produc- tos que se dejan de vender. • Detectar productos de temporada. Una tienda comer- cial vende sus productos y registra la fecha de venta. Al revisar sus ventas por largos periodos, puede saber con precisión el intervalo de fechas en que algunos de estos productos tienen un alto vo- lumen de ventas, y con esta información tomar una serie de decisiones alrededor de este comporta- miento: cuáles productos comprar y ofrecer, cuán- del petróleo o de energía eléctrica a través del tiempo do pedir los productos para tenerlos disponibles, en el país. qué cantidad solicitar y almacenar para esas ventas Para Pemex, en qué lugares se tiene un consumo con el fin de no tener sobrantes, realizar la publici- similar de cierto derivado a través del tiempo, y así pla- dad apropiada para su venta, y en qué lugares ofre- near la distribución de este hidrocarburo. cer los productos o servicios. Para CFE, saber esto le servirá para preparar la fuen- • Conocer productos o servicios que se pueden vender te generadora de energía con tiempo, generalmente en forma conjunta. Al revisar el historial de las ven- con ayuda del agua de ríos o presas, dado que la ener- tas se identificarán los productos que coinciden gía hidroeléctrica es más barata que la generada por en su venta conjunta, y con las estadísticas se otros medios, como la termoeléctrica o la nuclear. seleccionarán los conjuntos de productos que El Centro de Investigación en Computación (CIC) coinciden en alto porcentaje, definido por el usua- del IPN construyó una herramienta llamada Sistema de rio interesado. Minería de Datos, módulo de ANASIN (conjunto de herramientas para realizar análisis), que puede tomar como fuente los consumos del derivado de gasolina por IV. Ejemplos de mineros y sus centro de distribución, en qué periodos se realizaron, aplicaciones o los consumos de energía eléctrica por zonas, con Conviene dar algunos ejemplos que nos ilustren mediciones mensuales a través de varios años para para qué sirven y cómo pueden ayudar los mineros reconocer algunos patrones o tendencias de consumo a la toma de decisiones estratégicas y a mediano de energía. plazo. Usaremos trabajos realizados en el Centro de Con este sistema se puede seleccionar un patrón Investigación en Computación. o tendencia (crecimiento, decrecimiento, constante o variada) con los valores de interés (consumos, en este Localizar tendencias de consumo a través del tiempo ejemplo) a través de varios lapsos (días, semanas, me- Tomando como ejemplos a Pemex y la Comisión Fede- ses, entre otros). ral de Electricidad (CFE), en estas empresas es impor- Los programas del módulo ANASIN revisan en for- tante saber cómo se realiza el consumo de derivados ma exhaustiva el cubo de datos, como el de la Figu- julio-septiembre 2011 • ciencia 25
  • 9. Computación: rumbos estratégicos ANASIN-Minería de Datos 2.1 una buena medición del consumo, pero sin indicar a (Reconocimiento de patrones) los programas la clasificación de la medición (buena o Después de la mala), estos programas, tomando como referencia la realización del proceso de minería, se pueden fase 1, deben indicar qué medidores realizaban una visualizar los resultados. buena o una mala medición. Según el número de aciertos, se podía calificar la eficiencia de estos pro- gramas. El resultado de la eficiencia depende del con- junto dado en la fase 1, así que se puede mejorar ésta si se cambia el conjunto, hasta que el usuario quede satisfecho. Análisis y búsqueda 3. Ya con otro conjunto de medidores, sin saber si de patrones Resultados éstos realizan una mala o buena medición del consumo, Figura 3. Presentación de patrones solicitados y localizados. y también tomando como referencia la fase 1, los pro- gramas producen una estadística de cuántos medidores realizan una buena o una mala medición, además del ra 1, y terminan su trabajo regresando ya sea un reporte conocimiento para identificar los medidores (como se o una serie de gráficas con los espacios de tiempo ilustra en la Figura 4). Esta identificación puede to- donde se cumple el tipo de tendencia buscado. Por marse como referencia para que los empleados de la ejemplo, las gasolineras con los periodos donde hay un empresa corroboren la situación de posible fraude en el crecimiento cuatrimestral continuo en su consumo del consumo de energía, visitando la instalación del medi- derivado (Figura 3). El conocimiento de las caracterís- dor. Tener una herramienta con un menor error que la ticas de las áreas con el tipo consumo localizado las creencia humana al visitar un medidor que pudiera es- deduce el usuario (las del sur de la República, o las del tar realizando malas mediciones se refleja en una me- norte, por ejemplo). nor inversión de tiempo, dinero y personas asociadas a esta tarea. Localizar medidores de consumo de energía Como imaginará el lector, la utilidad de esta acti- clasificados como malos medidores vidad es disminuir el esfuerzo y tiempo para detectar Para la tarea de identificar o clasificar malos medido- y clasificar estas situaciones, además de usar un menor res de energía se construyó un conjunto de programas con el nombre de “clasificadores”, también del módu- lo de ANASIN, que pueden tomar como fuente las mediciones de los consumos mensuales de energía para realizar las siguientes tres fases: 1. Con un conjunto de medidores de energía eléc- trica y sus características (tipo, edad, número de hilos, tipo de negocio, cantidad de consumo, tipo de medi- ción, entre otras), donde se indica quiénes realizan tanto una mala medición (ya sea en forma intenciona- da o no) como quienes realizan una buena medición, los programas aprenden a reconocer estas situaciones, regresando varios resultados; entre ellos, una estadísti- ca similar a la de la Figura 4. La mala medición posi- blemente es un fraude en el consumo. 2. Después, con otro conjunto de medidores y sus Figura 4. Resultados de clasificar un conjunto de objetos sin características, donde algunos realizan una mala y otros clases. 26 ciencia • julio-septiembre 2011
  • 10. Minería de datos: cómo hallar una aguja en un pajar número de recursos físicos (personas, transporte y pla- neación de las visitas). Las decisiones de mantener o corregir esta situación dependían ya de la dueña de los datos. Herramienta para localizar comportamientos complejos predefinidos Otra herramienta construida es Antecumem (Análisis Temporal en Cubos de datos en Memoria), la cual per- mite localizar algunos análisis predefinidos en dife- rentes ambientes de datos. Los análisis predefinidos abarcan algunas de las consultas más frecuentes de operaciones en cubos de datos sin usar jerarquías; preguntas como “localizar los productos que más ba- jaron sus ventas en dos temporadas” (pregunta 4) o “localizar los productos de temporada en verano” 7. Pregunta de búsqueda de tendencias en elementos de (pregunta 5). una dimensión: localiza los elementos que tienen un Aquí, el cubo de datos puede tener n dimensiones comportamiento en un número de periodos o momen- di, el valor numérico de interés con el agregado de tos continuos de tiempo. sumar (ejemplo: ventas). Q es la consulta que define A una pregunta de temporalidad como “se desea un subcubo, vi es el valor en la i-ésima dimensión, Ri saber cuáles productos en el intervalo de [500-3000] es un intervalo en la i-ésima dimensión, y S(C) es una fueron los mejores en el año de 1998 y se conservaron suma de valores en el subcubo C. entre los 10 primeros en las ventas en el año de 1999 1. Pregunta puntual: localizar el valor del hecho en en todos los clientes y en todas las promociones”, valores por cada una de las di: Q(v1, v2, …, vn). Antecumem responde indicando el tiempo que tardó, 2. Pregunta sólo con rangos: se tiene un subcubo de cuántos y qué productos se mantuvieron, y qué resul- datos definido por rangos para cada una de las di, del tados numéricos contribuyeron a la respuesta. cual se obtendrá una suma. S(C)=Q(R1, R2, …, Rn). Otra pregunta de tendencia como “se desea saber 3. Pregunta de eficiencia entre dos cubos: calcula un cuáles productos en el intervalo de [500-3000] fueron porcentaje de incremento o decremento en dos subcu- de los diez mejores durante tres meses consecutivos a bos de datos, E=100*[ (S(C2) /S(C1)) – 1]. partir de febrero en 1998, es decir, se conservaron 4. Pregunta de eficiencia grupal: eficiencia de un con- entre los diez primeros en las ventas para todos los junto de elementos de una dimensión entre dos subcu- clientes y en todas las promociones”. Antecumem res- bos de cada elemento, Ei=100*[ (S(Ci,2) /S(Ci,1)) – 1], ponde nuevamente indicando el tiempo que tardó, y donde i son cada uno de los elementos de la dimensión cuántos y qué productos se mantuvieron con la tenden- de interés. cia especificada. Por separado, se tendría que revisar 5. Pregunta sobre conservación/pérdida: permite loca- los valores en esos lapsos para corroborar el resultado. lizar elementos en una dimensión entre dos subcubos Al igual que las herramientas anteriores, la minería que conservan o pierden una posición entre los mejo- de datos realiza una revisión exhaustiva en los datos res o peores; puede variarse el tiempo (para comparar para hallar el conocimiento deseado, pero queda la periodos) u otra dimensión. tarea de que ésta sea validada por el usuario. 6. Pregunta de temporalidad: igual que la pregunta El futuro de estas herramientas está en tratar de anterior, pero se trata de más de dos subcubos; si va- facilitar los dos tipos de análisis de datos, pero agre- rían las unidades del tiempo, serán periodos de tiempo gando las técnicas del área de estudio conocida como (días, semanas, meses, años…). “visualización de la información”. Para mayor infor- julio-septiembre 2011 • ciencia 27
  • 11. Computación: rumbos estratégicos mación consultar www.kdnuggets.com y http://conferen- ces.computer.org/infovis/. El lector puede consultar una Bibliografía Chaomei, Chen (2006), Visualization information, beyond amplia variedad de ejemplos de herramientas de mine- the horizon, Londres, Springer. ría de datos y de OLAP tanto comerciales como de Chen, Z. (2001), Intelligent data warehousing, Boca Raton, acceso libre en la página www.kdnuggets.com CRC Press. David J. Hand, Heikki Mannila y Padhraic Smyth (2001), Principles of data mining, Cambridge, Massachusetts, MIT Press. Gilberto Lorenzo Martínez Luna estudió en la Escuela Fayyad, U. M. y G. Piatetsky-Shapiro (1996), Advances in Superior de Física y Matemáticas ( ESFM ) del Instituto Politécnico knowledge discovery and data mining, Menlo Park, Ca- Nacional ( IPN ). Obtuvo la maestría en el Centro de Investigación y lifornia, AAAI Press. Estudios Avanzados (Cinvestav) y el doctorado en computación Jiawei, Han y Micheline Kamber (2006), Data mining: con- cepts and techniques, 2ª ed., edición de Jim Gray, San en el Centro de Investigación en Computación ( CIC ), ambos del Francisco, California, Morgan Kaufmann Publishers IPN . Profesionalmente ha desarrollado sistemas de información (The Morgan Kaufmann series in Data Management desde 1982, tanto en el sector público como en el privado. Desde Systems). 1987 ha impartido cursos en licenciatura, maestría y doctorado en Pang-Ning, Tan, Michael Steinbach y Vipin Kumar diversas escuelas y universidades. Ha participado en la organiza- (2006), Introduction to data mining, Addison-Wesley. Witten, Ian H., Frank Kaufmann y Morgan Kaufmann ción de eventos de minería de datos en el IPN , desde 1998 hasta (2005), Data mining: practical machine learning tools and 2005. Actualmente es jefe de laboratorio, imparte cursos, dirige techniques, 2ª ed., edición de Jim Gray, San Francisco, tesis de posgrado, y hace investigación sobre bases de datos y California, Morgan Kaufmann Publishers (The Morgan minería de datos. Kaufmann series in Data Management Systems). llunameztli@gmail.com 28 ciencia • julio-septiembre 2011