SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
Revista Cubana de Ciencias Informáticas
ISSN: 1994-1536
rcci@uci.cu
Universidad de las Ciencias Informáticas
Cuba
Rodríguez Suárez, Yuniet; Díaz Amador, Anolandy
Herramientas de Minería de Datos
Revista Cubana de Ciencias Informáticas, vol. 3, núm. 3-4, julio-diciembre, 2009, pp. 73-
80
Universidad de las Ciencias Informáticas
Ciudad de la Habana, Cuba
Disponible en: http://www.redalyc.org/articulo.oa?id=378343637009
Cómo citar el artículo
Número completo
Más información del artículo
Página de la revista en redalyc.org
Sistema de Información Científica
Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
1
Universidad de las Ciencias Informáticas, Carreterra a San Antonio de los Baños km 2 1/2. Rpato Torrens, Boye-
ros, La Habana, C.P.: 19370. Cuba
*Autor para correspondencia: yuniet@hab.uci.cu
Yuniet Rodríguez Suárez1* y Anolandy Díaz Amador1
Herramientas de Minería de Datos
RCCI Vol. 3, No. 3-4 JULIO-DICIEMBRE, 2009 p. 73-80
Recibido: 11/06/2009
Data Mining Tools
74 El almacenamiento de información en formatos
digitales es cada vez más barato y sencillo. Se
genera gran cantidad de datos. Hay que intentar
sacar partido a estos volúmenes de información
para la toma de decisiones. La tecnología in-
formática constituye la infraestructura funda-
mental de las grandes organizaciones y permite,
hoy, registrar múltiples detalles de la vida de las
empresas. Las bases de datos posibilitan alma-
cenar cada transacción, así como otros muchos
elementos que reflejan la interacción de la or-
ganización con otras organizaciones, clientes, o
internamente, entre sus divisiones y empleados,
etcétera. Es imprescindible convertir los grandes
volúmenes de datos existentes en experiencia,
conocimiento y sabiduría, formas que atesora la
humanidad para que sea útil a la toma de de-
cisiones, especialmente en las grandes orga-
nizaciones y proyectos científicos. La búsqueda
de información relevante siempre es útil a la
administración empresarial: el control de la pro-
ducción, el análisis de los mercados, el diseño
en ingeniería y la exploración científica, porque
pueden ofrecer las respuestas más apropiadas a
las necesidades de información. La minería de da-
tos, es un conjunto de técnicas agrupadas con el
fin de crear mecanismos adecuados de dirección,
entre ellas puede citarse la estadística, el recono-
cimiento de patrones, la clasificación y la predic-
ción. Para descubrir patrones de relaciones útiles
en un conjunto de datos se empezaron a utilizar
métodos que fueron denominados de diferente
forma. El término Data Mining, en inglés, no era,
al principio, del agrado de muchos estadísticos,
porque sus investigaciones estaban dirigidas a
procesar y reprocesar suficientemente los datos,
hasta que confirmasen o refutasen las hipótesis
planteadas. Esta tecnología ha sido de gran ayu-
da en áreas como la banca, telecomunicaciones,
seguros y otros. En la actualidad hay un número
creciente de organizaciones inmersas en proyec-
tos de Minería de Datos o Data Mining. La tec-
nología se puede aplicar a cualquier organización
que disponga de una gran cantidad de datos y
que se plantee explotarlos para obtener reglas de
negocio o mejorar el servicio que presta.
Desarrollo
La idea de Minería de Datos no es nueva. Ya desde
los años sesenta los estadísticos manejaban tér-
minos como data fishing, data mining o data ar-
chaeology con la idea de encontrar correlaciones
sin una hipótesis previa en bases de datos con
ruido. A principios de los años ochenta, Rakesh
Resumen
En la actual sociedad de la información,
donde cada día se multiplica la cantidad de
datos almacenados casi de forma exponen-
cial, la minería de datos es una herramienta
fundamental para analizarlos y explotarlos de
forma eficaz para los objetivos de cualquier
organización. La minería de datos se define
también como el análisis y descubrimiento
de conocimiento a partir de datos. La mine-
ría de datos hace uso de todas las técnicas
que puedan aportar información útil, desde
un sencillo análisis gráfico, pasando por mé-
todos estadísticos más o menos complejos,
complementados con métodos y algoritmos
del campo de la inteligencia artificial y el
aprendizaje automático que resuelven pro-
blemas típicos de agrupamiento automático,
clasificación, predicción de valores, detec-
ción de patrones, asociación de atributos.
En este trabajo se hace un estudio de he-
rramientas que se utilizan en la minería de
datos así como algunas de las aplicaciones y
deficiencias que tiene la misma.
Palabrasclave: Extraer, herramientas, minería
de datos.
Abstract
In today's information society, where every
day is multiplied by the amount of data
stored almost exponentially, data mining is
a fundamental tool to analyze and exploit
them effectively to the objectives of any
organization. Data mining is also defined as
the analysis and knowledge discovery from
data. Data mining uses all the techniques
that can provide useful information, from
a simple graphical analysis, statistical
methods through more or less complex,
complemented with methods and algorithms
in the field of artificial intelligence and
machine learning to problems typical
automatic clustering, classification, value
prediction, pattern detection, association of
attributes. In this paper a study of tools used
in data mining and some of the applications
and has the same shortcomings.
Keywords: Extract, tools, Data Mining.
Introducción
Agrawal, Gio Wiederhold, Robert Blum y Gregory
Piatetsky-Shapiro, entre otros, empezaron a con-
solidar los términos de data mining y KDD. A fi-
nales de los años ochenta sólo existían un par de
empresas dedicadas a esta tecnología; en 2002
existen más de 100 empresas en el mundo que
ofrecen alrededor de 300 soluciones. Las listas de
discusión sobre este tema las forman investiga-
dores de más de ochenta países. Esta tecnología
ha sido un buen punto de encuentro entre perso-
nas pertenecientes al ámbito académico y al de
los negocios. Es una tecnología compuesta por
etapas que integra varias áreas y que no se debe
confundir con un gran software.
Definiciones de Minería de Datos
La definición de Minería de Datos puede variar
entre los diferentes investigadores ya sean esta-
dísticos, analistas de datos u otros. A continua-
ción se muestran algunas definiciones:
t i-B NJOFSÓB EF EBUPT QVFEF EFåOJSTF DPNP
el proceso de extraer conocimiento útil y com-
prensible, previamente desconocido, a partir de
grandes volúmenes de datos” (González, 2006).
ti-BNJOFSÓBEFEBUPTFTMBFYQMPSBDJØOZBOÈMJTJT

mediante métodos automáticos o semiautomáti-
cos, de grandes cantidades de datos para descubrir
reglas o patrones significativos” (Berry y Linoff,
1997).
t i-B NJOFSÓB EF EBUPT FT FM DPOKVOUP EF UÏD-
nicas y herramientas aplicadas al proceso trivial
de extraer y presentar el conocimiento implícito,
previamente desconocido, potencialmente útil y
humanamente comprensible, a partir de grandes
conjuntos de datos, con el objeto de predecir de
forma autorizada tendencias y comportamientos
y/o descubrir de forma automatizada modelos
previamente desconocidos” (Piatetsky-Shapiro y
Frawley, 1991).
t i-B NJOFSÓB EF EBUPT FT MB FYUSBDDJØO EF JO
formación implícita, previamente desconocida
y potencialmente útil de una base de datos”
(Witten y Frank, 2000).
ti-BNJOFSÓBEFEBUPTDPNCJOBUÏDOJDBTEFMB
estadística, inteligencia artificial, bases de da-
tos, visualización y otras áreas, para descubrir, de
forma automática o semiautomática, modelos de
series de datos” (Siebes, 2000)
ti-BNJOFSÓBEFEBUPTFTFMBOÈMJTJTEF

habitualmente grandes, series de datos para en-
contrar relaciones inesperadas y resumir la infor-
mación de nuevas maneras que sean entendibles y
útiles por el propietario de los datos”
(Thuraisingham, 1999).
75
Herramientas
de
Minería
de
Datos
En el ámbito del descubrimiento de conocimiento
en bases de datos o Knowledge Discovery in Da-
tabases (KDD) tiene otro significado, el KDD se
empezó a utilizar en 1989 (Piatetsky-Shapiro y
Frawley, 1991) popularizándose por los expertos
en inteligencia artificial (IA) y aprendizaje de or-
denadores (Machine Learning), por lo que la min-
ería de datos se define como:
ti.JOFSÓBEF%BUPTDPOTJTUFFOPCUFOFSNPEFMPT
comprensibles o patrones de una base de datos”
(Siebes, 2000).
ti.JOFSÓBEF%BUPTCÞTRVFEBEFQBUSPOFTEFJO-
terés mediante árboles o reglas de clasificación,
técnicas de regresión, clusterizado, modelizado
secuencial, dependencias, ect” (Wang, 1999).
Los investigadores la definen diferente yo
coincido con todos, resumiendo la minería de
datos es el análisis de archivos y bitácoras de
transacciones, trabaja a nivel del conocimiento
con el fin de descubrir patrones, relaciones,
reglas, asociaciones o incluso excepciones útiles
para la toma de decisiones.
Algunas dificultades en la aplicación
de Minería de Datos
Problemas a los que se enfrenta cualquier pro-
yecto de Minería de Datos
El número de posibles relaciones es demasiado
grande, y resulta prácticamente imposible validar
cada una de ellas. Para resolver este problema
se utilizan estrategias de búsqueda, extraídas del
área de aprendizaje automático (Berry y Linoff,
1997). Las herramientas funcionan mejor fiján-
doles objetivos de búsqueda concretos. Si bien
la minería de datos es la impresión de que se
puede simplemente aplicar como herramienta a
los datos, se debe tener un objetivo, o al menos
una idea general de lo que busca. El coste de
esta prospección de datos debe ser coherente con
el beneficio esperado. Si bien las herramientas
han bajado su precio, el coste en tiempo, per-
sonal y consultoría se ha incrementado, llegando
en algunos casos a hacer no viable el proyecto.
Suele funcionar mejor en problemas ligados a em-
presas de éxito que en otros casos, debido a la
gran dependencia que estas herramientas tienen
respecto a todos los estamentos de la empresa,
desde mantenimiento a compras. Es necesario
trabajar en estrecha colaboración con expertos
en el negocio para definir modelos. A veces la
información esta corrompida, tiene ruido o sim-
plemente le faltan partes. Para esto se aplican
76 técnicas estadísticas que ayudan a estimar la
confiabilidad de las relaciones halladas.
Aplicaciones de la Minería de Datos
Las técnicas de minería de datos se están utili-
zando desde hace varios años para la obtención
de patrones en los datos y para la extracción de
información valiosa en el campo de la Ingeniería
del Software. Entre estas aplicaciones podemos
citar:
t-BVUJMJ[BDJØOEFÈSCPMFTEFEFDJTJØOFOMBDPOT
trucción de modelos de clasificación de diferentes
características del desarrollo de software.
tTQFDUPTDMJNBUPMØHJDPTQSFEJDDJØOEFUPSNFO
tas, etc.
t.FEJDJOBFODPOUSBSMBQSPCBCJMJEBEEFVOBSFT
puesta satisfactoria a un tratamiento médico.
t.FSDBEPUÏDOJDBJEFOUJåDBSDMJFOUFTTVTDFQUJCMFT
de responder a ofertas de productos y servicios por
correo, fidelidad de clientes, afinidad de productos.
t*OWFSTJØOFODBTBTEFCPMTBZCBODBBOÈMJTJTEF
clientes, aprobación de préstamos, determinación
de montos de crédito, etc.
t%FUFDDJØOEFGSBVEFTZDPNQPSUBNJFOUPTJOV
suales: telefónicos, seguros, en tarjetas de cré-
dito, de evasión fiscal, electricidad, etc.
tOÈMJTJTEFDBOBTUBTEFNFSDBEPQBSBNFKPSBSMB
organización de tiendas, segmentación de mer-
cado (clustering).
t%FUFSNJOBDJØOEFOJWFMFTEFBVEJFODJBEFQSP
gramas televisivos.
t*OEVTUSJBZNBOVGBDUVSBEJBHOØTUJDPEFGBMMBT
Algoritmos y técnicas de Minería de
Datos
La minería de datos es un proceso de extracción
de información y búsqueda de patrones de com-
portamiento que a simple vista se ocultan en-
tre grandes cantidades de información, existen
varios algoritmos y técnicas que ayudan en ob-
tener la información.
Algoritmos:
1. Supervisados o predictivos: predicen el valor
de un atributo de un conjunto de datos, cono-
cidos otros atributos. A partir de datos cuya
etiqueta se conoce, se induce una relación entre
dicha etiqueta y otra serie de atributos. Esas rela-
ciones sirven para realizar la predicción de datos
cuya etiqueta es desconocida.
2. No supervisados o del descubrimiento del co-
nocimiento: con estos algoritmos se descubren
patrones y tendencias en los datos actuales. El des-
cubrimiento de esa información sirve para llevar a
cabo acciones y obtener un beneficio de ellas.
Existen varias técnicas de recopilación de da-
tos que muchas de estas son utilizadas por
las herramientas que usan minería de datos:
Almacenamiento de datos (Data Warehous-
ing): El almacenamiento de datos se define
como un proceso de organización de grandes
cantidades de datos de diversos tipos guardados
en la organización con el objetivo de facilitar la
re-cuperación de la misma con fines analíticos.
El al-macenamiento de datos tiene un gran im-
portancia en el proceso de minería de datos pues
en cierta medida, permite la recuperación o al
menos la referencia a determinados conjuntos de
datos de importancia para un proceso de toma
de decisión dado. En la actualidad existe gran
variedad de sistemas comerciales para el alma-
cenamiento de datos entre los que se destacan
Oracle, Sybase, MS SQL Server, entre otros.
Análisis exploratorio de datos (Exploratory
Data Analysis (EDA)): Las técnicas de análi-
sis exploratorio de datos juegan un papel muy
im-portante en la minería de datos. Las mismas
tienen como objetivo determinar las relaciones
entre las variables cuando no hay o no está to-
talmente definida la naturaleza de estas relacio-
nes. Las técnicas exploratorias tienen un fuerte
componente computacional abarcando desde los
métodos estadísticos simples a los más avanza-
dos como las técnicas de exploración de multi-
variables diseñadas para identificar patrones en
conjunto de datos multivariables.
Entre las técnicas estadísticas sencillas se in-
cluyen el estudio de distribuciones de las vari-
ables, estudio de correlaciones entre matrices,
tablas de contingencias, entre otros. Por su parte,
entre las técnicas más complejas se incluyen el
Análisis de Factores, el Análisis de Grupos, el Es-
calado Multidimensional, etcétera.
Redes neuronales (Neural Networks): Las redes
neuronales son técnicas analíticas que permiten
modelar el proceso de aprendizaje de una forma
similar al funcionamiento del cerebro humano,
básicamente, la capacidad de aprender a partir
de nuevas experiencias. Estas técnicas tuvieron
un desarrollo impresionante en la última década,
con aplicaciones tanto a la medida como genera-
les (comúnmente llamados Shell) y tienen como
objetivo fundamental sustituir la función de un
experto humano.
Una de las principales características de las re-
des neuronales, es que son capaces de trabajar
con datos incompletos e incluso paradójicos, que
tOÈMJTJT1SFMJNJOBSEFEBUPTVTBOEP2VFSZUPPMT
es el primer paso de un proyecto de Minería de
Datos, se aplica una consulta SQL al conjunto de
datos, para rescatar algunos aspectos visibles an-
tes de aplicar las técnicas.
t5ÏDOJDBTEF7JTVBMJ[BDJØOTPOBQUBTQBSBVCJDBS
patrones en un conjunto de datos, puede usarse
al comienzo de un proceso de Minería de Datos
para determinar la calidad de los datos.
t3FHMBTEFTPDJBDJØOFTUBCMFDFOBTPDJBDJPOFT
en base a los perfiles de los clientes sobre los
cuales se realiza la Minería de Datos.
t MHPSJUNPT (FOÏUJDPT TPO UÏDOJDBT EF PQ
timización que usan procesos tales como combi-
naciones genéticas y mutaciones, proporcionan
programas y optimizaciones que pueden ser
usadas en la construcción y entrenamiento de
otras estructuras como es el caso de las redes
neuronales. Además los algoritmos genéticos son
inspirados en el principio de la supervivencia de
los más aptos.
t3FEFT#BZFTJBOBTCVTDBOEFUFSNJOBSSFMBDJP-
nes causales que expliquen un fenómeno según
los datos contenidos en una base de datos. Se
han usado principalmente para realizar predic-
ciones.
t«SCPMEF%FDJTJØOTPOFTUSVDUVSBTRVFSFQSF
sentan conjuntos de decisiones, y estas decisio-
nes generan reglas para la clasificación de un
conjunto de datos. Los árboles de decisión son
fáciles de usar, admiten atributos discretos y
continuos, tratan bien los atributos no significa-
tivos y los valores faltantes. Su principal ventaja
es la facilidad de interpretación.
t$MVTUFSJOH	HSVQBNJFOUP
HSVQBOEBUPTEFO-
tro de un número de clases preestablecidas o no,
partiendo de criterios de distancia o similitud,
de manera que las clases sean similares entre sí
y distintas con las otras clases. Su utilización ha
proporcionado significativos resultados en lo que
respecta a los clasificadores o reconocedores de
patrones, como en el modelado de sistemas. Este
método debido a su naturaleza flexible se puede
combinar fácilmente con otro tipo de técnica
de minería de datos, dando como resultado un
sistema híbrido.
t 4FHNFOUBDJØO $POTJTUF FO MB EJWJTJØO EF MB
totalidad de los datos, según determinados cri-
terios. Ejemplo: Dividir los clientes en función de
su antigüedad.
t$MBTJåDBDJØO$POTJTUFFOEFåOJSVOBTFSJFEF
clases, donde poder agrupar los diferentes clien-
77
Herramientas
de
Minería
de
Datos
tes. Ejemplo: definida unas variables de entrada
se produce una determinada salida que clasifica
al cliente en un grupo o en otro. Por ejemplo, si
la edad está entre 20 y 40, está casado y tiene
cuenta de ahorro, entonces contrata hipoteca en
un 78% de posibilidades.
t 1SFEJDDJØO $POTJTUF FO JOUFOUBS DPOPDFS SF-
sultados futuros a partir de modelizar los da-tos
actuales. Ejemplo: Creamos un modelo de vari-
ables para saber si el cliente compra o no com-
pra. Aplicamos el modelo a un futuro cliente, y ya
podemos predecir si comprará o no.
Herramientas de Minería de Datos
Las herramientas de minería de datos empleadas
en el proceso de extracción de conocimiento se
pueden clasificar en dos grandes grupos:
t5ÏDOJDBTEFWFSJåDBDJØO	FOMBTRVFFMTJTUFNB
se limita a comprobar hipótesis suministrada por
el usuario).
t.ÏUPEPEFEFTDVCSJNJFOUP	FOMPTRVFTFIBOEF
encontrar patrones potencialmente interesantes
de forma automática, incluyendo en este grupo
todas las técnicas de predicción.
Exsten algunas herramientas diseñadas para ex-
traer conocimientos desde bases de datos que
contienen grandes cantidades de información.
Las más populares de estas herramientas son
SPSS Clementine, Oracle Data Miner y Weka.
Clmentine de SPSS: Clementine se centra en la
integración de data mining con otros procesos y
sistemas de negocio que ayuden a entregar inteli-
gencia predictiva en un tiempo eficiente durante
las operaciones de negocio diarias. La funcionali-
dad abierta de data mining en bases de datos que
posee Clementine permite que muchos de los pro-
cesos de data mining se realicen en entornos que
mejoran tanto el rendimiento como el despliegue
de los resultados de data mining. La última ver-
sión de Clementine extiende la funcionalidad de
data mining al incluir un conjunto de reglas de
scoring y modelos de árboles de decisión y carga
de resultados de data mining en la base de datos.
Sistema integrado de minería de datos que per-
mite encontrar patrones en la información para
facilitar la toma de decisiones a los usuarios. Uti-
lizando Clementine se podrá:
tDDFEFS
QSFQBSBSFJOUFHSBSGÈDJMNFOUFEBUPT
numéricos, de texto, datos provenientes de pá-
ginas Web y de encuestas.
t$POTUSVJSZWBMJEBSNPEFMPTSÈQJEBNFOUF
VUJ
lizando las técnicas estadísticas y de aprendizaje
automático disponibles más avanzadas.
t*NQMBOUBSFåDJFOUFNFOUFMPTNPEFMPTQSFEJD
dependiendo del problema puede resultar una
ventaja o un inconveniente. Además esta técnica
posee dos formas de aprendizaje: supervisado y
no supervisado.
78 tivos, en tiempo real o según una programación
establecida.
tQBSBMBTQFSTPOBTRVFUPNBOEFDJTJPOFTZIBDFO
recomendaciones, y para los sistemas que los uti-
lizan.
t 0CUFOFS SÈQJEBNFOUF VO NFKPS 3FUPSOP EF
la Inversión y mejores tiempos de respuesta
aprovechando las características de rendimiento
y escalabilidad.
t5SBOTNJUJSEFGPSNBTFHVSBMPTEBUPTDPOåEFO-
ciales a las aplicaciones de data mining en los
casos donde la seguridad es crítica.
Esta herramienta permite seleccionar campos o
filtrar los datos, permite mostrar propiedades
de los datos, encontrar relaciones, ambiente
integrado de minería de datos para usuarios fi-
nales y desarrolladores. Algoritmos múltiples de
minería de datos y herramientas de visualización.
Su compañía es SPSS/Integral Solutions Limited
(ISL). Funciona sobre todas las plataformas hard-
ware y sistemas operativos, incluyendo Unix, VMS
y Windows NT. Las organizaciones utilizan el con-
ocimiento extraído con Clementine para:
tSFUFOFSBMPTDMJFOUFTSFOUBCMFT
tJEFOUJåDBSPQPSUVOJEBEFTEFWFOUBDSV[BEB
tEFUFDUBSGSBVEFT
tSFEVDJSSJFTHPTZNFKPSBSMBQSFTUBDJØOEFTFS
vicios a la administración,
tBMDBO[BSVONBZPSOJWFMEFDPOPDJNJFOUPEFTVT
clientes online, y por lo tanto, mejorar el diseño
de sus sitios web.
YALE: Es una herramienta creada en la universi-
dad de Dortmund bastante flexible para el des-
cubrimiento del conocimiento y la minería de
datos. Puesto que YALE está escrito enteramente
en Java, funciona en las plataformas o sistemas
operativos más conocidos. Es un software de có-
digo abierto GNU y con licencia GPL. Reciente-
mente fue lanzada la última versión, la cual in-
cluye características como las de implicar nuevos
formatos de entrada de datos con operadores para
Microsoft Excel y SPSS. Desde la perspectiva de
la visualización YALE ofrece representaciones de
datos en dispersión en 2D y 3D; representaciones
de datos en formato SOM (Self Organizing Map);
coordenadas paralelas y grandes posibilidades
de transformar las vi-sualizaciones de los datos.
WEKA: Es de libre distribución (licencia GPL) y
destacada por la cantidad de algoritmos que pre-
senta así como por la eficiencia de los mismos,
por los generadores de reglas, esta desarrollada
por miembros de la Universidad de Waikato, ella
proporciona gran cantidad de herramientas para
la realización de tareas propias de minería de da-
tos, la visualizacion y permite la programación
en JAVA de algoritmos más sofisticados para
analisis de datos y modelado predicativo, unidos
a una interfaz grafica de ususario para acceder
facilmente a sus funcionalidades. En ella se imple-
mentan las técnicas de clasificación, asociación,
agrupamiento, y predicción existentes en la actuali-
dad. Su sistema operativo es multiplataforma. Los
puntos fuertes de Weka son:
tTUÈEJTQPOJCMFMJCSFNFOUFCBKPMBMJDFODJBQÞ
blica general de GNU.
tTNVZQPSUBCMFQPSRVFFTUÈDPNQMFUBNFOUFJN-
plementado en Java y puede correr en casi cual-
quier plataforma.
t$POUJFOFVOBFYUFOTBDPMFDDJØOEFUÏDOJDBTQBSB
reprocesamiento de datos y modelado.
tTGÈDJMEFVUJMJ[BSQPSVOQSJODJQJBOUFHSBDJBTB
su interfaz grafica de usuario.
Weka soporta varias tareas estándar de minería de
datos, especialmente, reprocesamiento de datos,
clustering, clasificación, regresión, visualización,
y selección. Todas las técnicas de Weka se fun-
damentan en la asunción de que los datos están
disponibles en un fichero plano (flan file) o una
relación, en la que cada registro de datos está
descrito por un número fijo de atributos (normal-
mente numéricos o nominales, aunque también
se soportan otros tipos). Weka también propor-
ciona acceso a bases de datos vía SQL gracias
a la conexión JDBC (Java Database Connecti-
vity) y puede procesar el resultado devuelto por
una consulta hecha a la base de datos. No puede
realizar minería de datos multi-relacional, pero
existen aplicaciones que pueden convertir una
colección de tablas relacionadas de una base de
datos en una única tabla que ya puede ser pro-
cesada con Weka.
RAMSES: (Sistema de Gestión de Selección y
Evaluación de Análisis de Riesgo - Risk Analysis
Management Selection  Evaluation System): es
un programa de gestión de riesgos integrado en
el sistema de proceso de datos de Bureau Veritas.
El programa recopila todos los datos correspon-
dientes a las operaciones de comercio interna-
cional y está interconectado con la aplicación
de minería de datos Angoss® Knowledge Studio.
Este software es aceptado como uno de los líderes
del mercado en minería de datos y cumple las
recomendaciones de la Convención de Kyoto de la
OMA (Organización Mundial de Aduanas) de 1999
y del Marco de Normas de la OMC (Organización
Mundial del Comercio). Es utilizado por orga-
nismos gubernamentales en el mundo entero.
RAMSES ofrece a las autoridades gubernamen-
tales una forma de identificar los embarques de
mayor riesgo, facilitando por otro lado la circu-
lación y el despacho de las mercancías de menor
riesgo. Interconectado con las bases de datos de
Bureau Veritas, RAMSES proporciona una gestión
automatizada y digna de confianza de los riesgos
inherentes al comercio internacional.
Beneficios:
tOBMJ[BSUPEPTMPTEBUPTEFMQSPHSBNBEFJOT
pección de importaciones.
tWBMVBSMPTOJWFMFTEFSJFTHPEFMBTEJGFSFOUFT
expediciones de mercancías.
t'BWPSFDFSMPTDPOUSPMFTNFKPSPSJFOUBEPT
t*OEJDBSMBTNFEJEBTBUPNBSQBSBBHJMJ[BSFMEFT
pacho aduanero.
t4FQVFEFBQMJDBSBEJGFSFOUFTUJQPTEFCBTFTEF
datos.
t0QUJNJ[BSMBBTJHOBDJØOEFSFDVSTPTIVNBOPT
SAS Enterprise Miner: Su compañía es SAS, es
una solución de minería de datos que permite
incorporar patrones inteligentes a los procesos
de marketing, tanto operativos como estratégi-
cos. El software de SAS, es un sistema de entrega
de información que provee acceso transparente
a cualquier fuente de datos, incluyendo archivos
planos, archivos jerárquicos, y los más impor-
tantes manejadores de bases de datos relaciona-
les. También incluye su propia base de datos de
información para almacenar y manejar los datos,
es decir, un data warehouse. También soporta
los principales protocolos de comunicación, cu-
bre los cinco modelos de pro-cesamiento cliente/
servidor de acuerdo a Gartner Group y cumple con
las 12 reglas de OLAP. El sistema soporta un am-
plio rango de aplicaciones, destacándose el análi-
sis estadístico, análisis gráfico de datos, análisis
de datos guiado, mejoramiento de la calidad, di-
seño experimental, administración de proyectos,
programación lineal y no lineal, ge-neración de
reportes y gráficas, manipulación y despliegue de
imágenes, sistemas de información geográfica,
visualización multidimensional de datos, aplica-
ciones de multimedia, así como los sistemas de
información ejecutiva.
PolyAnalyst de Megaputer. (Bigus, 1996): Es un
sistema de minería de datos premiados de la mul-
tiestrategia para descubrir la forma exacta de rel-
aciones funcionales ocultadas en datos. Además
de des-cubrir reglas y algoritmos, PolyAnalyst les
presenta explícitamente en el una forma simple
y fácil de entender. En la fundación de PolyAna-
lyst tiene un lenguaje de programación interno
universal capaz de expresar reglas y algoritmos
arbitrarios.
Su compañía es Megaputer líder en negocios y
software inteligentes para web. Ofrece las mejo-
res herramientas para data mining, text mining y
web mining. Plataformas:
t.JDSPTPGU8JOEPXT91/5
t1BSB6/*9Z-JOVY
tEFNÈTSFRVJFSFMBJOTUBMBDJØOEF.JDSPTPGUYDFM
79
Herramientas
de
Minería
de
Datos
Otras herramientas de libre distribución
R: herramienta excelente para el análisis de datos
basada en el conocido programa estadístico S-
Plus y con un manejo de las mátrices y variables
equivalentes a MATLAB. Es muy útil para el análi-
sis estadístico, transformación y manipulación de
los datos. Destacar la excelente asesoría tècnica
llevada a cabo principalmente por algunos de los
principales profesores e investigadores en es-
tadística del mundo.
XELOPES: Otra librería de libre distribución con
cantidad de funciones para minería de datos. Per-
mite la implementación en JAVA o C++.
SNNS: Aplicación para el desarrollo, entrenamien-
to y testeo de múltitud de tipos diferentes de
redes neuronales. Muy útil para desarrollar cla-
sificadores sofisticados y modelos basados en re-
des neuronales.
XmdvTool, Xgobi, IBM-OpenDX, Visipoint: Otras
herramientas con licencia GPL que tienen dife-
rentes funciones de visualización muy útiles para
encontrar patrones ocultos en los datos.
En la Figura se puede apreciar una encuesta he-
cha en el conocido portal sobre Minería de Datos
y gestión del conocimiento, donde se da una idea
de las aplicaciones que más utilizan los profesio-
nales y las múltiples aplicaciones que existen
en el mercado. Aquí se destacan programas de
familias de aplicaciones estadísticas ejemplo:
SAS(SAS, SAS EnterpriseMiner) o SPSS(SPPS Cle-
mentine, SPSS AnswerTree), estas contrastan con
otras desarrolladas integramente en el campo de
la Minería de Datos ejemplo: CART/MARS, IBM-
I-Miner, Angoss, Megaputer PolyAnalyst, KXEN
estas abarcan principalmente mètodos estadísti-
cos y de visualización combinados con algorit-
mos mas propios de Minería de Datos. El grado de
eficiencia de cada herramineta depende de múl-
tiples factores: tipos de algoritmos, funciones de
tratamiento de la información, eficiencia de los
algoritmos, generadores de informes, formas de
pasar la información. Estas herramientas aportan
múltiples ventajas para los campos de investi-
80 Figura 1. Herramientas de Minería de Datos usadas habitualmente (KDnuggets, 2002).
gación y docencia en el aprendizaje y desarrollo
de la Minería de Datos, nos han demostrado que
tienen grandes ventajas.
¿Por qué usar Minería de Datos?
Ahorra grandes cantidades de dinero a una em-
presa y abre nuevas oportunidades de negocios.
Contribuye a la toma de decisiones tácticas y es-
tratégicas.
Proporciona poder de decisión a los usuarios del
negocio, y es capaz de medir las acciones y resul-
tados de una mejor forma.
Genera modelos descriptivos: permite a empre-
sas, explorar y comprender los datos e identificar
patrones, relaciones y dependencias que impac-
tan en los resultados finales.
Genera modelos predictivos: permite que relacio-
nes no descubiertas a través del proceso de la
Minería de Datos sean expresadas como reglas de
negocio.
La Minería de Datos se presenta como una tec-
nología de apoyo para explorar, analizar, com-
prender y aplicar el conocimiento obtenido
usando grandes volúmenes de datos y descubrir
patrones que ayuden a la identificación de estruc-
turas en los datos.
Los productos a comercializar son costosos y re-
quieren de mucha experiencia para su utilización.
Es muy fácil hallar patrones equívocos o no in-
teresantes.
La aplicación de estas herramientas ayuda en el
proceso de toma de decisión de las organizacio-
nes.
Conclusiones
Berry, M.J. y G. Linoff, Data Mining Techniques For
Marketing, Sales and Customer Support. 1997.
Bigus, JP. Data Mining with Neural Networks
1996. Disponible en: http://www.
megaputer.com
Delve Projects. Data for Evaluating Learning in
Valid Experiments. Disponible en: http://
www.cs.utoronto.ca/~delve/index.html
Hand, D., H. Mannila, and P. Smyth, Principles of
Data Mining. London: The MIT Press., 2001.
Gonzalez, P.P., Desarrollo de tecnicas de mineria de
datosenprocesosindustriales:Modelizacion
en lineas de produccion de acero. Julio de
2006: Universidad de la Rioja.
KDnuggets. Data mining tools you regularly
use. junio 2002 . Disponible en: http://
www.kdnuggets.com/polls/2002/data_
mining_tools.htm
Machine Learning Group at University of Waikato
Data Mining Software in Java. Disponible
en:http://www.cs.waikato.ac.nz/ml/
weka/
Piatetsky-Shapiro, G. y W. J Frawley. Knowledge
Discovery in Databases. AAAI/MIT Press,
1991.
Siebes, A., Data Mining and Statistics. 2000.
Thuraisingham, B. Data Mining. Technologies, Techniques,
Tools and Trends CRC Press LLC, 1999.
Wang, X.Z., Data Mining and Knowledge Discovery
For Process Monitoring and Control. 1999,
London: Ed. Springer.
Witten, I.H. y E. Frank, Data Mining. Practical
Machine Lerning Tools and Techniques
with Java Implementations. 2000: San
Francisco, California.
Referencias

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Md session1
Md session1Md session1
Md session1
 
Ensayo sobre data mining
Ensayo sobre data miningEnsayo sobre data mining
Ensayo sobre data mining
 
MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOS
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]
 

Similar a Herramientas de mineria_de_datos

Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdfDialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdfJairo Almeida
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining PabloMolina111
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Daniela Bedascarrasbure
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datoslalopg
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Procesamiento digital de imágenes e inteligencia aritificial
Procesamiento digital de imágenes e inteligencia aritificialProcesamiento digital de imágenes e inteligencia aritificial
Procesamiento digital de imágenes e inteligencia aritificialCoirna Ortiz
 
Apoyo de la mineria de datos a la vt
Apoyo de la mineria de datos a  la vtApoyo de la mineria de datos a  la vt
Apoyo de la mineria de datos a la vtOscarAngelesSnchez
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 
BIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfBIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfssuser88a1941
 
Conociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y JoyanesConociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y Joyanesjacristancho
 
La Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica PredictivaLa Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica PredictivaLPI ONG
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosLuis Fernando Aguas Bucheli
 

Similar a Herramientas de mineria_de_datos (20)

Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdfDialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Conociendo big data
Conociendo big dataConociendo big data
Conociendo big data
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datos
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Procesamiento digital de imágenes e inteligencia aritificial
Procesamiento digital de imágenes e inteligencia aritificialProcesamiento digital de imágenes e inteligencia aritificial
Procesamiento digital de imágenes e inteligencia aritificial
 
Apoyo de la mineria de datos a la vt
Apoyo de la mineria de datos a  la vtApoyo de la mineria de datos a  la vt
Apoyo de la mineria de datos a la vt
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
BIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfBIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdf
 
Big data-grupo-7
Big data-grupo-7Big data-grupo-7
Big data-grupo-7
 
Conociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y JoyanesConociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y Joyanes
 
La Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica PredictivaLa Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica Predictiva
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 

Último

Unidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxUnidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxEverardoRuiz8
 
SSOMA, seguridad y salud ocupacional. SST
SSOMA, seguridad y salud ocupacional. SSTSSOMA, seguridad y salud ocupacional. SST
SSOMA, seguridad y salud ocupacional. SSTGestorManpower
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMarceloQuisbert6
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5
 
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfPresentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfMirthaFernandez12
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
Seleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusiblesSeleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusiblesSaulSantiago25
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdfAnthonyTiclia
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdfEdwinAlexanderSnchez2
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IILauraFernandaValdovi
 
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kVEl proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kVSebastianPaez47
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxClaudiaPerez86192
 
TALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaTALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaSantiagoSanchez353883
 
Manual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfManual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfedsonzav8
 
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa  tipos y funcionamientoCaldera Recuperadora de químicos en celulosa  tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa tipos y funcionamientoRobertoAlejandroCast6
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)ssuser563c56
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones025ca20
 
sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7luisanthonycarrascos
 
Diapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestaDiapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestajeffsalazarpuente
 

Último (20)

Unidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxUnidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptx
 
SSOMA, seguridad y salud ocupacional. SST
SSOMA, seguridad y salud ocupacional. SSTSSOMA, seguridad y salud ocupacional. SST
SSOMA, seguridad y salud ocupacional. SST
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principios
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptx
 
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfPresentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
Seleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusiblesSeleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusibles
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo II
 
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kVEl proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
El proyecto “ITC SE Lambayeque Norte 220 kV con seccionamiento de la LT 220 kV
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptx
 
TALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaTALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación pública
 
Manual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfManual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdf
 
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa  tipos y funcionamientoCaldera Recuperadora de químicos en celulosa  tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones
 
sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7
 
Diapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuestaDiapositiva de Topografía Nivelación simple y compuesta
Diapositiva de Topografía Nivelación simple y compuesta
 
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfVALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
 

Herramientas de mineria_de_datos

  • 1. Revista Cubana de Ciencias Informáticas ISSN: 1994-1536 rcci@uci.cu Universidad de las Ciencias Informáticas Cuba Rodríguez Suárez, Yuniet; Díaz Amador, Anolandy Herramientas de Minería de Datos Revista Cubana de Ciencias Informáticas, vol. 3, núm. 3-4, julio-diciembre, 2009, pp. 73- 80 Universidad de las Ciencias Informáticas Ciudad de la Habana, Cuba Disponible en: http://www.redalyc.org/articulo.oa?id=378343637009 Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
  • 2. 1 Universidad de las Ciencias Informáticas, Carreterra a San Antonio de los Baños km 2 1/2. Rpato Torrens, Boye- ros, La Habana, C.P.: 19370. Cuba *Autor para correspondencia: yuniet@hab.uci.cu Yuniet Rodríguez Suárez1* y Anolandy Díaz Amador1 Herramientas de Minería de Datos RCCI Vol. 3, No. 3-4 JULIO-DICIEMBRE, 2009 p. 73-80 Recibido: 11/06/2009 Data Mining Tools
  • 3. 74 El almacenamiento de información en formatos digitales es cada vez más barato y sencillo. Se genera gran cantidad de datos. Hay que intentar sacar partido a estos volúmenes de información para la toma de decisiones. La tecnología in- formática constituye la infraestructura funda- mental de las grandes organizaciones y permite, hoy, registrar múltiples detalles de la vida de las empresas. Las bases de datos posibilitan alma- cenar cada transacción, así como otros muchos elementos que reflejan la interacción de la or- ganización con otras organizaciones, clientes, o internamente, entre sus divisiones y empleados, etcétera. Es imprescindible convertir los grandes volúmenes de datos existentes en experiencia, conocimiento y sabiduría, formas que atesora la humanidad para que sea útil a la toma de de- cisiones, especialmente en las grandes orga- nizaciones y proyectos científicos. La búsqueda de información relevante siempre es útil a la administración empresarial: el control de la pro- ducción, el análisis de los mercados, el diseño en ingeniería y la exploración científica, porque pueden ofrecer las respuestas más apropiadas a las necesidades de información. La minería de da- tos, es un conjunto de técnicas agrupadas con el fin de crear mecanismos adecuados de dirección, entre ellas puede citarse la estadística, el recono- cimiento de patrones, la clasificación y la predic- ción. Para descubrir patrones de relaciones útiles en un conjunto de datos se empezaron a utilizar métodos que fueron denominados de diferente forma. El término Data Mining, en inglés, no era, al principio, del agrado de muchos estadísticos, porque sus investigaciones estaban dirigidas a procesar y reprocesar suficientemente los datos, hasta que confirmasen o refutasen las hipótesis planteadas. Esta tecnología ha sido de gran ayu- da en áreas como la banca, telecomunicaciones, seguros y otros. En la actualidad hay un número creciente de organizaciones inmersas en proyec- tos de Minería de Datos o Data Mining. La tec- nología se puede aplicar a cualquier organización que disponga de una gran cantidad de datos y que se plantee explotarlos para obtener reglas de negocio o mejorar el servicio que presta. Desarrollo La idea de Minería de Datos no es nueva. Ya desde los años sesenta los estadísticos manejaban tér- minos como data fishing, data mining o data ar- chaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Resumen En la actual sociedad de la información, donde cada día se multiplica la cantidad de datos almacenados casi de forma exponen- cial, la minería de datos es una herramienta fundamental para analizarlos y explotarlos de forma eficaz para los objetivos de cualquier organización. La minería de datos se define también como el análisis y descubrimiento de conocimiento a partir de datos. La mine- ría de datos hace uso de todas las técnicas que puedan aportar información útil, desde un sencillo análisis gráfico, pasando por mé- todos estadísticos más o menos complejos, complementados con métodos y algoritmos del campo de la inteligencia artificial y el aprendizaje automático que resuelven pro- blemas típicos de agrupamiento automático, clasificación, predicción de valores, detec- ción de patrones, asociación de atributos. En este trabajo se hace un estudio de he- rramientas que se utilizan en la minería de datos así como algunas de las aplicaciones y deficiencias que tiene la misma. Palabrasclave: Extraer, herramientas, minería de datos. Abstract In today's information society, where every day is multiplied by the amount of data stored almost exponentially, data mining is a fundamental tool to analyze and exploit them effectively to the objectives of any organization. Data mining is also defined as the analysis and knowledge discovery from data. Data mining uses all the techniques that can provide useful information, from a simple graphical analysis, statistical methods through more or less complex, complemented with methods and algorithms in the field of artificial intelligence and machine learning to problems typical automatic clustering, classification, value prediction, pattern detection, association of attributes. In this paper a study of tools used in data mining and some of the applications and has the same shortcomings. Keywords: Extract, tools, Data Mining. Introducción
  • 4. Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a con- solidar los términos de data mining y KDD. A fi- nales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este tema las forman investiga- dores de más de ochenta países. Esta tecnología ha sido un buen punto de encuentro entre perso- nas pertenecientes al ámbito académico y al de los negocios. Es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Definiciones de Minería de Datos La definición de Minería de Datos puede variar entre los diferentes investigadores ya sean esta- dísticos, analistas de datos u otros. A continua- ción se muestran algunas definiciones: t i-B NJOFSÓB EF EBUPT QVFEF EFåOJSTF DPNP el proceso de extraer conocimiento útil y com- prensible, previamente desconocido, a partir de grandes volúmenes de datos” (González, 2006). ti-BNJOFSÓBEFEBUPTFTMBFYQMPSBDJØOZBOÈMJTJT mediante métodos automáticos o semiautomáti- cos, de grandes cantidades de datos para descubrir reglas o patrones significativos” (Berry y Linoff, 1997). t i-B NJOFSÓB EF EBUPT FT FM DPOKVOUP EF UÏD- nicas y herramientas aplicadas al proceso trivial de extraer y presentar el conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con el objeto de predecir de forma autorizada tendencias y comportamientos y/o descubrir de forma automatizada modelos previamente desconocidos” (Piatetsky-Shapiro y Frawley, 1991). t i-B NJOFSÓB EF EBUPT FT MB FYUSBDDJØO EF JO formación implícita, previamente desconocida y potencialmente útil de una base de datos” (Witten y Frank, 2000). ti-BNJOFSÓBEFEBUPTDPNCJOBUÏDOJDBTEFMB estadística, inteligencia artificial, bases de da- tos, visualización y otras áreas, para descubrir, de forma automática o semiautomática, modelos de series de datos” (Siebes, 2000) ti-BNJOFSÓBEFEBUPTFTFMBOÈMJTJTEF habitualmente grandes, series de datos para en- contrar relaciones inesperadas y resumir la infor- mación de nuevas maneras que sean entendibles y útiles por el propietario de los datos” (Thuraisingham, 1999). 75 Herramientas de Minería de Datos En el ámbito del descubrimiento de conocimiento en bases de datos o Knowledge Discovery in Da- tabases (KDD) tiene otro significado, el KDD se empezó a utilizar en 1989 (Piatetsky-Shapiro y Frawley, 1991) popularizándose por los expertos en inteligencia artificial (IA) y aprendizaje de or- denadores (Machine Learning), por lo que la min- ería de datos se define como: ti.JOFSÓBEF%BUPTDPOTJTUFFOPCUFOFSNPEFMPT comprensibles o patrones de una base de datos” (Siebes, 2000). ti.JOFSÓBEF%BUPTCÞTRVFEBEFQBUSPOFTEFJO- terés mediante árboles o reglas de clasificación, técnicas de regresión, clusterizado, modelizado secuencial, dependencias, ect” (Wang, 1999). Los investigadores la definen diferente yo coincido con todos, resumiendo la minería de datos es el análisis de archivos y bitácoras de transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones útiles para la toma de decisiones. Algunas dificultades en la aplicación de Minería de Datos Problemas a los que se enfrenta cualquier pro- yecto de Minería de Datos El número de posibles relaciones es demasiado grande, y resulta prácticamente imposible validar cada una de ellas. Para resolver este problema se utilizan estrategias de búsqueda, extraídas del área de aprendizaje automático (Berry y Linoff, 1997). Las herramientas funcionan mejor fiján- doles objetivos de búsqueda concretos. Si bien la minería de datos es la impresión de que se puede simplemente aplicar como herramienta a los datos, se debe tener un objetivo, o al menos una idea general de lo que busca. El coste de esta prospección de datos debe ser coherente con el beneficio esperado. Si bien las herramientas han bajado su precio, el coste en tiempo, per- sonal y consultoría se ha incrementado, llegando en algunos casos a hacer no viable el proyecto. Suele funcionar mejor en problemas ligados a em- presas de éxito que en otros casos, debido a la gran dependencia que estas herramientas tienen respecto a todos los estamentos de la empresa, desde mantenimiento a compras. Es necesario trabajar en estrecha colaboración con expertos en el negocio para definir modelos. A veces la información esta corrompida, tiene ruido o sim- plemente le faltan partes. Para esto se aplican
  • 5. 76 técnicas estadísticas que ayudan a estimar la confiabilidad de las relaciones halladas. Aplicaciones de la Minería de Datos Las técnicas de minería de datos se están utili- zando desde hace varios años para la obtención de patrones en los datos y para la extracción de información valiosa en el campo de la Ingeniería del Software. Entre estas aplicaciones podemos citar: t-BVUJMJ[BDJØOEFÈSCPMFTEFEFDJTJØOFOMBDPOT trucción de modelos de clasificación de diferentes características del desarrollo de software. tTQFDUPTDMJNBUPMØHJDPTQSFEJDDJØOEFUPSNFO tas, etc. t.FEJDJOBFODPOUSBSMBQSPCBCJMJEBEEFVOBSFT puesta satisfactoria a un tratamiento médico. t.FSDBEPUÏDOJDBJEFOUJåDBSDMJFOUFTTVTDFQUJCMFT de responder a ofertas de productos y servicios por correo, fidelidad de clientes, afinidad de productos. t*OWFSTJØOFODBTBTEFCPMTBZCBODBBOÈMJTJTEF clientes, aprobación de préstamos, determinación de montos de crédito, etc. t%FUFDDJØOEFGSBVEFTZDPNQPSUBNJFOUPTJOV suales: telefónicos, seguros, en tarjetas de cré- dito, de evasión fiscal, electricidad, etc. tOÈMJTJTEFDBOBTUBTEFNFSDBEPQBSBNFKPSBSMB organización de tiendas, segmentación de mer- cado (clustering). t%FUFSNJOBDJØOEFOJWFMFTEFBVEJFODJBEFQSP gramas televisivos. t*OEVTUSJBZNBOVGBDUVSBEJBHOØTUJDPEFGBMMBT Algoritmos y técnicas de Minería de Datos La minería de datos es un proceso de extracción de información y búsqueda de patrones de com- portamiento que a simple vista se ocultan en- tre grandes cantidades de información, existen varios algoritmos y técnicas que ayudan en ob- tener la información. Algoritmos: 1. Supervisados o predictivos: predicen el valor de un atributo de un conjunto de datos, cono- cidos otros atributos. A partir de datos cuya etiqueta se conoce, se induce una relación entre dicha etiqueta y otra serie de atributos. Esas rela- ciones sirven para realizar la predicción de datos cuya etiqueta es desconocida. 2. No supervisados o del descubrimiento del co- nocimiento: con estos algoritmos se descubren patrones y tendencias en los datos actuales. El des- cubrimiento de esa información sirve para llevar a cabo acciones y obtener un beneficio de ellas. Existen varias técnicas de recopilación de da- tos que muchas de estas son utilizadas por las herramientas que usan minería de datos: Almacenamiento de datos (Data Warehous- ing): El almacenamiento de datos se define como un proceso de organización de grandes cantidades de datos de diversos tipos guardados en la organización con el objetivo de facilitar la re-cuperación de la misma con fines analíticos. El al-macenamiento de datos tiene un gran im- portancia en el proceso de minería de datos pues en cierta medida, permite la recuperación o al menos la referencia a determinados conjuntos de datos de importancia para un proceso de toma de decisión dado. En la actualidad existe gran variedad de sistemas comerciales para el alma- cenamiento de datos entre los que se destacan Oracle, Sybase, MS SQL Server, entre otros. Análisis exploratorio de datos (Exploratory Data Analysis (EDA)): Las técnicas de análi- sis exploratorio de datos juegan un papel muy im-portante en la minería de datos. Las mismas tienen como objetivo determinar las relaciones entre las variables cuando no hay o no está to- talmente definida la naturaleza de estas relacio- nes. Las técnicas exploratorias tienen un fuerte componente computacional abarcando desde los métodos estadísticos simples a los más avanza- dos como las técnicas de exploración de multi- variables diseñadas para identificar patrones en conjunto de datos multivariables. Entre las técnicas estadísticas sencillas se in- cluyen el estudio de distribuciones de las vari- ables, estudio de correlaciones entre matrices, tablas de contingencias, entre otros. Por su parte, entre las técnicas más complejas se incluyen el Análisis de Factores, el Análisis de Grupos, el Es- calado Multidimensional, etcétera. Redes neuronales (Neural Networks): Las redes neuronales son técnicas analíticas que permiten modelar el proceso de aprendizaje de una forma similar al funcionamiento del cerebro humano, básicamente, la capacidad de aprender a partir de nuevas experiencias. Estas técnicas tuvieron un desarrollo impresionante en la última década, con aplicaciones tanto a la medida como genera- les (comúnmente llamados Shell) y tienen como objetivo fundamental sustituir la función de un experto humano. Una de las principales características de las re- des neuronales, es que son capaces de trabajar con datos incompletos e incluso paradójicos, que
  • 6. tOÈMJTJT1SFMJNJOBSEFEBUPTVTBOEP2VFSZUPPMT es el primer paso de un proyecto de Minería de Datos, se aplica una consulta SQL al conjunto de datos, para rescatar algunos aspectos visibles an- tes de aplicar las técnicas. t5ÏDOJDBTEF7JTVBMJ[BDJØOTPOBQUBTQBSBVCJDBS patrones en un conjunto de datos, puede usarse al comienzo de un proceso de Minería de Datos para determinar la calidad de los datos. t3FHMBTEFTPDJBDJØOFTUBCMFDFOBTPDJBDJPOFT en base a los perfiles de los clientes sobre los cuales se realiza la Minería de Datos. t MHPSJUNPT (FOÏUJDPT TPO UÏDOJDBT EF PQ timización que usan procesos tales como combi- naciones genéticas y mutaciones, proporcionan programas y optimizaciones que pueden ser usadas en la construcción y entrenamiento de otras estructuras como es el caso de las redes neuronales. Además los algoritmos genéticos son inspirados en el principio de la supervivencia de los más aptos. t3FEFT#BZFTJBOBTCVTDBOEFUFSNJOBSSFMBDJP- nes causales que expliquen un fenómeno según los datos contenidos en una base de datos. Se han usado principalmente para realizar predic- ciones. t«SCPMEF%FDJTJØOTPOFTUSVDUVSBTRVFSFQSF sentan conjuntos de decisiones, y estas decisio- nes generan reglas para la clasificación de un conjunto de datos. Los árboles de decisión son fáciles de usar, admiten atributos discretos y continuos, tratan bien los atributos no significa- tivos y los valores faltantes. Su principal ventaja es la facilidad de interpretación. t$MVTUFSJOH HSVQBNJFOUP HSVQBOEBUPTEFO- tro de un número de clases preestablecidas o no, partiendo de criterios de distancia o similitud, de manera que las clases sean similares entre sí y distintas con las otras clases. Su utilización ha proporcionado significativos resultados en lo que respecta a los clasificadores o reconocedores de patrones, como en el modelado de sistemas. Este método debido a su naturaleza flexible se puede combinar fácilmente con otro tipo de técnica de minería de datos, dando como resultado un sistema híbrido. t 4FHNFOUBDJØO $POTJTUF FO MB EJWJTJØO EF MB totalidad de los datos, según determinados cri- terios. Ejemplo: Dividir los clientes en función de su antigüedad. t$MBTJåDBDJØO$POTJTUFFOEFåOJSVOBTFSJFEF clases, donde poder agrupar los diferentes clien- 77 Herramientas de Minería de Datos tes. Ejemplo: definida unas variables de entrada se produce una determinada salida que clasifica al cliente en un grupo o en otro. Por ejemplo, si la edad está entre 20 y 40, está casado y tiene cuenta de ahorro, entonces contrata hipoteca en un 78% de posibilidades. t 1SFEJDDJØO $POTJTUF FO JOUFOUBS DPOPDFS SF- sultados futuros a partir de modelizar los da-tos actuales. Ejemplo: Creamos un modelo de vari- ables para saber si el cliente compra o no com- pra. Aplicamos el modelo a un futuro cliente, y ya podemos predecir si comprará o no. Herramientas de Minería de Datos Las herramientas de minería de datos empleadas en el proceso de extracción de conocimiento se pueden clasificar en dos grandes grupos: t5ÏDOJDBTEFWFSJåDBDJØO FOMBTRVFFMTJTUFNB se limita a comprobar hipótesis suministrada por el usuario). t.ÏUPEPEFEFTDVCSJNJFOUP FOMPTRVFTFIBOEF encontrar patrones potencialmente interesantes de forma automática, incluyendo en este grupo todas las técnicas de predicción. Exsten algunas herramientas diseñadas para ex- traer conocimientos desde bases de datos que contienen grandes cantidades de información. Las más populares de estas herramientas son SPSS Clementine, Oracle Data Miner y Weka. Clmentine de SPSS: Clementine se centra en la integración de data mining con otros procesos y sistemas de negocio que ayuden a entregar inteli- gencia predictiva en un tiempo eficiente durante las operaciones de negocio diarias. La funcionali- dad abierta de data mining en bases de datos que posee Clementine permite que muchos de los pro- cesos de data mining se realicen en entornos que mejoran tanto el rendimiento como el despliegue de los resultados de data mining. La última ver- sión de Clementine extiende la funcionalidad de data mining al incluir un conjunto de reglas de scoring y modelos de árboles de decisión y carga de resultados de data mining en la base de datos. Sistema integrado de minería de datos que per- mite encontrar patrones en la información para facilitar la toma de decisiones a los usuarios. Uti- lizando Clementine se podrá: tDDFEFS QSFQBSBSFJOUFHSBSGÈDJMNFOUFEBUPT numéricos, de texto, datos provenientes de pá- ginas Web y de encuestas. t$POTUSVJSZWBMJEBSNPEFMPTSÈQJEBNFOUF VUJ lizando las técnicas estadísticas y de aprendizaje automático disponibles más avanzadas. t*NQMBOUBSFåDJFOUFNFOUFMPTNPEFMPTQSFEJD dependiendo del problema puede resultar una ventaja o un inconveniente. Además esta técnica posee dos formas de aprendizaje: supervisado y no supervisado.
  • 7. 78 tivos, en tiempo real o según una programación establecida. tQBSBMBTQFSTPOBTRVFUPNBOEFDJTJPOFTZIBDFO recomendaciones, y para los sistemas que los uti- lizan. t 0CUFOFS SÈQJEBNFOUF VO NFKPS 3FUPSOP EF la Inversión y mejores tiempos de respuesta aprovechando las características de rendimiento y escalabilidad. t5SBOTNJUJSEFGPSNBTFHVSBMPTEBUPTDPOåEFO- ciales a las aplicaciones de data mining en los casos donde la seguridad es crítica. Esta herramienta permite seleccionar campos o filtrar los datos, permite mostrar propiedades de los datos, encontrar relaciones, ambiente integrado de minería de datos para usuarios fi- nales y desarrolladores. Algoritmos múltiples de minería de datos y herramientas de visualización. Su compañía es SPSS/Integral Solutions Limited (ISL). Funciona sobre todas las plataformas hard- ware y sistemas operativos, incluyendo Unix, VMS y Windows NT. Las organizaciones utilizan el con- ocimiento extraído con Clementine para: tSFUFOFSBMPTDMJFOUFTSFOUBCMFT tJEFOUJåDBSPQPSUVOJEBEFTEFWFOUBDSV[BEB tEFUFDUBSGSBVEFT tSFEVDJSSJFTHPTZNFKPSBSMBQSFTUBDJØOEFTFS vicios a la administración, tBMDBO[BSVONBZPSOJWFMEFDPOPDJNJFOUPEFTVT clientes online, y por lo tanto, mejorar el diseño de sus sitios web. YALE: Es una herramienta creada en la universi- dad de Dortmund bastante flexible para el des- cubrimiento del conocimiento y la minería de datos. Puesto que YALE está escrito enteramente en Java, funciona en las plataformas o sistemas operativos más conocidos. Es un software de có- digo abierto GNU y con licencia GPL. Reciente- mente fue lanzada la última versión, la cual in- cluye características como las de implicar nuevos formatos de entrada de datos con operadores para Microsoft Excel y SPSS. Desde la perspectiva de la visualización YALE ofrece representaciones de datos en dispersión en 2D y 3D; representaciones de datos en formato SOM (Self Organizing Map); coordenadas paralelas y grandes posibilidades de transformar las vi-sualizaciones de los datos. WEKA: Es de libre distribución (licencia GPL) y destacada por la cantidad de algoritmos que pre- senta así como por la eficiencia de los mismos, por los generadores de reglas, esta desarrollada por miembros de la Universidad de Waikato, ella proporciona gran cantidad de herramientas para la realización de tareas propias de minería de da- tos, la visualizacion y permite la programación en JAVA de algoritmos más sofisticados para analisis de datos y modelado predicativo, unidos a una interfaz grafica de ususario para acceder facilmente a sus funcionalidades. En ella se imple- mentan las técnicas de clasificación, asociación, agrupamiento, y predicción existentes en la actuali- dad. Su sistema operativo es multiplataforma. Los puntos fuertes de Weka son: tTUÈEJTQPOJCMFMJCSFNFOUFCBKPMBMJDFODJBQÞ blica general de GNU. tTNVZQPSUBCMFQPSRVFFTUÈDPNQMFUBNFOUFJN- plementado en Java y puede correr en casi cual- quier plataforma. t$POUJFOFVOBFYUFOTBDPMFDDJØOEFUÏDOJDBTQBSB reprocesamiento de datos y modelado. tTGÈDJMEFVUJMJ[BSQPSVOQSJODJQJBOUFHSBDJBTB su interfaz grafica de usuario. Weka soporta varias tareas estándar de minería de datos, especialmente, reprocesamiento de datos, clustering, clasificación, regresión, visualización, y selección. Todas las técnicas de Weka se fun- damentan en la asunción de que los datos están disponibles en un fichero plano (flan file) o una relación, en la que cada registro de datos está descrito por un número fijo de atributos (normal- mente numéricos o nominales, aunque también se soportan otros tipos). Weka también propor- ciona acceso a bases de datos vía SQL gracias a la conexión JDBC (Java Database Connecti- vity) y puede procesar el resultado devuelto por una consulta hecha a la base de datos. No puede realizar minería de datos multi-relacional, pero existen aplicaciones que pueden convertir una colección de tablas relacionadas de una base de datos en una única tabla que ya puede ser pro- cesada con Weka. RAMSES: (Sistema de Gestión de Selección y Evaluación de Análisis de Riesgo - Risk Analysis Management Selection Evaluation System): es un programa de gestión de riesgos integrado en el sistema de proceso de datos de Bureau Veritas. El programa recopila todos los datos correspon- dientes a las operaciones de comercio interna- cional y está interconectado con la aplicación de minería de datos Angoss® Knowledge Studio. Este software es aceptado como uno de los líderes del mercado en minería de datos y cumple las recomendaciones de la Convención de Kyoto de la OMA (Organización Mundial de Aduanas) de 1999 y del Marco de Normas de la OMC (Organización
  • 8. Mundial del Comercio). Es utilizado por orga- nismos gubernamentales en el mundo entero. RAMSES ofrece a las autoridades gubernamen- tales una forma de identificar los embarques de mayor riesgo, facilitando por otro lado la circu- lación y el despacho de las mercancías de menor riesgo. Interconectado con las bases de datos de Bureau Veritas, RAMSES proporciona una gestión automatizada y digna de confianza de los riesgos inherentes al comercio internacional. Beneficios: tOBMJ[BSUPEPTMPTEBUPTEFMQSPHSBNBEFJOT pección de importaciones. tWBMVBSMPTOJWFMFTEFSJFTHPEFMBTEJGFSFOUFT expediciones de mercancías. t'BWPSFDFSMPTDPOUSPMFTNFKPSPSJFOUBEPT t*OEJDBSMBTNFEJEBTBUPNBSQBSBBHJMJ[BSFMEFT pacho aduanero. t4FQVFEFBQMJDBSBEJGFSFOUFTUJQPTEFCBTFTEF datos. t0QUJNJ[BSMBBTJHOBDJØOEFSFDVSTPTIVNBOPT SAS Enterprise Miner: Su compañía es SAS, es una solución de minería de datos que permite incorporar patrones inteligentes a los procesos de marketing, tanto operativos como estratégi- cos. El software de SAS, es un sistema de entrega de información que provee acceso transparente a cualquier fuente de datos, incluyendo archivos planos, archivos jerárquicos, y los más impor- tantes manejadores de bases de datos relaciona- les. También incluye su propia base de datos de información para almacenar y manejar los datos, es decir, un data warehouse. También soporta los principales protocolos de comunicación, cu- bre los cinco modelos de pro-cesamiento cliente/ servidor de acuerdo a Gartner Group y cumple con las 12 reglas de OLAP. El sistema soporta un am- plio rango de aplicaciones, destacándose el análi- sis estadístico, análisis gráfico de datos, análisis de datos guiado, mejoramiento de la calidad, di- seño experimental, administración de proyectos, programación lineal y no lineal, ge-neración de reportes y gráficas, manipulación y despliegue de imágenes, sistemas de información geográfica, visualización multidimensional de datos, aplica- ciones de multimedia, así como los sistemas de información ejecutiva. PolyAnalyst de Megaputer. (Bigus, 1996): Es un sistema de minería de datos premiados de la mul- tiestrategia para descubrir la forma exacta de rel- aciones funcionales ocultadas en datos. Además de des-cubrir reglas y algoritmos, PolyAnalyst les presenta explícitamente en el una forma simple y fácil de entender. En la fundación de PolyAna- lyst tiene un lenguaje de programación interno universal capaz de expresar reglas y algoritmos arbitrarios. Su compañía es Megaputer líder en negocios y software inteligentes para web. Ofrece las mejo- res herramientas para data mining, text mining y web mining. Plataformas: t.JDSPTPGU8JOEPXT91/5 t1BSB6/*9Z-JOVY tEFNÈTSFRVJFSFMBJOTUBMBDJØOEF.JDSPTPGUYDFM 79 Herramientas de Minería de Datos Otras herramientas de libre distribución R: herramienta excelente para el análisis de datos basada en el conocido programa estadístico S- Plus y con un manejo de las mátrices y variables equivalentes a MATLAB. Es muy útil para el análi- sis estadístico, transformación y manipulación de los datos. Destacar la excelente asesoría tècnica llevada a cabo principalmente por algunos de los principales profesores e investigadores en es- tadística del mundo. XELOPES: Otra librería de libre distribución con cantidad de funciones para minería de datos. Per- mite la implementación en JAVA o C++. SNNS: Aplicación para el desarrollo, entrenamien- to y testeo de múltitud de tipos diferentes de redes neuronales. Muy útil para desarrollar cla- sificadores sofisticados y modelos basados en re- des neuronales. XmdvTool, Xgobi, IBM-OpenDX, Visipoint: Otras herramientas con licencia GPL que tienen dife- rentes funciones de visualización muy útiles para encontrar patrones ocultos en los datos. En la Figura se puede apreciar una encuesta he- cha en el conocido portal sobre Minería de Datos y gestión del conocimiento, donde se da una idea de las aplicaciones que más utilizan los profesio- nales y las múltiples aplicaciones que existen en el mercado. Aquí se destacan programas de familias de aplicaciones estadísticas ejemplo: SAS(SAS, SAS EnterpriseMiner) o SPSS(SPPS Cle- mentine, SPSS AnswerTree), estas contrastan con otras desarrolladas integramente en el campo de la Minería de Datos ejemplo: CART/MARS, IBM- I-Miner, Angoss, Megaputer PolyAnalyst, KXEN estas abarcan principalmente mètodos estadísti- cos y de visualización combinados con algorit- mos mas propios de Minería de Datos. El grado de eficiencia de cada herramineta depende de múl- tiples factores: tipos de algoritmos, funciones de tratamiento de la información, eficiencia de los algoritmos, generadores de informes, formas de pasar la información. Estas herramientas aportan múltiples ventajas para los campos de investi-
  • 9. 80 Figura 1. Herramientas de Minería de Datos usadas habitualmente (KDnuggets, 2002). gación y docencia en el aprendizaje y desarrollo de la Minería de Datos, nos han demostrado que tienen grandes ventajas. ¿Por qué usar Minería de Datos? Ahorra grandes cantidades de dinero a una em- presa y abre nuevas oportunidades de negocios. Contribuye a la toma de decisiones tácticas y es- tratégicas. Proporciona poder de decisión a los usuarios del negocio, y es capaz de medir las acciones y resul- tados de una mejor forma. Genera modelos descriptivos: permite a empre- sas, explorar y comprender los datos e identificar patrones, relaciones y dependencias que impac- tan en los resultados finales. Genera modelos predictivos: permite que relacio- nes no descubiertas a través del proceso de la Minería de Datos sean expresadas como reglas de negocio. La Minería de Datos se presenta como una tec- nología de apoyo para explorar, analizar, com- prender y aplicar el conocimiento obtenido usando grandes volúmenes de datos y descubrir patrones que ayuden a la identificación de estruc- turas en los datos. Los productos a comercializar son costosos y re- quieren de mucha experiencia para su utilización. Es muy fácil hallar patrones equívocos o no in- teresantes. La aplicación de estas herramientas ayuda en el proceso de toma de decisión de las organizacio- nes. Conclusiones Berry, M.J. y G. Linoff, Data Mining Techniques For Marketing, Sales and Customer Support. 1997. Bigus, JP. Data Mining with Neural Networks 1996. Disponible en: http://www. megaputer.com Delve Projects. Data for Evaluating Learning in Valid Experiments. Disponible en: http:// www.cs.utoronto.ca/~delve/index.html Hand, D., H. Mannila, and P. Smyth, Principles of Data Mining. London: The MIT Press., 2001. Gonzalez, P.P., Desarrollo de tecnicas de mineria de datosenprocesosindustriales:Modelizacion en lineas de produccion de acero. Julio de 2006: Universidad de la Rioja. KDnuggets. Data mining tools you regularly use. junio 2002 . Disponible en: http:// www.kdnuggets.com/polls/2002/data_ mining_tools.htm Machine Learning Group at University of Waikato Data Mining Software in Java. Disponible en:http://www.cs.waikato.ac.nz/ml/ weka/ Piatetsky-Shapiro, G. y W. J Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991. Siebes, A., Data Mining and Statistics. 2000. Thuraisingham, B. Data Mining. Technologies, Techniques, Tools and Trends CRC Press LLC, 1999. Wang, X.Z., Data Mining and Knowledge Discovery For Process Monitoring and Control. 1999, London: Ed. Springer. Witten, I.H. y E. Frank, Data Mining. Practical Machine Lerning Tools and Techniques with Java Implementations. 2000: San Francisco, California. Referencias