2. Minería De Datos
Es un campo de las ciencias de la
computación referido al proceso que intenta
descubrir patrones en grandes volúmenes de
conjuntos de datos.
En general, la minería de datos (DM, Data Mining) es
el proceso de analizar los datos desde diferentes
perspectivas y resumiéndolos en información útil -
información que se puede utilizar para aumentar los
ingresos, reducir los costos, o ambas cosas.
Las bases de la minería de datos se encuentran en
la inteligencia artificial y en el análisis estadístico.
Mediante los modelos extraídos utilizando técnicas
de minería de datos se aborda la solución a
problemas de predicción, clasificación y
segmentación.
El objetivo general del proceso de minería de datos
consiste en extraer información de un conjunto de
datos y transformarla en una estructura
comprensible para su uso posterior.
4. ¿Que Puede Hacer la Mineria de Datos?
La minería de datos se utiliza sobre todo hoy en día por las empresas con un enfoque
fuerte en los consumidores – comunicaciones, comercio, finanzas, y las organizaciones
de comercialización. Esto permite que las empresas determinen las relaciones entre los
factores "internos" como el precio, posicionamiento del producto, o las habilidades del
personal, y factores "externos", como los indicadores económicos, la competencia, y la
demografía de los clientes.
Con la minería de datos, un minorista puede utilizar los registros de puntos de venta de
compras de los clientes para enviar promociones específicas basadas en el historial de
compras de un individuo. Minando datos demográficos de las tarjetas de comentarios o
de garantía, el distribuidor podría desarrollar productos y promociones para atraer a
segmentos específicos de clientes.
5. Principales Caracteristicas
• Explorar los datos que se encuentran
en las profundidades de las bases de
datos, o almacenes de datos, que
algunas veces contienen información
almacenada durante varios años.
• El entorno de la minería de datos suele
tener una arquitectura cliente-servidor.
• Las herramientas de la minería de
datos ayudan a extraer el mineral de la
información enterrado en archivos
corporativos o en registros públicos
archivados.
• Las herramientas de la minería de
datos se combinan fácilmente y pueden
analizarse y procesarse rápidamente.
• La minería de datos produce cinco
tipos de información:
- Asociaciones.
- Secuencias.
- Clasificaciones.
- Agrupamientos.
- Pronósticos.
6. QUE
INFRAESTRUCTUR
A TECNOLOGICA
REQUIERE
Hoy en día, las aplicaciones de minería de datos están
disponibles en sistemas de todo tamaño, para mainframe,
cliente / servidor, y para PC. Los precios de sistemas van
desde varios miles de dólares para las aplicaciones más
pequeñas hasta 1 millón de dólares por terabyte en los
más grandes. Las aplicaciones a nivel de empresa, en
general, varían en tamaño desde 10 gigabytes a más de
11 terabytes. NCR tiene la capacidad de ofrecer
aplicaciones de más de 100 terabytes. Hay dos factores
tecnológicos críticos:
• Tamaño de la base de datos: entre más datos haya en
proceso y siendo mantenidos, más poderoso es el sistema
requerido.
• Complejidad de consultas: entre más complejas las
consultas y mayor el número de consultas en proceso,
más poderoso debe ser el sistema requerido.
7.
8. Equipo de Trabajo
Para lograr un resultado óptimo en un proyecto de minería de datos, el equipo de trabajo debe incluir:
- expertos en manipulación de datos
- expertos en inteligencia artificial y en algoritmos de extracción de conocimiento
- conocedores del dominio de aplicación o con habilidades para comunicarse con los expertos
- analistas de negocio
9. Dominio de Aplicación.
EJEMPLOS:
medicina: encontrar la probabilidad de una respuesta satisfactoria a un tratamiento
médico.
Finanzas.
Compañías de inversión hacen transacciones en la bolsa de valores basándose en
resultados de Minería de Datos.
Predicción de flujo de efectivo.
análisis de canastas de mercado para mejorar la organización de tiendas,
segmentación de mercado (clustering).
mercadotecnia: identificar clientes susceptibles de responder a ofertas de productos
y servicios por correo, fidelidad de clientes, afinidad de productos, etc.
Web.
Analizar logs en general.
Analizar el comportamiento de los usuarios de un sitio.
Analizar el comportamiento de los usuarios de un sitio.
Recursos Humano.
Ayudar a seleccionar empleados.
E-Mail.
Clasificar e-mail y repartirlos al departamento adecuado.
Detección de Fraude.
Utilizan bases de datos históricas para crear modelos de
comportamiento fraudulento y utilizar Minería de Datos para
identificar nuevos fraudes.
Como. Seguros de autos, Seguros médicos, Lavado de dinero,
Telefónicos, Tratamiento medico inapropiado etc.
aspectos climatológicos: predicción de tormentas, etc.
Deportes.
Para interpretar las estadísticas.
Aplicaciones en campos muy diversos:
Medicina.
Economía.
Comercio.
Marketing.
Telecomunicaciones.
Seguridad.
10. Tecnicas y Herramientas
Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas
técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos
para obtener unos resultados.
Las técnicas más representativas son:
Redes Neuronales: Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma
en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas
en una red que colabora para producir un estímulo de salida.
Árboles de Decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la
inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas,
muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar
una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.
12. Técnicas de Extracción de
Conocimiento
Técnicas descriptivas Técnicas predictivas
Segmentación de datos
• Agrupación no supervisada de clientes
• Categorización automática de sucursales
Análisis de patrones secuenciales
• Detección de secuencias de compra en el tiempo
Clasificación
• Asignación de nuevos clientes a segmentos
predefinidos
• Identificación de alarmas
Análisis de similitud en series temporales
• Identificación de pautas de compra en el tiempo
Análisis de asociaciones
• Análisis de venta cruzada de productos
• Correlación de hábitos de consumo en base a su
ocurrencia
Predicción
• Asignación de probabilidades de fraude con tarjetas
• Estimación de la demanda y el rendimiento por
cliente
14. Algoritmos de Minería de Datos
Se clasifican:
Supervisados o Predictivos: predicen un dato (o un conjunto de ellos) desconocido a priori, a partir
de otros conocidos.
No Supervisados o de Descubrimiento del Conocimiento: Descubren patrones y tendencias en los
datos actuales (no utilizan datos históricos). El descubrimiento de esa información sirve para llevar a
cabo acciones y obtener un beneficio (científico o de negocio) de ellas.
15. Algoritmos de Minería de Datos
Técnicas de Inferencia Estadística: son los únicos medios para analizar los datos en el pasado. Es
una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños
experimentales y en la regresión para indicar los diferentes factores que modifican la variable de
respuesta, no se puede estudiar la Minería de Datos sin conocimientos previos de estadística
Visualización son apropiadas para identificar patrones ocultos en un conjunto de datos, usualmente son
usadas al comienzo de un proceso de Minería de Datos para determinar la calidad del conjunto de datos.
Los modelos de visualización pueden ser bidimensionales, tridimensionales o incluso
multidimensionales, se han desarrollado varias herramientas de visualización para integrarse con las
bases de datos ofreciendo una visualización de forma interactiva a la Minería de Datos.
16. Algoritmos de Minería de Datos
Razonamiento Basado en Memoria a partir de las características de los registros conocidos realiza la
predicción y clasificación para los nuevos, se considera una técnica directa de Minería de Datos que
utiliza instancias conocidas como modelo para realizar predicciones sobre instancias desconocidas.
- Primero calcula la "distancia" entre los datos y los registros contenidos en el conjunto de datos de
formación, los resultados determinan qué registros de califican para ser considerados como vecinos
para el registro de datos entrantes.
- Segundo, el algoritmo utiliza una función de combinación para combinar los resultados de las distintas
funciones de distancia para obtener la respuesta final.
Detección de Conglomerados En ésta técnica se realizan búsquedas en los datos por medio de un
algoritmo para la detección de grupos o conjuntos de elementos de datos que son similares entre sí, ya
que se espera que los clientes similares o productos similares tiendan a comportarse de la misma
manera.
17. Algoritmos de Minería de Datos
Análisis de Vínculos Esta técnica es muy útil para identificar las relaciones entre registros aplicando
modelos basados en descubrimiento de patrones presentes en los datos.
Dependiendo de los tipos de descubrimiento de conocimiento, las técnicas de análisis de vínculos tienen
tres tipos de aplicaciones:
- Descubrimiento de Asociaciones: Las asociaciones son las afinidades entre los elementos, encuentran
sistemática y eficientemente combinaciones donde la presencia de un elemento sugiere la presencia de
otro.
- Descubrimiento de Patrones Secuenciales: estos algoritmos se encargan de descubrir patrones en una
serie de registros, donde un grupo de elementos sigue otro grupo específico. (se debe tener la fecha y
el tiempo como elementos de datos para permitir el descubrimiento de patrones secuenciales. )
- Descubrimiento de Secuencias de Tiempo Similares: Esta técnica depende de la disponibilidad de las
secuencias de tiempo, encuentra una secuencia de acontecimientos y luego viene con otras secuencias
similares de acontecimientos.
18. Algoritmos de Minería de Datos
Árboles de Decisión Esta técnica se aplica a la clasificación y predicción. Los árboles de decisión son
estructuras que representan conjuntos de decisiones, y estas decisiones generan reglas para la
clasificación de un conjunto de datos.
- son fáciles de usar, admiten atributos discretos y continuos, tratan bien los atributos no significativos, los
valores faltantes y los datos incongruentes que se puedan presentar en el conjunto de datos.
- Son bastante eficientes y obtienen resultados para clasificación, los métodos obtenidos se pueden
expresar como conjuntos de reglas.
- Uno de los inconvenientes de los árboles de decisión es su limitada expresividad y que son inestables
ante variaciones de la muestra.
19. Algoritmos de Minería de Datos
Redes Neuronales simulan el cerebro humano mediante el aprendizaje de un conjunto de datos de
formación y la aplicación del aprendizaje para generalizar los patrones para la clasificación y predicción.
consisten en modelos predecibles, no lineales que aprenden a través del entrenamiento, generalizando
los patrones que se encuentran en él, para clasificarlos y hacer pronósticos con ellos.
- Estos algoritmos son eficaces cuando los datos carecen de un patrón aparente.
- Las redes Las redes neuronales son ampliamente usadas para detectar actividades fraudulentas. Su
ventaja principal es que, cuando están bien ajustadas, obtienen precisiones muy altas. Además son muy
expresivas y permiten capturar modelos no lineales.
- Entre sus inconvenientes se suelen nombrar su sensibilidad a valores anómalos, aunque son robustos
frente a pocas incongruencias que se puedan presentar en los datos y a los atributos no significativos
- Necesitan muchos ejemplos para el aprendizaje y son relativamente lentas, además de que en la
mayoría de los casos son bastante incomprensibles.
20. Algoritmos de Minería de Datos
Algoritmos Genéticos: tienen algo en común con las redes neuronales ya que ésta técnica también
tiene su base en la biología.
Los algoritmos genéticos aplican los mecanismos de la genética y de la selección natural para buscar
conjuntos óptimos de parámetros que describan una función de predicción.
Esta técnica utiliza un proceso muy iterativo de selección, cruzado, y de mutación de operadores,
evolucionando las sucesivas generaciones de modelos. En cada iteración, cada modelo compite con todos
los otros modelos por la herencia de los rasgos de los anteriores hasta que sólo el modelo más predictivo
sobrevive.
21. OLAP vs Minería de Datos
El análisis que realizan las herramientas OLAP es dirigido por el usuario, son consultas lanzadas sobre
cubos OLAP que tienen la información pre calculada y almacenada. Por el contrario, la minería de datos
permite razonar de forma inductiva a partir de lo que se llaman vistas "minables" de datos para llegar a
una hipótesis general que modele el problema.
VS
22. Minería De Datos y su relación con el
Data Warehouse
Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de
productos orientados al almacenamiento, extracción análisis de datos.
Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en
computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías
generadas para permitir a los usuarios navegar a través de los datos en tiempo real.
Data Mining está soportado por las siguientes tecnologías:
- Soportes de almacenamiento masivo de datos
- Potentes computadoras con multiprocesadores
- Data Warehouse
- Algoritmos de Minería de datos
23. HERRAMIENTAS
DE SOFTWARE
Existen muchas herramientas de software
para el desarrollo de modelos de minería de
datos tanto libres como comerciales como,
por ejemplo:
Comerciales.
SPSS Clementine (software)
SAS Enterprise Miner
DataEngine
Intelligent Miner / DB2 Data Warehouse
Edition (IBM)
Código Libre.
Weka
Orange
RapidMiner (AGPL)
24. BIBLIOGRAFÍA
Inteligencia en Redes de Comunicaciones (Julio Villena Román, Raquel M. Crespo García, José Jesús
García Rueda). http://ocw.uc3m.es/ingenieria-telematica/inteligencia-en-redes-de-
comunicaciones/material-de-clase-1/07-mineria-de-datos
Marcano, Yelitza. Talavera, Rosalba (2007) Minería de Datos como soporte a la toma de decisiones
empresariales Universidad del Zulia. http://www.scielo.org.ve/scielo.php?script=sci_arttext&pid=S1012-
15872007000100008
Técnicas de Minería de Datos (Egonzalez) http://www.monografias.com/trabajos55/mineria-de-
datos/mineria-de-datos.shtml
Mineria de Datos (Ceron Reyes Maria de los Angeles, Gomez Diaz Haydee).
https://es.slideshare.net/04071977/mineria-de-datos
Mineria De Datos - Universidad Popular Del Cesar (Chaparro Delvis, Niebles Jaider, Pemberthy Luis,
Rios Karen). http://es.calameo.com/read/003868884af2b7ac6c313
Bases de datos OLTP y OLAP. http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx