SlideShare una empresa de Scribd logo
1 de 31
Aplicaciones Difusas:
Limpieza de datos, resolución de
entidades, integración de datos y
extracción de información
Autor(es): • Mtr. Luis Fernando Aguas
Perspectiva histórica de los Sistemas de
Información
Primeros sistemas de información basados en aplicaciones.
Generan ficheros específicos y/o utilizan bases de datos normalmente
heterogéneas entre ellas donde almacenan la información.
Diseño marcado por las necesidades puntuales del día a día de
diferentes departamentos del negocio.
La integración entre aplicaciones no era un objetivo.
Aunque la tecnología ha mejorado, perdura la falta de integración,
consistencia, coherencia (limitaciones) , sin embargo la demanda de
información crece.
Problema: Las aplicaciones siguen profundamente marcadas por las
primeras consideraciones que dirigieron su desarrollo.
La arquitectura sobre la que se construyeron estas aplicaciones
(OLTP) no es válida para soportar las necesidades de los sistemas de
información de gestión actuales.
En estos sistemas la arquitectura de los datos nunca fue un objetivo
del negocio.
Nacimiento del concepto
Data Warehouse
La complejidad y dinamismo de la “economía digital” han situado en
un lugar predominante a los gestores, desvelando las dificultades de
acceso a la información de la empresa.
La calidad y disponibilidad de la información se convierte en un
objetivo primordial del negocio.
Se apunta como primera solución crear una gran base de datos
virtual para integrar los datos de las aplicaciones existentes, una vez
que hayan sido depurados y reconciliadas sus disparidades. Esto
posibilitará que los datos sean utilizados para la gestión.
La solución pasa por separar el procesamiento en dos grandes
categorías
Proceso Operacional (OLTP).
Procesamiento para el sistema de soporte de decisiones (OLAP/DSS/DM).
Como consecuencia de lo anterior aparece el concepto de
Definición Data Warehouse
Data Warehousing / Data Warehouse / DW
(Almacenes de datos)
“El Data Warehouse es un componente de la arquitectura de
sistemas, temático, integrado, no volátil y dependiente del
tiempo diseñado para ayudar en la toma de decisiones.”
[W. H. Inmon (considerado el padre del concepto DW) – 1992]
“Conjunto de tecnologías de soporte a la toma de decisión,
cuyo objeto es que quien trabaja con los conocimientos
(ejecutivo, director, analista) pueda tomar decisiones de
manera más rápida y eficaz.”
[Chaudhuri y Dayal – 1997]
Pero…, ¿Qué es un Data Warehouse?
El DW es un conjunto de tecnologías, NO UN PRODUCTO. Debe
construirse, paso a paso.
Es una arquitectura que debe construirse de acuerdo a las
necesidades y entorno específico del cliente, y debe construirse
de manera ITERATIVA, para consolidar y administrar datos de
varias fuentes con el propósito de conseguir en un período de
tiempo aceptable y gracias a las nuevas capacidades de
procesamiento y técnicas analíticas:
Responder preguntas de negocio (OLAP - Análisis de datos)
Ayudar en la toma de decisiones (DSS – EIS)
Descubrir conocimiento (Data Mining - Minería de datos)
El Data Warehouse es una arquitectura bien definida cuyo
objetivo inicial es satisfacer la demanda de los gestores de
obtener una visión integrada de la empresa y su entorno.
Terminología y definiciones
OLAP (On-Line Analytical Processing o procesamiento analítico on-line)
Se define como análisis rápido de información multidimensional compartida.
[Richard Creeth, Nigel Pendse]
Herramientas OLAP (para análisis de datos en DW):
Frontales para el acceso a los datos del DW (o bases de datos multidimensionales también denominadas
OLAP) basados en el modelo de datos multidimensional.
DSS (Decision-Support Systems o sistemas de soporte a la toma de decisiones)
EIS (Executive Information Systems o sistemas de información ejecutiva)
Hacen alusión a las herramientas para obtener datos de nivel superior del DW para la toma de
decisiones.
Herramientas DSS / EIS:
Objetivo: apoyar la toma de decisiones mediante la aplicación de modelos matemáticos y estadísticos, o de
conocimiento específico a un problema particular.
Son un sistema integrado de planificación y tratamiento de la información que incorpora la habilidad de
consultar los datos del DW en una forma determinada, analizar la información obtenida y predecir, en base a
unos determinados modelos, el impacto de las futuras decisiones antes de llevarlas a la práctica.
DM (Data Mining o minería de datos)
Se emplea como parte del proceso de descubrir conocimiento:
Reglas de asociación, Patrones secuenciales, Árboles de clasificación.
Objetivos:
Predicción, Identificación, Clasificación, Optimización.
Terminología y definiciones
BI (Business Intelligence)
Considerado como una Tecnología de Información
Describe un conjunto de conceptos y métodos diseñados para mejorar la
toma de decisiones en los negocios a través del uso de sistemas basados
en hechos. Los sistemas basados en hechos abarcan:
Sistemas de información ejecutiva - EIS (Executive Information Systems)
Sistemas de soporte a la toma de decisiones - DSS (Decision-Support
Systems)
Procesamiento analítico on-line - OLAP (On-Line Analytical Processing)
Minería de datos - DM (Data Mining)
Herramientas de visualización de datos – Data Visualization
Sistemas de información Geográfica - Geoghaphic Information Systems
[Howard Dresner]
Es el conjunto de tecnologías que permiten a las empresas utilizar la
información disponible en cualquier parte de la organización para hacer
mejores análisis, descubrir nuevas oportunidades y tomar mejores
decisiones estratégicas.
Terminología y definiciones
Metadata en un Data Warehouse
Metadata es la información sobre los datos que se introducen,
transforman y existen en el DW. (Datos acerca de los datos)
Metadata normalmente incluye los siguientes elementos:
Las estructuras de datos.
Las definiciones del sistema de registro desde el cual se construye el
DW.
Las especificaciones de transformaciones de datos que deben
realizarse para la carga de nuevos datos en el DW desde las fuentes
de datos.
El modelo de datos del DW.
Información de cuando los nuevos elementos de datos se agregan al
DW y cuando los elementos de datos antiguos se eliminan o se
resumen.
Los niveles de sumarización, el método de sumarización y las tablas
de registros de el DW.
Sistemas operacionales (OLTP) vs
Sistemas analíticos (OLAP, DSS, DM)
Sistema Operacional (BD tradicional) Sistema Analítico (DW o almacén de datos)
Almacena datos actuales Almacena datos históricos
(datos tienen clave de tiempo)
Almacena datos de detalle Almacena datos de detalle y datos agregados
a distintos niveles
Los datos son dinámicos (actualizables) Los datos son principalmente estáticos
Las actualizaciones no suelen estar
programadas
Las actualizaciones son escasas y
programadas, incremental a intervalos regulares
Los procesos (transacciones) son repetitivos Los procesos no son previsibles
Dedicado al procesamiento de transacciones Dedicado al análisis de datos
Orientado a los procesos operativos Orientado a la obtención de información
Soporta decisiones diarias (corto plazo) Soporta decisiones estratégicas
(medio y largo plazo)
Sirve a muchos usuarios Sirve a técnicos de dirección pocos usuarios*
Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos
Modelo de datos relacional (normalmente) Modelo de datos multidimensional
Base de Datos operativa vs
Data Warehouse
Una base de datos operativa:
Almacena la información de un sector del negocio.
Se actualiza a medida que llegan datos que deban ser almacenados.
Se opera mediante los cuatro mecanismos clásicos “añadir-eliminar-modificar-
consulta”.
Normalmente se orienta hacia la elaboración de informes periódicos.
Suele manejar “pequeños” volúmenes de datos.
Entorno optimizado para muchas transacciones (con gran cantidad de actualizaciones).
Sirve de infraestructura al día a día de las funciones de explotación de una empresa.
Un Data Warehouse:
Almacena información integrada de los distintos sectores del negocio.
Su actualización se realiza a intervalos regulares (típicamente una al día) dentro de un
proceso controlado, y tras realizar un preprocesado de los datos que se van a
almacenar.
Su orientación es hacia la consulta del estado del negocio y obtención de información
para ayuda en la toma de decisiones estratégicas.
Se ofrece información bajo demanda (análisis mediante el uso de herramientas de
generación de informes que consultan el data warehouse).
Refleja el modelo de negocio, frente al modelo de proceso.
Características de un Data Warehouse
Un DW es normalmente un almacén de datos integrados
proveniente de fuentes diversas (datos de “una” empresa
o negocio):
Datos externos de ficheros generados por aplicaciones ad hoc.
Administración, Contabilidad, Facturación…
Datos provenientes de diferentes sistemas de BDs
transaccionales (datos operacionales), que normalmente son
heterogéneas.
Datos generados por las herramientas de análisis y de obtención
de información y conocimiento a partir de los datos originales
del DW.
Los datos almacenados en el DW mantienen series de
tiempo y de tendencia.
Mayor cantidad de datos históricos que los contenidos
normalmente por las BDs transaccionales.
Características de un Data Warehouse
Abarcan gran cantidad de datos (suelen ser del orden de
Terabytes).
Tienen un orden de magnitud (a veces dos) superior al de las
bases de datos fuente.
El volumen de datos es tratado por medio de:
Almacenes de datos en grandes empresas
Son proyectos de gran tamaño que requieren una enorme inversión
de tiempo y recursos.
*Almacenes de datos virtuales
Proporcionan vistas de bases de datos operacionales que se
materializan para un acceso eficiente.
Data marts (mercadillos de datos)
Tienen generalmente como objetivo un subconjunto de la
organización de la empresa (por ejemplo un departamento).
La tarea más difícil y que más tiempo consume en la
construcción de un DW es extraer, transformar y cargar
los datos en él.
Proceso de Extracción, Transformación y
Carga (ETL) de datos en el DW
DW
Extracción
y Limpiado
Transformación
Fuentes de Datos
Bases de datos
Ficheros
Datos
Preprocesados
Data
Warehouse
OLAP
DSS
DM
Carga
Modelado de datos:
El modelo de datos Relacional
Ejemplo de Modelo Relacional  Entidad-Relación (ER) de una empresa
Modelo de datos para DW:
El modelo de datos Relacional (KO)
Situación que se presenta para trabajar en análisis de datos en el
modelo ER:
Legibilidad limitada.
Los usuarios finales no son capaces de entender el modelo ER
(normalmente no son informáticos). Evidentemente, por tanto, no pueden
"navegar" por dicho modelo en busca de información.
Dificultad para las herramientas de consulta en el acceso a un modelo ER
general.
A menudo presentan prestaciones mediocres o inaceptables cuando se
trabaja en entornos de grandes volúmenes de información (problemas de
optimización de consultas)
La utilización de la técnica de modelado ER frustra la recuperación de
información intuitiva y con alto rendimiento (característica deseable de un
Data Warehouse).
Modelo de datos no apropiado para Almacenes de datos (DW)
Modelado de datos:
El modelo de datos multidimensional
Características del Modelo Dimensional (o
Multidimensional)
Un modelo dimensional está compuesto de:
Una tabla con una clave primaria compuesta, denominada tabla de
hechos y un conjunto de tablas más pequeñas denominadas tablas
de dimensiones.
Cada una de las tablas de dimensión tiene una clave primaria que
corresponde exactamente con uno de los componentes de la clave
compuesta de la tabla de hechos.
La tabla de hechos, debido a su clave primaria compuesta de dos o
más claves ajenas, siempre expresa una relación 'n' a 'n'. Las tablas de
hechos, además de sus campos clave, contienen una o más medidas
numéricas o "hechos", que se "dan" para la combinación de las claves
que definen cada registro.
Modelado de datos:
El modelo de datos multidimensional
Características del Modelo Dimensional (o Multidimensional)
Tiene estructura que asemeja una estrella (o un copo de nieve):
Una gran tabla central o tabla de hechos está conectada con un conjunto
de tablas (una por dimensión) dispuestas de manera radial alrededor de
esta tabla central. Recibe a menudo el nombre de "star join" o modelado
en estrella.
El modelado en estrella es altamente desnormalizado. Con ello se logra
minimizar el número de uniones y, por consiguiente, incrementar el
rendimiento de las consultas
Una variante del modelo en estrella es el modelo en copo de nieve o
snowflake. En este modelado se normalizan las dimensiones (más de una
tabla por dimensión) creando así jerarquías en las mismas y conservando
lo esencial del modelo en estrella: las tablas de hechos
 Permite el empleo de diferentes bases de datos:
Denominado ROLAP, cuando se aplica el modelo dimensional a una base
de datos relacional.
Denominado MOLAP, cuando se aplica el modelo dimensional sobre base
de datos dimensional.
Modelado de datos:
El modelo de datos multidimensional
Ejemplo de Modelo Dimensional (o Multidimensional)
Modelado de datos:
El modelo de datos multidimensional
Visualización del Modelo Dimensional mediante representación en cubo
Modelado de datos:
El modelo de datos multidimensional
Las herramientas OLAP permiten navegar a través de los datos
almacenados en un modelo de datos dimensional para
analizarlos dinámicamente desde una perspectiva
multidimensional, es decir, considerando unas variables en
relación con otras y no de forma independiente entre sí,
permitiendo enfocar el análisis desde distintos puntos de vista
(por ejemplo se podría rotar el cubo de datos anterior para
mostrar las ventas por producto a modo de filas). Esta visión
multidimensional de los datos puede visualizarse como un
“cubo de Rubik”, que puede girarse para examinarlo desde
distintos puntos de vista, y del que se pueden seleccionar
distintas “rodajas” o “cubos” dependiendo de los aspectos de
interés para el análisis.
Modelo de datos para DW:
El modelo de datos multidimensional
Situación que se presenta para trabajar en análisis de los
datos en el modelo Dimensional
El modelo de datos es intuitivo.
Es el mismo que manejan habitualmente los usuarios finales:
Ejecutivos, Directivos y Analistas.
Permite a las herramientas OLAP analizar los datos desde una
perspectiva multidimensional (una tabla de hechos puede verse
desde la perspectiva de varias tablas de dimensiones – técnica
denominada pivotación o rotación).
Permite crear fácilmente representaciones jerárquicas:
Exploración ascendente (roll-up)
Desplaza la jerarquía hacia arriba agrupando en unidades mayores (de
grano más grueso) a través de una dimensión (por ejemplo, resumiendo
los datos semanales en trimestrales o anuales)
Exploración descendente (drill-down)
Se da una visión más concreta (de grano más fino), por ejemplo,
disgregar las ventas por provincias en ciudades, y clasificar los productos
por tipos o categorías.
Modelo de datos para DW:
El modelo de datos multidimensional
Situación que se presenta para trabajar en
análisis de los datos en el modelo Dimensional
Las ampliaciones del modelo son sencillas y
transparentes para las aplicaciones y consultas que
ya trabajan con el modelo:
Añadir nuevos atributos a la tabla de hechos
Añadir nuevas tablas de dimensiones
Existe un número creciente de utilidades
administrativas y aplicaciones que gestionan y
utilizan los agregados (dependientes del modelo
dimensional).
Los agregados son resúmenes de registros (redundantes
con la información ya existente en el DW) y son empleados
para mejorar el rendimiento de las consultas.
Pasos para el desarrollo de un DW
Identificar los requerimientos de usuario y delimitar el ámbito del
proyecto.
Desarrollar el modelo de datos lógico del DW (modelo de datos
dimensional).
Implementar la arquitectura (seleccionar tecnologías, hardware y
software) que constituirá la infraestructura del DW.
Implementar físicamente el modelo lógico de datos  crear la base
de datos.
Identificar las fuentes de datos -sistemas operacionales y/o
externos- del DW.
Describir los procesos de conversión necesarios para la
incorporación de los datos origen al DW.
Pasos para el desarrollo de un DW
Documentar el metadata del DW.
Seleccionar y/o desarrollar los programas de extracción, limpieza,
conversión e integración de los datos fuente.
Cargar la base de datos del DW con los programas anteriores.
Verificar con el usuario final la calidad de los datos, disponibilidad y
rendimiento.
El siguiente paso “debería” ser reconstruir de forma incremental
(iteraciones), las entradas al sistema de procesamiento para
establecer un entorno bien definido que permita las cargas
automáticas de datos, y a lo largo del tiempo, eliminar
completamente todas las aplicaciones viejas, desintegradas y con
problemas de mantenimiento.
Software en un Data Warehouse
Bases de datos usadas para data warehouse
PRODUCTO (EMPRESA DISTRIBUIDORA)
Adabas D (Software AG)
Advanced Pick (Pick Systems)
DB2 (IBM)
Fast-Count DBMS (MegaPlex Software)
HOPS (HOPS International)
Microsoft SQL Server (Microsoft)
Model 204 (Computer Corporation of America)
NonStop SQL (Tandem)
Nucleus Server (Sand Technology Systems)
OnLine Dynamic Server (Informix)
Extended Parallel Server (Informix)
OpenIngres (Computer Associates)
Oracle Server (Oracle)
Rdb (Oracle)
Red Brick Warehouse (Red Brick Systems)
SAS System (SAS)
Sybase IQ (Sybase)
Sybase SQL Server, SQL Server MPP (Sybase)
SymfoWARE (Fujitsu)
Teradata DBS (NCR)
THOR (Hitachi)
Time Machine (Data Management Technologies,
Inc.)
Titanium (Micro Data Base Systems, Inc.)
Unidata,Unidata (Inc.)
UniVerse (VMARK)
Vision (Innovative Systems Techniques, Inc.)
WX9000 (White Cross Systems, Inc.)
XDB Server (XDB Systems, Inc.)
Datos de Software obtenidos del manual para la construcción de un Data Warehouse
referenciado en la bibliografía.
Software en un Data Warehouse
Herramientas de consulta y reporte
PRODUCTO (EMPRESA DISTRIBUIDORA)
Access (Microsoft)
Access+ (Sonetics)
Actuate Reporting System (Actuate Software
Corporation)
AMIS Information Server (Hoskyns Group plc)
Application System (IBM)
Approach (Lotus Corporation)
ARPEGGIO (Wall Data Inc.)
APTuser (International Software Group)
AS/Access for Microsoft Access (Martin Spencer &
Associates)
ASK Joe (Information Management Services)
aXcess/400 (Glenbrook Software)
BrioQuery (Brio Technology)
Business Objects (Business Objects, Inc.)
Crystal Reports, Crystal Info (Seagate Software)
d.b. Express (Computer Concepts Corp.)
Databoard, Dataread (SLP Infoware)
DataDirect Explorer (Intersolv)
DataSite (NetScheme Solutions, Inc.)
DB Publisher (Xense Technology Inc.)
DbPower (Db-Tech Inc.)
Decision Analyzer (Decisión Technology)
DECquery, DECdecision (Touch Technologies, Inc.)
Discoverer, Discoverer/2000 (Oracle Corporation)
DS Server, DS Modeler (Interweave)
EasyReporter (Speedware Corporation)
Eclipse Query/Report (Cornut Informatique)
ELF (ELF Software)
English Wizard (English Wizard)
EnQuiry (Progress Software)
Esperant (Speedware)
FOCUS Six (Information Builders, Inc.)
4S-Report (Four Seasons Software, Inc)
Freequery (Dimension Software Systems)
Front & Center for Reporting, Nomad (Thomson
Software Products)
GQL (Andyne)
HarborLight (Harbor Software)
HP Information Access (Hewlett-Packard)
Impress, SqlBuddy (Objective Technologies, Inc.)
Impromptu (Cognos Corporation)
InfoAssistant (Asymetrix)
InfoMaker (Powersoft Corporation)
InfoQuery (Platinum Technology, Inc.)
InfoReports (Platinum Technology, Inc.)
InformEnt Warehouse Desktop (Fiserv)
Internet DataSpot (DTL Data Technologies Ltd.)
inSight (Williams & Partner)
Interactive Query (New Generation software)
IQ/Objects, IQ/SmartServer (IQ Software Corporation)
Iridon Panorama (The Great Elk Company Limited)
Kinetix (Hilco Technologies)
LANSA/Client (LANSA USA)
MARKIS/400 (AS Software)
Nirvana (Synergy Technologies)
OR-REPORTER II (Output Reporting, Inc.)
Oracle Reports, Browser (Oracle Corporation)
Paradox (Borland)
Platinum Report Facility (Platinum Technology, Inc)
ProBit (System Builder)
Productivity Series Reports (michaels, ross & cole)
QBE Vision (Sysdeco)
QMF (IBM)
QueryObject (Cross/Z International, Inc.)
Quest (Centura Software Corporation)
R&R Report Writer (Concentric Data Systems)
Report Writer (Raima)
Reportoire (Synergistic Systems, Inc.)
Reports (Nine to Five software Co.)
ReporTool (Zen Software)
ReportSmith (Borland)
Rocket Shuttle (Rocket Software, Inc.)
Safari ReportWriter (Interactive Software Systems)
Sagent Data Mart Solution (Sagent Technology, Inc.)
SAS System (SAS Institute)
Second Wind (Anju Technologies)
Select! (Attachmate)
SEQUEL (Advanced Systems Concepts)
Snow Report Writer (Snow International Corporation)
Spectrum Writer (Pacific Systems Group)
SQLPRO Agent (Beacon Ware, Inc.)
SQR Workbench (MITI)
Strategy (ShowCase Corporation)
The Reporter (Sea Change Systems, Inc)
Unique XTRA (Unique AS)
URSA InfoSuite (Decision Support Inc.)
ViewPoint (Informix)
Viper (Brann Software)
VisPro/Reports (Hock Ware)
Visual Cyberquery (Cyberscience Corporation)
Visual Dbase (Borland)
Visual Express (Computer Associates International)
Visual FoxPro (Microsoft Corporation)
Visual Net (CNet Svenska AB)
Visualizer Query, Charts (IBM)
Voyant (Brossco Systems)
WebBiz (Cybercom Partners)
WebSeQueL (InfoSpace Inc.)
WinQL (Data Access Corporation)
Xentis (GrayMatter Software Corporation)
Software en un Data Warehouse
Herramientas de base de datos multidimensional/olap
PRODUCTO, EMPRESA DISTRIBUIDORA, TIPO
Acuity ES, Acuity Management Systems Ltd., MDDB
Acumate ES, Kenan Systems Corporation, MDDB
Advance For Windows, Lighten, Inc., MDDB
AMIS OLAP Server, Hoskyns Group plc, MDDB
BrioQuery, Brio Technology, MDDB
Business Objects, Business Objects, Inc., Relacional
Commander OLAP, Decision, Prism, Comshare Inc., MDDB
Control, KCI Computing, Relacional
CrossTarget, Dimensional Insight, MDDB
Cube-It, FICS Group, MDDB
Dataman, SLP Infoware, MDDB
DataTracker, Silvon Software, Inc., Relacional
DecisionSuite, Information Advantage, Inc., Relacional
Delta Solutions, MIS AG, MDDB
Demon for Windows, Data Command Limited, MDDB
DSS Agent, MicroStrategy, Relacional
DynamicCube.OCX, Data Dynamics, Ltd., Relacional
EKS/Empower, Metapraxis, Inc., MDDB
Essbase Analysis Server, Arbor Software Corporation, MDDB
Essbase/400, ShowCase Corporation, MDDB
Express Server, Objects, Oracle, MDDB
Fiscal, Lingo Computer Design, Inc., Relacional
Fusion, Information Builders, Inc., MDDB
FYI Planner, Think Systems, MDDB
Gentia, Planning Sciences, MDDB
Helm, Codeworks, MDDB
Holos, Holistic Systems, MDDB
Hyperion OLAP, Hyperion Software, MDDB
InfoBeacon, Platinum technology, Inc., Relacional
Informer, Reportech, MDDB/Relacional
Intelligent Decision Server, IBM, Relacional
IQ/Vision, IQ Software Corporation, Relacional
Khalix, Longview Solutions, Inc., Relacional
Lightship, Pilot Software, Inc., MDDB
Matryx, Stone, Timber, River, MDDB
MDDB Server, SAS, Relacional
Media, Speedware Corporation, MDDB
Metacube, Informix, Relacional
MIKSolution, MIK, MDDB
MIT/400, SAMAC, Inc, MDDB
MSM, Micronetics Design Corporation, MDDB
Muse, OCCAM Research Corp., MDDB
OLAP Office, Graphitti Software GmbH, MDDB
OpenOLAP, Inphase Software Limited, Relacional
Pablo, Andyne, MDDB/Relacional
MDDB: Multidimensional Data Base.
Software en un Data Warehouse
Sistemas de información ejecutivos
PRODUCTO, EMPRESA DISTRIBUIDORA, TIPO
Acuity/ES, Acuity Management Systems Limited, 1
Applixware, Applix, 1
BusinessMetrics, Valstar Systems Ltd., 1
BOARD, Pragma Inform, 1
COINS, Russell Consulting Limited, 1
ColumbusEIS, Jitcons YO, 1
Commander EIS, Comshare Inc., 1
Corporate Management/ Financial Executive Information System,
Strategic Information Associates, Inc., 1
CorVu, CorVu Pty Ltd., 1
Decision Suite, Softkit, 1
Discovery EIS, Atlantic Information Systems Ltd., 1
EIS, Inphase Software Limited, 1
Electronic Balanced Scorecard, ASI Financial Services, 1
Enterprise Periscope, Everyware Development Corp., 1
Eureka, European Management Systems, 1
ExecuSense, TLG Corporation, 1
FOCUS EIS, Information Builders, Inc., 1
Forest & Trees, Platinum Technologies, Inc., 1
iMonitor, BayStone Software, 1
InfoManager, Ferguson Information Systems, 1
Iridon Almanac, The Great Elk Company Limited, 1
InSight, Arcplan Information Services, 2
LEADER, Sterling Strategic Solutions, 1
MagnaFORUM, Forum Systems, Inc., 1
Merit, GIST, s.r.o., 1
Open EIS Pak, Microsoft, 1
Panorama Business Views, Panorama Business Views Inc., 1
Perspectives, Syntell, 1
Qbit, Zenia Software, Inc., 1
Reveal, CSD Software Inc., 1
SAS System, SAS Institute, 1
Show Business EIS, Show Business Software, 1
Tiler EIS++, Avoca Systems Limited, 1
Track, Track Business Solutions, 1
Traffic Control EIS, Research & Planning, Inc., 3
VentoMap, VentoSales, Vento Software Inc., 1
Virtual Headquarters Management System, vHQ LLC, 1
Visual EIS, Synergistic Software, 1
Visual Publisher, KMA Associates International, Inc, 1
VITAL, Braintec Corporation, 1
Wingz, Investment Intelligence Systems Group, 1
Wired for OLAP, AppSource Corporation, 1
Xecutive Pulse EIS, Megatrend Systems, Ltd., 1
TIPO
1.- Proporciona un sistema de información ejecutivo con capacidades analíticas.
2.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/3.
3.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/2 y R/3.
Data Mining (DM)
Minería de datos
Introducción
La idea clave es que los datos contienen más
información oculta de la que se ve a simple vista.
KDD (Knowlegde Discovery in Databases):
descubrimiento de conocimiento en bases de datos
KDD = proceso completo:
“extracción no trivial de conocimiento implícito, previamente
desconocido y potencialmente útil, a partir de una base de
datos”
[Frawley et al., 1991]
DM = etapa de descubrimiento en el proceso de KDD:
“paso consistente en el uso de algoritmos concretos que
generan una enumeración de patrones a partir de los datos
preprocesados”
[Fayyad et al., 1996]
Data Mining (DM)
Minería de datos
Aplicaciones
Informática:
Soporte al Diseño de Bases de Datos.
Reverse Engineering (nomalizar bases de datos desnormalizadas).
Mejora de Calidad de Datos.
Mejora de Consultas (si se descubren dependencias funcionales)
Comercio/Marketing:
Identificar patrones de compra de los clientes.
Buscar asociaciones entre clientes y características demográficas.
Predecir respuesta a campañas de marketing.
Análisis de cestas de la compra.
Banca:
Detectar patrones de uso fraudulento de tarjetas de crédito.
Identificar clientes leales.
Predecir clientes con probabilidad de cambiar su afiliación.
Determinar gasto en tarjeta de crédito por grupos.
Encontrar correlaciones entre indicadores financieros.
Identificar reglas de mercado de valores a partir de históricos.
Data Mining (DM)
Minería de datos
Aplicaciones
Seguros y Salud Privada:
Análisis de procedimientos médicos solicitados conjuntamente.
Predecir qué clientes compran nuevas pólizas.
Identificar patrones de comportamiento para clientes con riesgo.
Identificar comportamiento fraudulento.
Transportes:
Determinar la planificación de la distribución entre tiendas.
Analizar patrones de carga.
Medicina:
Identificación de terapias médicas satisfactorias para diferentes enfermedades.
Asociación de síntomas y clasificación diferencial de patologías.
Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de
riesgo/salud en distintas patologías.
Segmentación de pacientes para una atención más inteligente según su grupo.
Predicciones temporales de los centros asistenciales para el mejor uso de recursos,
consultas, salas y habitaciones.
Estudios epidemiológicos, análisis de rendimientos de campañas de información,
prevención, sustitución de fármacos, etc.

Más contenido relacionado

La actualidad más candente

Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Ris Fernandez
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosCelestino Güemes Seoane
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con PentahoDatalytics
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesDeysi Hdz
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 
Data warehouse
Data warehouseData warehouse
Data warehousemalupahu
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Data warehouse
Data warehouseData warehouse
Data warehousemaggybe
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosMaría Isabel Bautista
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dwMax Santiago
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)Sebass Osorio
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
Diseño de almacenes de datos
Diseño de almacenes de datosDiseño de almacenes de datos
Diseño de almacenes de datosUTPL UTPL
 

La actualidad más candente (20)

Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Sisinformaciom
SisinformaciomSisinformaciom
Sisinformaciom
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datos
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dw
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
Diseño de almacenes de datos
Diseño de almacenes de datosDiseño de almacenes de datos
Diseño de almacenes de datos
 

Destacado

IntraNET-Studie2014
IntraNET-Studie2014IntraNET-Studie2014
IntraNET-Studie2014Martina Thor
 
Peerius Limited Presentation 09.12.11
Peerius Limited Presentation 09.12.11Peerius Limited Presentation 09.12.11
Peerius Limited Presentation 09.12.11ssaib
 
Como enamorar a un hombre militar | Como Enamorar a un Hombre
Como enamorar a un hombre militar | Como Enamorar a un HombreComo enamorar a un hombre militar | Como Enamorar a un Hombre
Como enamorar a un hombre militar | Como Enamorar a un HombreMariana Garcia
 
2009.10.27 Dan Brown El Simbolo Perdido Washington & Masoneria
2009.10.27 Dan Brown El Simbolo Perdido Washington & Masoneria2009.10.27 Dan Brown El Simbolo Perdido Washington & Masoneria
2009.10.27 Dan Brown El Simbolo Perdido Washington & MasoneriaFrancesc Roca Presas
 
Herramientas tecnologicas y de trabajo colaborativo
Herramientas tecnologicas y de trabajo colaborativoHerramientas tecnologicas y de trabajo colaborativo
Herramientas tecnologicas y de trabajo colaborativojessjk
 
Final Resume Deepak Sir
Final Resume Deepak SirFinal Resume Deepak Sir
Final Resume Deepak SirDEEPAK GIRASE
 
Modalidades en el snowboardd
Modalidades en el snowboarddModalidades en el snowboardd
Modalidades en el snowboarddyibraum
 
email for hr practitioner
email for hr practitioneremail for hr practitioner
email for hr practitionerKlondy Ituralde
 
Lilienfelder SPÖ Rundschau, Ausgabe 4 2012
Lilienfelder SPÖ Rundschau, Ausgabe 4 2012Lilienfelder SPÖ Rundschau, Ausgabe 4 2012
Lilienfelder SPÖ Rundschau, Ausgabe 4 2012Christoph Freilinger
 
AKU Publications Catalogue
AKU Publications CatalogueAKU Publications Catalogue
AKU Publications CatalogueSikeena Ahmed
 
Dia Internacional de la Dona 2013 (matí)
Dia Internacional de la Dona 2013 (matí) Dia Internacional de la Dona 2013 (matí)
Dia Internacional de la Dona 2013 (matí) CFA Jacint Verdaguer
 
Reactive extrusion of cellulose fibes as feasible way to process value added ...
Reactive extrusion of cellulose fibes as feasible way to process value added ...Reactive extrusion of cellulose fibes as feasible way to process value added ...
Reactive extrusion of cellulose fibes as feasible way to process value added ...EuropeanPaper
 
Presentacion yanyn gerenciar la comunicación...en busca de la excelencia
Presentacion yanyn gerenciar la comunicación...en busca de la excelenciaPresentacion yanyn gerenciar la comunicación...en busca de la excelencia
Presentacion yanyn gerenciar la comunicación...en busca de la excelenciaUniversidad Dr. Rafael Belloso Chacín
 
NewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 Slideshow
NewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 SlideshowNewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 Slideshow
NewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 SlideshowDr. William J. Ward
 
etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!
etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!
etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!Werbeplanung.at Summit
 
Articulo ricardo pino marco teórico referencial de la investigación
Articulo ricardo pino  marco teórico referencial de la investigaciónArticulo ricardo pino  marco teórico referencial de la investigación
Articulo ricardo pino marco teórico referencial de la investigaciónguillo0620
 

Destacado (20)

IntraNET-Studie2014
IntraNET-Studie2014IntraNET-Studie2014
IntraNET-Studie2014
 
Peerius Limited Presentation 09.12.11
Peerius Limited Presentation 09.12.11Peerius Limited Presentation 09.12.11
Peerius Limited Presentation 09.12.11
 
Frente atlético
Frente atléticoFrente atlético
Frente atlético
 
Como enamorar a un hombre militar | Como Enamorar a un Hombre
Como enamorar a un hombre militar | Como Enamorar a un HombreComo enamorar a un hombre militar | Como Enamorar a un Hombre
Como enamorar a un hombre militar | Como Enamorar a un Hombre
 
Faringitis 50
Faringitis 50Faringitis 50
Faringitis 50
 
2009.10.27 Dan Brown El Simbolo Perdido Washington & Masoneria
2009.10.27 Dan Brown El Simbolo Perdido Washington & Masoneria2009.10.27 Dan Brown El Simbolo Perdido Washington & Masoneria
2009.10.27 Dan Brown El Simbolo Perdido Washington & Masoneria
 
Herramientas tecnologicas y de trabajo colaborativo
Herramientas tecnologicas y de trabajo colaborativoHerramientas tecnologicas y de trabajo colaborativo
Herramientas tecnologicas y de trabajo colaborativo
 
Final Resume Deepak Sir
Final Resume Deepak SirFinal Resume Deepak Sir
Final Resume Deepak Sir
 
Modalidades en el snowboardd
Modalidades en el snowboarddModalidades en el snowboardd
Modalidades en el snowboardd
 
xSpain wrap-up
xSpain wrap-upxSpain wrap-up
xSpain wrap-up
 
email for hr practitioner
email for hr practitioneremail for hr practitioner
email for hr practitioner
 
Lilienfelder SPÖ Rundschau, Ausgabe 4 2012
Lilienfelder SPÖ Rundschau, Ausgabe 4 2012Lilienfelder SPÖ Rundschau, Ausgabe 4 2012
Lilienfelder SPÖ Rundschau, Ausgabe 4 2012
 
AKU Publications Catalogue
AKU Publications CatalogueAKU Publications Catalogue
AKU Publications Catalogue
 
Dia Internacional de la Dona 2013 (matí)
Dia Internacional de la Dona 2013 (matí) Dia Internacional de la Dona 2013 (matí)
Dia Internacional de la Dona 2013 (matí)
 
Reactive extrusion of cellulose fibes as feasible way to process value added ...
Reactive extrusion of cellulose fibes as feasible way to process value added ...Reactive extrusion of cellulose fibes as feasible way to process value added ...
Reactive extrusion of cellulose fibes as feasible way to process value added ...
 
Presentacion yanyn gerenciar la comunicación...en busca de la excelencia
Presentacion yanyn gerenciar la comunicación...en busca de la excelenciaPresentacion yanyn gerenciar la comunicación...en busca de la excelencia
Presentacion yanyn gerenciar la comunicación...en busca de la excelencia
 
NewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 Slideshow
NewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 SlideshowNewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 Slideshow
NewhouseSU COM 107 Communications and Society #NH1074Ward - Ch. 8 Slideshow
 
Carnaval de veracruz
Carnaval de veracruzCarnaval de veracruz
Carnaval de veracruz
 
etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!
etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!
etailment WIEN 2016 – Jochen Felsberger – SmartInfoBroker – Beaconize It!
 
Articulo ricardo pino marco teórico referencial de la investigación
Articulo ricardo pino  marco teórico referencial de la investigaciónArticulo ricardo pino  marco teórico referencial de la investigación
Articulo ricardo pino marco teórico referencial de la investigación
 

Similar a Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Similar a Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información (20)

Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Actividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negociosActividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negocios
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
Datewarehouse.ppt
Datewarehouse.pptDatewarehouse.ppt
Datewarehouse.ppt
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
Data werehouse
Data werehouseData werehouse
Data werehouse
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
S15 bi v1-1
S15 bi v1-1S15 bi v1-1
S15 bi v1-1
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 
Almacenes de datos
Almacenes de datosAlmacenes de datos
Almacenes de datos
 
Bussines Inteligence
Bussines InteligenceBussines Inteligence
Bussines Inteligence
 
La planificacion segun_data_ware_house
La planificacion segun_data_ware_houseLa planificacion segun_data_ware_house
La planificacion segun_data_ware_house
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt
 
Datawarehouse base datos
Datawarehouse base datosDatawarehouse base datos
Datawarehouse base datos
 
data warehouse
data warehousedata warehouse
data warehouse
 

Más de Luis Fernando Aguas Bucheli (20)

EFC-ISW-Luis Fernando Aguas.pptx
EFC-ISW-Luis Fernando Aguas.pptxEFC-ISW-Luis Fernando Aguas.pptx
EFC-ISW-Luis Fernando Aguas.pptx
 
P-S2.pptx
P-S2.pptxP-S2.pptx
P-S2.pptx
 
EBTS-S1.pptx
EBTS-S1.pptxEBTS-S1.pptx
EBTS-S1.pptx
 
P-S3.pptx
P-S3.pptxP-S3.pptx
P-S3.pptx
 
EBTS-S4.pptx
EBTS-S4.pptxEBTS-S4.pptx
EBTS-S4.pptx
 
P-S4.pptx
P-S4.pptxP-S4.pptx
P-S4.pptx
 
P-S1.pptx
P-S1.pptxP-S1.pptx
P-S1.pptx
 
EBTS-S3.pptx
EBTS-S3.pptxEBTS-S3.pptx
EBTS-S3.pptx
 
EBTS-S2.pptx
EBTS-S2.pptxEBTS-S2.pptx
EBTS-S2.pptx
 
PDIDTI-S7.pptx
PDIDTI-S7.pptxPDIDTI-S7.pptx
PDIDTI-S7.pptx
 
PDIDTI-S4.pptx
PDIDTI-S4.pptxPDIDTI-S4.pptx
PDIDTI-S4.pptx
 
PDIDTI-S2.pptx
PDIDTI-S2.pptxPDIDTI-S2.pptx
PDIDTI-S2.pptx
 
PDIDTI-S1.pptx
PDIDTI-S1.pptxPDIDTI-S1.pptx
PDIDTI-S1.pptx
 
PDIDTI-S8.pptx
PDIDTI-S8.pptxPDIDTI-S8.pptx
PDIDTI-S8.pptx
 
PDIDTI-S6.pptx
PDIDTI-S6.pptxPDIDTI-S6.pptx
PDIDTI-S6.pptx
 
PDIDTI-S5.pptx
PDIDTI-S5.pptxPDIDTI-S5.pptx
PDIDTI-S5.pptx
 
PDIDTI-S3.pptx
PDIDTI-S3.pptxPDIDTI-S3.pptx
PDIDTI-S3.pptx
 
TIC-S4.pptx
TIC-S4.pptxTIC-S4.pptx
TIC-S4.pptx
 
TIC-S3.pptx
TIC-S3.pptxTIC-S3.pptx
TIC-S3.pptx
 
TIC-S2.pptx
TIC-S2.pptxTIC-S2.pptx
TIC-S2.pptx
 

Último

ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf  PARA TRABAJO SEGUROATS-FORMATO cara.pdf  PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf PARA TRABAJO SEGUROalejandrocrisostomo2
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)Ricardo705519
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...WeslinDarguinHernand
 
Quimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdfQuimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdfs7yl3dr4g0n01
 
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdfCONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdfwduranteg
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.pptjacnuevarisaralda22
 
Desigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdfDesigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdfRonaldLozano11
 
Presentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptxPresentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptxwilliam801689
 
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOeldermishti
 
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERUQUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERUManuelSosa83
 
TIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdfTIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdfssuser202b79
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxwilliam801689
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajasjuanprv
 
Minería convencional: datos importantes y conceptos
Minería convencional: datos importantes y conceptosMinería convencional: datos importantes y conceptos
Minería convencional: datos importantes y conceptosisauVillalva
 
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATevercoyla
 
Tabla de referentes empíricos para tesis-1.docx
Tabla de referentes empíricos para tesis-1.docxTabla de referentes empíricos para tesis-1.docx
Tabla de referentes empíricos para tesis-1.docxLuisJJacinto
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZgustavoiashalom
 
Tinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaTinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaAlexanderimanolLencr
 
nomenclatura de equipo electrico en subestaciones
nomenclatura de equipo electrico en subestacionesnomenclatura de equipo electrico en subestaciones
nomenclatura de equipo electrico en subestacionesCarlosMeraz16
 
Matrices Matemáticos universitario pptx
Matrices  Matemáticos universitario pptxMatrices  Matemáticos universitario pptx
Matrices Matemáticos universitario pptxNancyJulcasumaran
 

Último (20)

ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf  PARA TRABAJO SEGUROATS-FORMATO cara.pdf  PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
Quimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdfQuimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdf
 
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdfCONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt
 
Desigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdfDesigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdf
 
Presentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptxPresentación Instrumentos de Medicion Electricos.pptx
Presentación Instrumentos de Medicion Electricos.pptx
 
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVO
 
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERUQUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
 
TIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdfTIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdf
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docx
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajas
 
Minería convencional: datos importantes y conceptos
Minería convencional: datos importantes y conceptosMinería convencional: datos importantes y conceptos
Minería convencional: datos importantes y conceptos
 
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
 
Tabla de referentes empíricos para tesis-1.docx
Tabla de referentes empíricos para tesis-1.docxTabla de referentes empíricos para tesis-1.docx
Tabla de referentes empíricos para tesis-1.docx
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
 
Tinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaTinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiología
 
nomenclatura de equipo electrico en subestaciones
nomenclatura de equipo electrico en subestacionesnomenclatura de equipo electrico en subestaciones
nomenclatura de equipo electrico en subestaciones
 
Matrices Matemáticos universitario pptx
Matrices  Matemáticos universitario pptxMatrices  Matemáticos universitario pptx
Matrices Matemáticos universitario pptx
 

Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

  • 1. Aplicaciones Difusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información Autor(es): • Mtr. Luis Fernando Aguas
  • 2. Perspectiva histórica de los Sistemas de Información Primeros sistemas de información basados en aplicaciones. Generan ficheros específicos y/o utilizan bases de datos normalmente heterogéneas entre ellas donde almacenan la información. Diseño marcado por las necesidades puntuales del día a día de diferentes departamentos del negocio. La integración entre aplicaciones no era un objetivo. Aunque la tecnología ha mejorado, perdura la falta de integración, consistencia, coherencia (limitaciones) , sin embargo la demanda de información crece. Problema: Las aplicaciones siguen profundamente marcadas por las primeras consideraciones que dirigieron su desarrollo. La arquitectura sobre la que se construyeron estas aplicaciones (OLTP) no es válida para soportar las necesidades de los sistemas de información de gestión actuales. En estos sistemas la arquitectura de los datos nunca fue un objetivo del negocio.
  • 3. Nacimiento del concepto Data Warehouse La complejidad y dinamismo de la “economía digital” han situado en un lugar predominante a los gestores, desvelando las dificultades de acceso a la información de la empresa. La calidad y disponibilidad de la información se convierte en un objetivo primordial del negocio. Se apunta como primera solución crear una gran base de datos virtual para integrar los datos de las aplicaciones existentes, una vez que hayan sido depurados y reconciliadas sus disparidades. Esto posibilitará que los datos sean utilizados para la gestión. La solución pasa por separar el procesamiento en dos grandes categorías Proceso Operacional (OLTP). Procesamiento para el sistema de soporte de decisiones (OLAP/DSS/DM). Como consecuencia de lo anterior aparece el concepto de
  • 4. Definición Data Warehouse Data Warehousing / Data Warehouse / DW (Almacenes de datos) “El Data Warehouse es un componente de la arquitectura de sistemas, temático, integrado, no volátil y dependiente del tiempo diseñado para ayudar en la toma de decisiones.” [W. H. Inmon (considerado el padre del concepto DW) – 1992] “Conjunto de tecnologías de soporte a la toma de decisión, cuyo objeto es que quien trabaja con los conocimientos (ejecutivo, director, analista) pueda tomar decisiones de manera más rápida y eficaz.” [Chaudhuri y Dayal – 1997]
  • 5. Pero…, ¿Qué es un Data Warehouse? El DW es un conjunto de tecnologías, NO UN PRODUCTO. Debe construirse, paso a paso. Es una arquitectura que debe construirse de acuerdo a las necesidades y entorno específico del cliente, y debe construirse de manera ITERATIVA, para consolidar y administrar datos de varias fuentes con el propósito de conseguir en un período de tiempo aceptable y gracias a las nuevas capacidades de procesamiento y técnicas analíticas: Responder preguntas de negocio (OLAP - Análisis de datos) Ayudar en la toma de decisiones (DSS – EIS) Descubrir conocimiento (Data Mining - Minería de datos) El Data Warehouse es una arquitectura bien definida cuyo objetivo inicial es satisfacer la demanda de los gestores de obtener una visión integrada de la empresa y su entorno.
  • 6. Terminología y definiciones OLAP (On-Line Analytical Processing o procesamiento analítico on-line) Se define como análisis rápido de información multidimensional compartida. [Richard Creeth, Nigel Pendse] Herramientas OLAP (para análisis de datos en DW): Frontales para el acceso a los datos del DW (o bases de datos multidimensionales también denominadas OLAP) basados en el modelo de datos multidimensional. DSS (Decision-Support Systems o sistemas de soporte a la toma de decisiones) EIS (Executive Information Systems o sistemas de información ejecutiva) Hacen alusión a las herramientas para obtener datos de nivel superior del DW para la toma de decisiones. Herramientas DSS / EIS: Objetivo: apoyar la toma de decisiones mediante la aplicación de modelos matemáticos y estadísticos, o de conocimiento específico a un problema particular. Son un sistema integrado de planificación y tratamiento de la información que incorpora la habilidad de consultar los datos del DW en una forma determinada, analizar la información obtenida y predecir, en base a unos determinados modelos, el impacto de las futuras decisiones antes de llevarlas a la práctica. DM (Data Mining o minería de datos) Se emplea como parte del proceso de descubrir conocimiento: Reglas de asociación, Patrones secuenciales, Árboles de clasificación. Objetivos: Predicción, Identificación, Clasificación, Optimización.
  • 7. Terminología y definiciones BI (Business Intelligence) Considerado como una Tecnología de Información Describe un conjunto de conceptos y métodos diseñados para mejorar la toma de decisiones en los negocios a través del uso de sistemas basados en hechos. Los sistemas basados en hechos abarcan: Sistemas de información ejecutiva - EIS (Executive Information Systems) Sistemas de soporte a la toma de decisiones - DSS (Decision-Support Systems) Procesamiento analítico on-line - OLAP (On-Line Analytical Processing) Minería de datos - DM (Data Mining) Herramientas de visualización de datos – Data Visualization Sistemas de información Geográfica - Geoghaphic Information Systems [Howard Dresner] Es el conjunto de tecnologías que permiten a las empresas utilizar la información disponible en cualquier parte de la organización para hacer mejores análisis, descubrir nuevas oportunidades y tomar mejores decisiones estratégicas.
  • 8. Terminología y definiciones Metadata en un Data Warehouse Metadata es la información sobre los datos que se introducen, transforman y existen en el DW. (Datos acerca de los datos) Metadata normalmente incluye los siguientes elementos: Las estructuras de datos. Las definiciones del sistema de registro desde el cual se construye el DW. Las especificaciones de transformaciones de datos que deben realizarse para la carga de nuevos datos en el DW desde las fuentes de datos. El modelo de datos del DW. Información de cuando los nuevos elementos de datos se agregan al DW y cuando los elementos de datos antiguos se eliminan o se resumen. Los niveles de sumarización, el método de sumarización y las tablas de registros de el DW.
  • 9. Sistemas operacionales (OLTP) vs Sistemas analíticos (OLAP, DSS, DM) Sistema Operacional (BD tradicional) Sistema Analítico (DW o almacén de datos) Almacena datos actuales Almacena datos históricos (datos tienen clave de tiempo) Almacena datos de detalle Almacena datos de detalle y datos agregados a distintos niveles Los datos son dinámicos (actualizables) Los datos son principalmente estáticos Las actualizaciones no suelen estar programadas Las actualizaciones son escasas y programadas, incremental a intervalos regulares Los procesos (transacciones) son repetitivos Los procesos no son previsibles Dedicado al procesamiento de transacciones Dedicado al análisis de datos Orientado a los procesos operativos Orientado a la obtención de información Soporta decisiones diarias (corto plazo) Soporta decisiones estratégicas (medio y largo plazo) Sirve a muchos usuarios Sirve a técnicos de dirección pocos usuarios* Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Modelo de datos relacional (normalmente) Modelo de datos multidimensional
  • 10. Base de Datos operativa vs Data Warehouse Una base de datos operativa: Almacena la información de un sector del negocio. Se actualiza a medida que llegan datos que deban ser almacenados. Se opera mediante los cuatro mecanismos clásicos “añadir-eliminar-modificar- consulta”. Normalmente se orienta hacia la elaboración de informes periódicos. Suele manejar “pequeños” volúmenes de datos. Entorno optimizado para muchas transacciones (con gran cantidad de actualizaciones). Sirve de infraestructura al día a día de las funciones de explotación de una empresa. Un Data Warehouse: Almacena información integrada de los distintos sectores del negocio. Su actualización se realiza a intervalos regulares (típicamente una al día) dentro de un proceso controlado, y tras realizar un preprocesado de los datos que se van a almacenar. Su orientación es hacia la consulta del estado del negocio y obtención de información para ayuda en la toma de decisiones estratégicas. Se ofrece información bajo demanda (análisis mediante el uso de herramientas de generación de informes que consultan el data warehouse). Refleja el modelo de negocio, frente al modelo de proceso.
  • 11. Características de un Data Warehouse Un DW es normalmente un almacén de datos integrados proveniente de fuentes diversas (datos de “una” empresa o negocio): Datos externos de ficheros generados por aplicaciones ad hoc. Administración, Contabilidad, Facturación… Datos provenientes de diferentes sistemas de BDs transaccionales (datos operacionales), que normalmente son heterogéneas. Datos generados por las herramientas de análisis y de obtención de información y conocimiento a partir de los datos originales del DW. Los datos almacenados en el DW mantienen series de tiempo y de tendencia. Mayor cantidad de datos históricos que los contenidos normalmente por las BDs transaccionales.
  • 12. Características de un Data Warehouse Abarcan gran cantidad de datos (suelen ser del orden de Terabytes). Tienen un orden de magnitud (a veces dos) superior al de las bases de datos fuente. El volumen de datos es tratado por medio de: Almacenes de datos en grandes empresas Son proyectos de gran tamaño que requieren una enorme inversión de tiempo y recursos. *Almacenes de datos virtuales Proporcionan vistas de bases de datos operacionales que se materializan para un acceso eficiente. Data marts (mercadillos de datos) Tienen generalmente como objetivo un subconjunto de la organización de la empresa (por ejemplo un departamento). La tarea más difícil y que más tiempo consume en la construcción de un DW es extraer, transformar y cargar los datos en él.
  • 13. Proceso de Extracción, Transformación y Carga (ETL) de datos en el DW DW Extracción y Limpiado Transformación Fuentes de Datos Bases de datos Ficheros Datos Preprocesados Data Warehouse OLAP DSS DM Carga
  • 14. Modelado de datos: El modelo de datos Relacional Ejemplo de Modelo Relacional  Entidad-Relación (ER) de una empresa
  • 15. Modelo de datos para DW: El modelo de datos Relacional (KO) Situación que se presenta para trabajar en análisis de datos en el modelo ER: Legibilidad limitada. Los usuarios finales no son capaces de entender el modelo ER (normalmente no son informáticos). Evidentemente, por tanto, no pueden "navegar" por dicho modelo en busca de información. Dificultad para las herramientas de consulta en el acceso a un modelo ER general. A menudo presentan prestaciones mediocres o inaceptables cuando se trabaja en entornos de grandes volúmenes de información (problemas de optimización de consultas) La utilización de la técnica de modelado ER frustra la recuperación de información intuitiva y con alto rendimiento (característica deseable de un Data Warehouse). Modelo de datos no apropiado para Almacenes de datos (DW)
  • 16. Modelado de datos: El modelo de datos multidimensional Características del Modelo Dimensional (o Multidimensional) Un modelo dimensional está compuesto de: Una tabla con una clave primaria compuesta, denominada tabla de hechos y un conjunto de tablas más pequeñas denominadas tablas de dimensiones. Cada una de las tablas de dimensión tiene una clave primaria que corresponde exactamente con uno de los componentes de la clave compuesta de la tabla de hechos. La tabla de hechos, debido a su clave primaria compuesta de dos o más claves ajenas, siempre expresa una relación 'n' a 'n'. Las tablas de hechos, además de sus campos clave, contienen una o más medidas numéricas o "hechos", que se "dan" para la combinación de las claves que definen cada registro.
  • 17. Modelado de datos: El modelo de datos multidimensional Características del Modelo Dimensional (o Multidimensional) Tiene estructura que asemeja una estrella (o un copo de nieve): Una gran tabla central o tabla de hechos está conectada con un conjunto de tablas (una por dimensión) dispuestas de manera radial alrededor de esta tabla central. Recibe a menudo el nombre de "star join" o modelado en estrella. El modelado en estrella es altamente desnormalizado. Con ello se logra minimizar el número de uniones y, por consiguiente, incrementar el rendimiento de las consultas Una variante del modelo en estrella es el modelo en copo de nieve o snowflake. En este modelado se normalizan las dimensiones (más de una tabla por dimensión) creando así jerarquías en las mismas y conservando lo esencial del modelo en estrella: las tablas de hechos  Permite el empleo de diferentes bases de datos: Denominado ROLAP, cuando se aplica el modelo dimensional a una base de datos relacional. Denominado MOLAP, cuando se aplica el modelo dimensional sobre base de datos dimensional.
  • 18. Modelado de datos: El modelo de datos multidimensional Ejemplo de Modelo Dimensional (o Multidimensional)
  • 19. Modelado de datos: El modelo de datos multidimensional Visualización del Modelo Dimensional mediante representación en cubo
  • 20. Modelado de datos: El modelo de datos multidimensional Las herramientas OLAP permiten navegar a través de los datos almacenados en un modelo de datos dimensional para analizarlos dinámicamente desde una perspectiva multidimensional, es decir, considerando unas variables en relación con otras y no de forma independiente entre sí, permitiendo enfocar el análisis desde distintos puntos de vista (por ejemplo se podría rotar el cubo de datos anterior para mostrar las ventas por producto a modo de filas). Esta visión multidimensional de los datos puede visualizarse como un “cubo de Rubik”, que puede girarse para examinarlo desde distintos puntos de vista, y del que se pueden seleccionar distintas “rodajas” o “cubos” dependiendo de los aspectos de interés para el análisis.
  • 21. Modelo de datos para DW: El modelo de datos multidimensional Situación que se presenta para trabajar en análisis de los datos en el modelo Dimensional El modelo de datos es intuitivo. Es el mismo que manejan habitualmente los usuarios finales: Ejecutivos, Directivos y Analistas. Permite a las herramientas OLAP analizar los datos desde una perspectiva multidimensional (una tabla de hechos puede verse desde la perspectiva de varias tablas de dimensiones – técnica denominada pivotación o rotación). Permite crear fácilmente representaciones jerárquicas: Exploración ascendente (roll-up) Desplaza la jerarquía hacia arriba agrupando en unidades mayores (de grano más grueso) a través de una dimensión (por ejemplo, resumiendo los datos semanales en trimestrales o anuales) Exploración descendente (drill-down) Se da una visión más concreta (de grano más fino), por ejemplo, disgregar las ventas por provincias en ciudades, y clasificar los productos por tipos o categorías.
  • 22. Modelo de datos para DW: El modelo de datos multidimensional Situación que se presenta para trabajar en análisis de los datos en el modelo Dimensional Las ampliaciones del modelo son sencillas y transparentes para las aplicaciones y consultas que ya trabajan con el modelo: Añadir nuevos atributos a la tabla de hechos Añadir nuevas tablas de dimensiones Existe un número creciente de utilidades administrativas y aplicaciones que gestionan y utilizan los agregados (dependientes del modelo dimensional). Los agregados son resúmenes de registros (redundantes con la información ya existente en el DW) y son empleados para mejorar el rendimiento de las consultas.
  • 23. Pasos para el desarrollo de un DW Identificar los requerimientos de usuario y delimitar el ámbito del proyecto. Desarrollar el modelo de datos lógico del DW (modelo de datos dimensional). Implementar la arquitectura (seleccionar tecnologías, hardware y software) que constituirá la infraestructura del DW. Implementar físicamente el modelo lógico de datos  crear la base de datos. Identificar las fuentes de datos -sistemas operacionales y/o externos- del DW. Describir los procesos de conversión necesarios para la incorporación de los datos origen al DW.
  • 24. Pasos para el desarrollo de un DW Documentar el metadata del DW. Seleccionar y/o desarrollar los programas de extracción, limpieza, conversión e integración de los datos fuente. Cargar la base de datos del DW con los programas anteriores. Verificar con el usuario final la calidad de los datos, disponibilidad y rendimiento. El siguiente paso “debería” ser reconstruir de forma incremental (iteraciones), las entradas al sistema de procesamiento para establecer un entorno bien definido que permita las cargas automáticas de datos, y a lo largo del tiempo, eliminar completamente todas las aplicaciones viejas, desintegradas y con problemas de mantenimiento.
  • 25. Software en un Data Warehouse Bases de datos usadas para data warehouse PRODUCTO (EMPRESA DISTRIBUIDORA) Adabas D (Software AG) Advanced Pick (Pick Systems) DB2 (IBM) Fast-Count DBMS (MegaPlex Software) HOPS (HOPS International) Microsoft SQL Server (Microsoft) Model 204 (Computer Corporation of America) NonStop SQL (Tandem) Nucleus Server (Sand Technology Systems) OnLine Dynamic Server (Informix) Extended Parallel Server (Informix) OpenIngres (Computer Associates) Oracle Server (Oracle) Rdb (Oracle) Red Brick Warehouse (Red Brick Systems) SAS System (SAS) Sybase IQ (Sybase) Sybase SQL Server, SQL Server MPP (Sybase) SymfoWARE (Fujitsu) Teradata DBS (NCR) THOR (Hitachi) Time Machine (Data Management Technologies, Inc.) Titanium (Micro Data Base Systems, Inc.) Unidata,Unidata (Inc.) UniVerse (VMARK) Vision (Innovative Systems Techniques, Inc.) WX9000 (White Cross Systems, Inc.) XDB Server (XDB Systems, Inc.) Datos de Software obtenidos del manual para la construcción de un Data Warehouse referenciado en la bibliografía.
  • 26. Software en un Data Warehouse Herramientas de consulta y reporte PRODUCTO (EMPRESA DISTRIBUIDORA) Access (Microsoft) Access+ (Sonetics) Actuate Reporting System (Actuate Software Corporation) AMIS Information Server (Hoskyns Group plc) Application System (IBM) Approach (Lotus Corporation) ARPEGGIO (Wall Data Inc.) APTuser (International Software Group) AS/Access for Microsoft Access (Martin Spencer & Associates) ASK Joe (Information Management Services) aXcess/400 (Glenbrook Software) BrioQuery (Brio Technology) Business Objects (Business Objects, Inc.) Crystal Reports, Crystal Info (Seagate Software) d.b. Express (Computer Concepts Corp.) Databoard, Dataread (SLP Infoware) DataDirect Explorer (Intersolv) DataSite (NetScheme Solutions, Inc.) DB Publisher (Xense Technology Inc.) DbPower (Db-Tech Inc.) Decision Analyzer (Decisión Technology) DECquery, DECdecision (Touch Technologies, Inc.) Discoverer, Discoverer/2000 (Oracle Corporation) DS Server, DS Modeler (Interweave) EasyReporter (Speedware Corporation) Eclipse Query/Report (Cornut Informatique) ELF (ELF Software) English Wizard (English Wizard) EnQuiry (Progress Software) Esperant (Speedware) FOCUS Six (Information Builders, Inc.) 4S-Report (Four Seasons Software, Inc) Freequery (Dimension Software Systems) Front & Center for Reporting, Nomad (Thomson Software Products) GQL (Andyne) HarborLight (Harbor Software) HP Information Access (Hewlett-Packard) Impress, SqlBuddy (Objective Technologies, Inc.) Impromptu (Cognos Corporation) InfoAssistant (Asymetrix) InfoMaker (Powersoft Corporation) InfoQuery (Platinum Technology, Inc.) InfoReports (Platinum Technology, Inc.) InformEnt Warehouse Desktop (Fiserv) Internet DataSpot (DTL Data Technologies Ltd.) inSight (Williams & Partner) Interactive Query (New Generation software) IQ/Objects, IQ/SmartServer (IQ Software Corporation) Iridon Panorama (The Great Elk Company Limited) Kinetix (Hilco Technologies) LANSA/Client (LANSA USA) MARKIS/400 (AS Software) Nirvana (Synergy Technologies) OR-REPORTER II (Output Reporting, Inc.) Oracle Reports, Browser (Oracle Corporation) Paradox (Borland) Platinum Report Facility (Platinum Technology, Inc) ProBit (System Builder) Productivity Series Reports (michaels, ross & cole) QBE Vision (Sysdeco) QMF (IBM) QueryObject (Cross/Z International, Inc.) Quest (Centura Software Corporation) R&R Report Writer (Concentric Data Systems) Report Writer (Raima) Reportoire (Synergistic Systems, Inc.) Reports (Nine to Five software Co.) ReporTool (Zen Software) ReportSmith (Borland) Rocket Shuttle (Rocket Software, Inc.) Safari ReportWriter (Interactive Software Systems) Sagent Data Mart Solution (Sagent Technology, Inc.) SAS System (SAS Institute) Second Wind (Anju Technologies) Select! (Attachmate) SEQUEL (Advanced Systems Concepts) Snow Report Writer (Snow International Corporation) Spectrum Writer (Pacific Systems Group) SQLPRO Agent (Beacon Ware, Inc.) SQR Workbench (MITI) Strategy (ShowCase Corporation) The Reporter (Sea Change Systems, Inc) Unique XTRA (Unique AS) URSA InfoSuite (Decision Support Inc.) ViewPoint (Informix) Viper (Brann Software) VisPro/Reports (Hock Ware) Visual Cyberquery (Cyberscience Corporation) Visual Dbase (Borland) Visual Express (Computer Associates International) Visual FoxPro (Microsoft Corporation) Visual Net (CNet Svenska AB) Visualizer Query, Charts (IBM) Voyant (Brossco Systems) WebBiz (Cybercom Partners) WebSeQueL (InfoSpace Inc.) WinQL (Data Access Corporation) Xentis (GrayMatter Software Corporation)
  • 27. Software en un Data Warehouse Herramientas de base de datos multidimensional/olap PRODUCTO, EMPRESA DISTRIBUIDORA, TIPO Acuity ES, Acuity Management Systems Ltd., MDDB Acumate ES, Kenan Systems Corporation, MDDB Advance For Windows, Lighten, Inc., MDDB AMIS OLAP Server, Hoskyns Group plc, MDDB BrioQuery, Brio Technology, MDDB Business Objects, Business Objects, Inc., Relacional Commander OLAP, Decision, Prism, Comshare Inc., MDDB Control, KCI Computing, Relacional CrossTarget, Dimensional Insight, MDDB Cube-It, FICS Group, MDDB Dataman, SLP Infoware, MDDB DataTracker, Silvon Software, Inc., Relacional DecisionSuite, Information Advantage, Inc., Relacional Delta Solutions, MIS AG, MDDB Demon for Windows, Data Command Limited, MDDB DSS Agent, MicroStrategy, Relacional DynamicCube.OCX, Data Dynamics, Ltd., Relacional EKS/Empower, Metapraxis, Inc., MDDB Essbase Analysis Server, Arbor Software Corporation, MDDB Essbase/400, ShowCase Corporation, MDDB Express Server, Objects, Oracle, MDDB Fiscal, Lingo Computer Design, Inc., Relacional Fusion, Information Builders, Inc., MDDB FYI Planner, Think Systems, MDDB Gentia, Planning Sciences, MDDB Helm, Codeworks, MDDB Holos, Holistic Systems, MDDB Hyperion OLAP, Hyperion Software, MDDB InfoBeacon, Platinum technology, Inc., Relacional Informer, Reportech, MDDB/Relacional Intelligent Decision Server, IBM, Relacional IQ/Vision, IQ Software Corporation, Relacional Khalix, Longview Solutions, Inc., Relacional Lightship, Pilot Software, Inc., MDDB Matryx, Stone, Timber, River, MDDB MDDB Server, SAS, Relacional Media, Speedware Corporation, MDDB Metacube, Informix, Relacional MIKSolution, MIK, MDDB MIT/400, SAMAC, Inc, MDDB MSM, Micronetics Design Corporation, MDDB Muse, OCCAM Research Corp., MDDB OLAP Office, Graphitti Software GmbH, MDDB OpenOLAP, Inphase Software Limited, Relacional Pablo, Andyne, MDDB/Relacional MDDB: Multidimensional Data Base.
  • 28. Software en un Data Warehouse Sistemas de información ejecutivos PRODUCTO, EMPRESA DISTRIBUIDORA, TIPO Acuity/ES, Acuity Management Systems Limited, 1 Applixware, Applix, 1 BusinessMetrics, Valstar Systems Ltd., 1 BOARD, Pragma Inform, 1 COINS, Russell Consulting Limited, 1 ColumbusEIS, Jitcons YO, 1 Commander EIS, Comshare Inc., 1 Corporate Management/ Financial Executive Information System, Strategic Information Associates, Inc., 1 CorVu, CorVu Pty Ltd., 1 Decision Suite, Softkit, 1 Discovery EIS, Atlantic Information Systems Ltd., 1 EIS, Inphase Software Limited, 1 Electronic Balanced Scorecard, ASI Financial Services, 1 Enterprise Periscope, Everyware Development Corp., 1 Eureka, European Management Systems, 1 ExecuSense, TLG Corporation, 1 FOCUS EIS, Information Builders, Inc., 1 Forest & Trees, Platinum Technologies, Inc., 1 iMonitor, BayStone Software, 1 InfoManager, Ferguson Information Systems, 1 Iridon Almanac, The Great Elk Company Limited, 1 InSight, Arcplan Information Services, 2 LEADER, Sterling Strategic Solutions, 1 MagnaFORUM, Forum Systems, Inc., 1 Merit, GIST, s.r.o., 1 Open EIS Pak, Microsoft, 1 Panorama Business Views, Panorama Business Views Inc., 1 Perspectives, Syntell, 1 Qbit, Zenia Software, Inc., 1 Reveal, CSD Software Inc., 1 SAS System, SAS Institute, 1 Show Business EIS, Show Business Software, 1 Tiler EIS++, Avoca Systems Limited, 1 Track, Track Business Solutions, 1 Traffic Control EIS, Research & Planning, Inc., 3 VentoMap, VentoSales, Vento Software Inc., 1 Virtual Headquarters Management System, vHQ LLC, 1 Visual EIS, Synergistic Software, 1 Visual Publisher, KMA Associates International, Inc, 1 VITAL, Braintec Corporation, 1 Wingz, Investment Intelligence Systems Group, 1 Wired for OLAP, AppSource Corporation, 1 Xecutive Pulse EIS, Megatrend Systems, Ltd., 1 TIPO 1.- Proporciona un sistema de información ejecutivo con capacidades analíticas. 2.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/3. 3.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/2 y R/3.
  • 29. Data Mining (DM) Minería de datos Introducción La idea clave es que los datos contienen más información oculta de la que se ve a simple vista. KDD (Knowlegde Discovery in Databases): descubrimiento de conocimiento en bases de datos KDD = proceso completo: “extracción no trivial de conocimiento implícito, previamente desconocido y potencialmente útil, a partir de una base de datos” [Frawley et al., 1991] DM = etapa de descubrimiento en el proceso de KDD: “paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados” [Fayyad et al., 1996]
  • 30. Data Mining (DM) Minería de datos Aplicaciones Informática: Soporte al Diseño de Bases de Datos. Reverse Engineering (nomalizar bases de datos desnormalizadas). Mejora de Calidad de Datos. Mejora de Consultas (si se descubren dependencias funcionales) Comercio/Marketing: Identificar patrones de compra de los clientes. Buscar asociaciones entre clientes y características demográficas. Predecir respuesta a campañas de marketing. Análisis de cestas de la compra. Banca: Detectar patrones de uso fraudulento de tarjetas de crédito. Identificar clientes leales. Predecir clientes con probabilidad de cambiar su afiliación. Determinar gasto en tarjeta de crédito por grupos. Encontrar correlaciones entre indicadores financieros. Identificar reglas de mercado de valores a partir de históricos.
  • 31. Data Mining (DM) Minería de datos Aplicaciones Seguros y Salud Privada: Análisis de procedimientos médicos solicitados conjuntamente. Predecir qué clientes compran nuevas pólizas. Identificar patrones de comportamiento para clientes con riesgo. Identificar comportamiento fraudulento. Transportes: Determinar la planificación de la distribución entre tiendas. Analizar patrones de carga. Medicina: Identificación de terapias médicas satisfactorias para diferentes enfermedades. Asociación de síntomas y clasificación diferencial de patologías. Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo/salud en distintas patologías. Segmentación de pacientes para una atención más inteligente según su grupo. Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos, etc.