SlideShare una empresa de Scribd logo
1 de 43
1
Ing. Diana Dick – JTP SG0
INDICE
Introducción.......................................................................................................................................... 3
Principales Tipos de Sistemas en las Organizaciones ........................................................................... 3
Seis tipos principales de SI por niveles y funcionalidades................................................................ 4
Sistemas TPS (Sistemas de Procesamiento de Transacciones) – OLTP – Funciones principales,
subfunciones y aplicaciones.............................................................................................................. 5
Aplicaciones comunes de los TPS. ................................................................................................ 5
Características de los sistemas de procesamiento de la información.............................................. 5
SSD Sistemas de Soporte a decisiones.............................................................................................. 6
Definición...................................................................................................................................... 6
TRABAJO PRÁCTICO Nº 1 – (Grupal)................................................................................................... 13
Revisión temas vistos.......................................................................................................................... 15
Premisa/Realidad:........................................................................................................................... 15
Problemas con los datos o Problemas que dan origen a un Data Warehouse (Warehouse=almacén,
bodega) ............................................................................................................................................... 16
¿Cómo pasamos de dato a información? ........................................................................................... 17
1) Diferencias entre Datos Operacionales y Datos Informativos (necesarios para Data Mining y
distintos DSS) .................................................................................................................................. 17
Gráfica: Evolución desde los datos operacionales hasta la información para la Toma de
Decisiones ................................................................................................................................... 17
¿Cuáles son los requerimientos de los datos para que se transformen en información aplicable a
la Toma de Decisiones?................................................................................................................... 18
Data Warehouse como respuesta al problema de los datos, a las necesidades de información, a
la ventaja competitiva..................................................................................................................... 18
Definiciones de DW..................................................................................................................... 18
Características de un DW............................................................................................................ 18
Preguntas que puede responder:............................................................................................... 21
Fuentes de Datos ........................................................................................................................ 21
Estructura de un Data Warehouse ................................................................................................. 22
Usos del Data Warehouse............................................................................................................... 24
Perfil de las personas que utilizan un DW – Tipos de Usuario Final............................................... 27
Arquitectura de un Data Warehouse.............................................................................................. 28
Diseño y construcción de un DW.................................................................................................... 29
Elementos de la Arquitectura DW .................................................................................................. 30
1) OLTP........................................................................................................................................ 30
2) CONSOLIDACIÓN – ETL: Extraction Transformation Load...................................................... 30
Extracción.................................................................................................................................... 30
Transformación:.......................................................................................................................... 30
Carga: .......................................................................................................................................... 31
Metadatos:.................................................................................................................................. 31
3) Middleware: Componentes tecnológicos para el transporte................................................. 31
4) Herramientas de Acceso y Uso, Herramientas de Análisis..................................................... 31
5) Data Marts – DM..................................................................................................................... 32
Flujo de Datos ............................................................................................................................. 32
Cómo modelar los Datos para un Data Warehouse? ......................................................................... 33
2
Ing. Diana Dick – JTP SG0
Modelado Dimensional................................................................................................................... 33
Tablas Dimensionales................................................................................................................. 33
Tabla de hechos.......................................................................................................................... 33
Representación de los datos........................................................................................................... 34
Definiciones: ................................................................................................................................... 34
Atributos: .................................................................................................................................... 34
Facts – Hechos: ........................................................................................................................... 34
Clasificación de Hechos Numéricos ............................................................................................ 34
Tablas DW ................................................................................................................................... 35
Esquemas DW:............................................................................................................................ 35
Esquemas Estrella y Copo de nieve ................................................................................................ 36
Jerarquías de agregación ............................................................................................................ 36
¿Qué es Business Intelligence?....................................................................................................... 38
Usuarios de BI ................................................................................................................................. 39
TRABAJO PRÁCTICO Nº 2 .................................................................................................................... 40
Solución:...................................................................................................................................... 40
Pasos a seguir.................................................................................................................................. 40
Ejemplo de Consulta para Script de Extracción de Datos:.......................................................... 42
Fuentes:....................................................................................................................................... 43
3
Ing. Diana Dick – JTP SG0
Introducción
Principales Tipos de Sistemas en las Organizaciones
Las empresas en su conjunto presentan distintos intereses, especialidades y niveles, por lo tanto, distintos tipos de
requerimientos de información para distintos tipos de usuarios, y en consecuencia distintos tipos de sistemas para dar
respuesta a estos requerimientos. Un solo sistema no alcanza por una sencilla razón: un proyecto está orientado a la
aplicación/funcionalidad y ésto significa orientado a los requerimientos, según niveles organizativos y áreas funcionales.
En consecuencia:
Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial
- A nivel operativo: apoyo a gerentes operativos, actualización (insertar, borra, modificar) y seguimiento de
transacciones y actividades diarias.
Objetivo: responder a preguntas de rutina, la información debe estar disponible al simple acceso y ser actual y
precisa. Decisiones programadas, muchas automatizadas.
- A nivel de conocimiento: apoya a trabajadores del conocimiento, quienes investigan y producen conocimiento o
información nueva, perfil de usuarios: profesionales y a trabajadores de datos.
Objetivo: integrar el nuevo conocimiento en los negocios y potenciar el control del trabajo de oficina
(Ofimática)
- A nivel administrativo: para actividades de supervisión, control, administración y Toma de Decisiones de los gerentes
de nivel medio. Brindan informes periódicos. Algunos de éstos soportan decisiones no rutinarias con requisitos de
información poco claros. Pueden responder a escenarios What-If (Programación lineal por ej.). Pueden requerir datos
externos y/o datos internos que no están dados directamente por los sistemas operativos existentes.
Objetivo: responder si van bien las cosas
- A nivel estratégico: ayuda a enfoques estratégicos de negocio y tendencias a largo plazo a nivel interno como a nivel
de contexto externo.
Objetivo: su función principal es alinear la capacidad organizativa actual con los cambios del entorno, por ej.:
¿Qué productos se podrá y conviene producir dentro de 5 años?
4
Ing. Diana Dick – JTP SG0
Seis tipos principales de SI por niveles y funcionalidades
Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial
5
Ing. Diana Dick – JTP SG0
Sistemas TPS (Sistemas de Procesamiento de Transacciones) – OLTP
– Funciones principales, subfunciones y aplicaciones
Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial
Aplicaciones comunes de los TPS.
Hay cinco categorías funcionales de TPS: ventas y marketing, manufactura y producción, finanzas y contabilidad, recursos humanos y
otros tipos de sistemas específicos para una industria en particular. Cada una de estas funciones principales contiene subfunciones. Para
cada una de estas subfunciones (por ejemplo, administración de ventas) hay un sistema principal de aplicaciones.
Características de los sistemas de procesamiento de la información
Tipo de
Sistema Finalidad Entradas de Info Procesamiento Salidas de Info Usuarios
ESS
Para nivel estratégico,
decisiones no rutinarias.
Proveer capacidad general
de cómputo y
comunicaciones aplicable a
problemas cambiantes.
Datos acumulados; externos,
internos. DSS y MIS internos.
Requieren experiencia,
evaluación y comprensión.
Datos críticos
Gráficas, simulaciones,
interactivos.
Proyecciones;
respuestas a
consultas Directores
DSS
Decisiones exclusivas,
cambiantes rápidamente y
no especificadas
anticipadamente, sin
procedimiento establecido
de respuesta. Existen
distintos tipos.
Datos de bajo volumen o DB
masivas optimizadas para el
análisis de datos; modelos
analíticos y herramientas de
análisis de datos. TPS, MIS y
fuentes externas: cotizaciones
en bolsa
Interactivo, simulaciones y
análisis. Mayor poder
analítico, interacción
simple. What- if y
preguntas nuevas
Informes
especiales;
análisis de
decisiones;
respuestas a
consultas
Profesionales,
gerentes de
personal
MIS
Apoyo a las funciones de
nivel administrativo;
Datos resumidos de
transacciones; datos de alto
Informes de rutina:
modelos simples; análisis
Informes
resumidos y
Gerentes de nivel
medio, interés en
6
Ing. Diana Dick – JTP SG0
informes a gerentes y
acceso online a la
performance de la empresa.
Brindan info por períodos
de tiempo, no
diariamente***, apoyo a
Planeación, Control y TD
volumen; modelos simples.
Dependen de TPS subyacentes.
Datos internos.
de bajo nivel. Preguntas
predefinidas con
procedimiento predefinido
de respuesta. Poca
flexibilidad y poca
capacidad analítica.
excepciones informes
semanales,
mensuales y
anuales.
KWS**
Necesidades de información
al nivel del conocimiento de
la información. Ayuda a
trabajadores del
conocimiento
Especificaciones de diseño, base
del conocimiento Modelado, simulaciones
Modelos;
gráficos.
Conocimientos
nuevos.
Profesionales,
personal técnico,
producen
información
Sistemas
de
Oficina
Necesidades de información
al nivel del conocimiento de
la información. Ayuda a los
trabajadores de datos.
Distribuyen el
conocimiento. Ofimática Documentos, programas
Administración de
documentos,
programación,
comunicación
Documentos,
programas,
correo
Oficinistas,
procesan
información
TPS*
Servicio a nivel operativo,
suelen ser críticos. Para
supervisar operaciones
internas y relaciones de la
empresa con el entorno.
Info diaria Transacciones diarias/eventos
Clasificación: listado;
fusión; actualización
Informes
detallados, listas,
resúmenes
Personal de
operaciones;
supervisores
Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial
*Tareas, recursos y metas se definen y estructuran a nivel operativo
**Sistemas de trabajo del conocimiento: garantizan que el conocimiento nuevo y la experiencia técnica se integren adecuadamente en la
empresa. Trabajadores del conocimiento: profesionales con títulos universitarios, su trabajo es descubrir conocimiento, crear información
y conocimientos nuevos, investigadores. Trabajadores de datos: menor formación, procesan información más que crearla.
***Preguntas rutinarias, predefinidas con procedimiento predefinido para responder (decisiones automatizadas). Poco flexibles y poca
capacidad analítica.
DSS y ESS “se alimentan” o extraen información de los demás tipos de sistemas. Leer Capítulos 2, 3, 6, 7, 10 y 11 - Laudon
La pregunta es: Cómo la extraen? Data Warehouse.
SSD Sistemas de Soporte a decisiones
Definición
- Sistema de Soporte a Decisiones es un término general para describir alguna aplicación que mejore la habilidad del
usuario para tomar decisiones. Más específicamente, el término es comúnmente usado para describir un sistema basado
en computadora diseñado para ayudar a los tomadores de decisiones a usar los datos, el conocimiento y la tecnología
para identificar problemas y tomar decisiones para resolver esos problemas.
- Aplicaciones en las que se analizan y exploran conjuntamente datos actuales e históricos, se identifican tendencias
útiles y se crean resúmenes de datos con el objeto de apoyar la toma de decisiones de alto nivel.
- Herramienta de soporte para la Toma de Decisiones. Incorpora reglas/políticas de decisión (Por ejemplo Análisis
Bayesiano, AHP, Simulaciones Programación Lineal con Análisis de Sensibilidad y análisis de datos no predefinidos en las
posibilidades de un Executive Information System, entre éstos:
Sistemas de presentación Sistemas de interrogación
7
Ing. Diana Dick – JTP SG0
Sistemas de simulación
Sistemas funcionales
Sistemas Expertos.
Distintos Tipos de SSD (Capítulos 2, 7 y 11 Laudon)
Según Laudon1
, dos tipos básicos de SSD: orientados a modelos y orientados a Datos.
A Modelos: básicamente, los que responden a “Qué pasaría si…” o escenarios What-if. Ejemplo: un sistema que
pronostica la capacidad de carga y establece un valor óptimo cada noche, el modelo utilizado es un modelo matemático
de pronóstico. Si se tienen determinadas las variables necesarias, podría simularse con una aplicación de programación
lineal.
A Datos: Analizan grandes masas de datos, colaboran en la Toma de Decisiones extrayendo información oculta
(patrones, indicadores, relaciones ocultas).El análisis de datos se hace mediante herramientas OLAP y minería de datos.
Para comprender mejor, si se analiza el tipo de preguntas tradicionales que puede responder un TPS, como por ejemplo:
¿Cuántas unidades del producto 403 se vendieron en noviembre del 2002? Es un análisis bidimensional.
Ejemplo:
Las herramientas OLAP (orientados a datos) o análisis multidimensional pueden responder a preguntas mucho más
complejas, del tipo:
Comparar las ventas del producto 403 respecto del plan del trimestre y región de ventas durante los dos últimos años.
Consultas Ad Hoc
Creando las consultas en SQL, generalmente implican operadores de agrupación y de agregación.
1
Ver Fuentes
Mes
año q
jun-02 5600
jul-02 3200
ago-02 6020
sep-02 3200
oct-02 1500
nov-02 4050
dic-02 3600
ene-03 4100
feb-03 2800
mar-03 5500
abr-03 5800
may-03 5900
jun-03 4900
jul-03 5400
ago-03 5700
sep-03 5500
oct-03 5800
nov-03 6000
dic-03 4800
ene-04 4900
feb-04 5010
mar-04 4900
abr-04 4800
Ventas mensuales Período Junio 2002 Abril 2004
0
1000
2000
3000
4000
5000
6000
7000
jun-02
ago-02
oct-02
dic-02
feb-03
abr-03
jun-03
ago-03
oct-03
dic-03
feb-04
abr-04
mes-año
Cantidades
cantidad
8
Ing. Diana Dick – JTP SG0
Las dimensiones analizadas son: Planificado contra real, para ambos la cantidad vendida q, trimestre y región.
Gráficamente es una gráfica en 3D:
Cómo se analiza este cubo?
La vista (frontal, plana) que se está analizando es la comparación de trimestre con región.
Si giro 90º hacia abajo, en el eje de las X quedan las regiones y en el eje de las Y lo planificado vs. lo real. Si giro el cubo
90º en sentido horario, lo que se ve es trimestre contra real y planificado. Quedaría al frente del cubo la proyección de
ventas y la venta real en las X y en el eje de las Y los trimestres. Faltan las columnas y filas de sumarización. Un cubo
completo sería como la imagen siguiente:
http://www.dc.uba.ar/events/jadm/2006/docs/VaismanjornadasDM.pdf/view
trimestres
1
2
3
4
Planificado
Real
Regiones
Norte Este Oeste Sur Centro
Ventas reales de
producto 403, trimestre 3
región Centro.
Ventas Producto 403
9
Ing. Diana Dick – JTP SG0
Consideremos un punto en el espacio. El espacio se define a través de sus ejes de coordenadas (por ejemplo
X, Y, Z). Un punto cualquiera de este espacio quedará determinado por la intersección de tres valores
particulares de sus ejes.
Por supuesto, existen otras posibles vistas. Si a las Herramientas OLAP, agregamos extracción de datos se obtiene
información de tipo asociación, secuencia, clasificación, agrupación y pronóstico.
Asociaciones: relacionadas con un evento único, relaciones entre variables, se analizan por ejemplo con regresión lineal y
frecuencia/proporción estadística, ej.: cada vez que se compra un auto de menos de determinado valor, se comprará
equipo GNC el 90% de las veces, pero cuando se financian planes para comprar autos de mayor valor, también se
compra equipo GNC el 70% de las veces.
Secuencias: eventos relacionados con el tiempo: si se compra una casa, se detecta que en un período breve se
comprarán determinados electrodomésticos y muebles el 65% de las veces y en un próximo período de tiempo, que no
tiene que ser necesariamente igual al primero, se comprarán otros electrodomésticos y/o alguno.
Clasificaciones: detecta patrones que describen el clasificación al que pertenece un ente determinado. Por ejemplo:
Bancos y compañías de celulares se preocupan ante la pérdida de clientes fijos. Esta clasificación puede ayudar a detectar
las características y comportamientos particulares de los pertenecientes a esta clase tal que se pueda decir que es
probable que se retiren y en consecuencia, predecir quiénes son estos clientes para lanzar campañas o estrategias que
les permitan retenerlos.
Agrupaciones: Similar a la clasificación pero aún no se determinó ningún grupo. Alguna herramienta de extracción de
datos detecta o descubre los grupos dentro de los datos, así agrupa personas por afinidades para promover determinado
bien o servicio o fraccionar una DB en grupos de clientes según cantidad de habitantes y tipos de inversiones/compras,
servicios, etc.
Herramientas que utiliza la extracción de datos:
Redes Neuronales
Inteligencia Artificial
Análisis Estadístico
Lógica Difusa
Algoritmos genéticos
Algoritmos basados en reglas
En definitiva: patrones y relaciones ocultas que servirán para pronosticar y guiar la Toma de Decisiones.
También para descubrimiento del conocimiento o Knowlegde Discovery.
bservación importante: Por qué se mencionan y describen los tipos de información que se obtiene y los tipos
de DSS? PARA SABER SELECCIONAR QUÉ TIPO DE SISTEMA DE INFORMACIÓN O SSD (CUAL CUBRE LAS
FUNCIONALIDADES ESPECIFICADAS O EL DE MAYOR PODER ANALÍTICO SEGÚN REQUERIMIENTOS) SE
SUGIERE COMO INGENIERO, CONOCIENDO PERFECTAMENTE LOS REQUERIMIENTOS DEL CLIENTE. NO SUGERIR UN
DATA WAREHOUSE SIN CONOCER EL DOMINIO DEL PROBLEMA NI ELOBJETIVO DE CADA DSS. ¡ESCALABILIDAD!
Retomando SSD Orientados a Datos o Data Driven DSS
Aplicaciones que soportan la Toma de Decisiones permitiendo a los usuarios extraer y analizar información útil que
previamente fue almacenada en grandes bases de datos. Acceden y manipulan series de tiempo sobre datos internos.
Frecuentemente los TPS se recolectan en un Data Warehouse. El análisis multidimensional y las herramientas de Data
Mining pueden después analizar los datos. Enfocados en la provisión de datos internos y a veces externos para ganar en
la Toma de Decisiones. Ejemplo: Geographic Information Systems- GIS.
O
10
Ing. Diana Dick – JTP SG0
Una posible implementación de SSD:
SSD Orientados a modelos o Model Driven DSS
Principalmente son sistemas stand alone que tienen en su núcleo un modelo matemático o una representación en hoja de
cálculo como modelo. El énfasis está en el modelo (simulación), escenarios y sensibilidad “What-if” tales como
programación lineal.
SSD para CRM
Utilizan Data Mining para guiar las decisiones respecto a precios, fidelización de clientes, mercados compartidos y
corrientes de ingresos. Estos sistemas consolidan típicamente información de clientes desde una variedad de sistemas en
DW masivos y usan herramientas analíticas para “rebanar” información en delgados segmentos para marketing
personalizado. Detección de estratos, conglomerados, grupos.
GIS Geographic Information System
Categoría especial de DSS que usa tecnología de visualización de datos para analizar y mostrar datos para la Toma de
Decisiones y el planeamiento en forma de mapas digitalizados. Este software puede almacenar, mostrar, manipular y
mostrar geográficamente información referenciada, vinculando datos a puntos, líneas y áreas en un mapa. Los GIS
pueden usarse para soporte a decisiones que requieren conocimiento respecto a distribución geográfica de gente en otros
recursos como investigación científica, administración de recursos y planeamiento de desarrollo. Ejemplo: Ayuda al
gobierno y estado local en tiempo de respuesta en una emergencia o desastre natural, o ayudar a los bancos a
identificar la mejor localización para instalar nuevas sucursales o terminales ATM o para decidir mejor emplazamiento
para una construcción edilicia específica.
11
Ing. Diana Dick – JTP SG0
CDSS Customer Decision Support System
Para la Toma de decisiones orientado a potenciales clientes. Los datos provienen tanto de fuentes internas como
externas, incluyendo sistemas de empresas y la web. La web e Internet proveen acceso a distintas bases de datos y
fondos de información. Junto con el soft para análisis de datos.
GDSS Group Decision Support system (Diferencia con un DSS)
Sistema interactivo que facilita la solución de problemas no estructurados dada por un conjunto de tomadores de
decisiones trabajando juntos como equipo. GDSS han sido desarrollados en respuesta al interés creciente sobre calidad y
efectividad de las reuniones. En general, DSS se enfoca en la Toma de Decisiones individuales, el GDSS soporta Toma de
Decisiones de un grupo. Contribuyen a mayor asistencia y productividad de las reuniones. Implementan métodos
estructurados para organizar y evaluar ideas, preservar los resultados de las reuniones y aumentar la cantidad de ideas.
Otra clasificación separa en 7 amplias categorías, asistiendo cada una a la Toma de Decisiones mediante métodos
diferentes.
* Communications Driven DSS
Tipo de sistema que mejora la toma de decisiones en grupo mediante posibilitar las comunicaciones y compartir la
información entre grupos de personas. En su nivel más básico un C-D DSS podría ser un simple hilo de varios mails o
mails reenviados mediante reenviar, responder, distribuir a listas masivas, etc. En su nivel más complejo, podría ser una
aplicación web-conference o video interactivo.
Estos sistemas exhiben como mínimo una de estas características:
-Soportan coordinación y colaboración entre dos o más personas
-Facilitan compartir información
-Posibilitan las comunicaciones entre grupos de personas
-Soportan decisiones grupales
* Data-Driven DSS
Una forma de sistema de soporte orientado a la provisión de datos internos y a veces externos para asistir a la Toma de
Decisiones. La mayoría de éstos frecuentemente serán del tipo Data Warehouse, que es una base de datos diseñada para
almacenar datos de tal manera que permiten distintas consultas y análisis de usuarios.
Otro ejemplo de DD DSS podría ser un GIS, que puede usarse para representar visualmente dependencia geográfica de
datos usando mapas.
* Document-Driven DSS
Sistemas de soporte diseñados para convertir documentos en datos de valor de negocio. Mientras un data driven DSS
depende de datos que ya están en un formato estandarizado que se presta para el almacenamiento en bases de datos y
análisis, en tanto los sistemas de soporte a decisiones orientados a documentos utilizan datos que no se pueden
estandarizar y almacenar fácilmente. Las tres formas básicas de datos usados en sistemas orientados a documentos son:
- Oral (p.e. conversaciones transcriptas);
- Escritos (p.e. informes, memos, e-mail y otras correspondencias);
- Video (p.e. comerciales de televisión y noticias).
Estos formatos permiten fácilmente el almacenamiento en bases de datos estandarizadas y el análisis, así los gerentes
requieren herramientas de sistemas de soporte a decisiones para convertirlos en valiosos en el proceso de toma de
decisión. Los sistemas orientados a documentos constituyen un campo de estudio nuevo en sistemas de Soporte a
Decisiones. Ejemplos de herramientas SSD orientadas a documentos pueden encontrarse en los motores de búsqueda de
Internet, diseñados para buscar a través de grandes volúmenes de datos mediante el uso de palabras claves de
12
Ing. Diana Dick – JTP SG0
búsqueda.
* SSD orientados al conocimiento Knowledge-Driven DSS
SSD orientados al conocimiento son sistemas diseñados para recomendar acciones a los usuarios. Típicamente son
diseñados para “escudriñar” en grandes volúmenes de datos, identificar patrones escondidos en los datos y presentar
recomendaciones basadas en esos patrones.
* Model-Driven DSS
Estos sistemas incorporan la habilidad de manipular datos para generar informes estadísticos y financieros, así como
modelos de simulación para asistir en la Toma de Decisiones. Pueden ser extremadamente útiles en pronosticar el
impacto de los cambios en los procesos de negocio, así como pueden usar los datos del pasado para responder preguntas
de tipo What if complejas a los tomadores de decisiones.
Además de estos tipos básicos de SSD hay dos divisiones más: basados en hojas de cálculo y basados en la web.
* Spreadsheet-based DSS
Los sistemas de soporte a decisiones orientados a modelos y a datos pueden construirse usando hojas de cálculo, que
ofrecen a los tomadores de decisión facilidades para comprender representaciones en grandes cantidades de datos.
Además, los datos se disponen de manera tal que facilitan la conversión de datos en visualizaciones/gráficos para asistir
aún más en la toma de decisiones.
* Web-based DSS
Algunos tipos de sistemas pueden ser basados en la web. El término describe simplemente un sistema de soporte que es
operado a través de una interface web browser, aunque los datos usados para la Toma de decisiones permanezcan
confinados a sistemas legados como un data Warehouse.
Alcances de un SSD
Además de estos tipos básicos de SSD, hay también dos categorías bien diferenciadas para definir sistemas:
* Enterprise-wide DSS
Sistemas vinculados en grandes entornos data warehouse y ofrecen soporte a decisiones a los administradores en todos
los niveles de la empresa. Estos sistemas podrán ser típicamente básicos, de uso general que pueden ejecutar uan amplia
variedad de funciones.
* Desktop DSS
Los SSD de escritorio son aplicaciones mucho más pequeñas diseñadas para ejecutarse desde una PC de escritorio.
Mientras estos sistemas puedan vincularse bien a un Data Warehouse u otro sistema de grandes volúmenes de datos,
serán típicamente más limitados en alcances.
Ejemplo: MS Excel.
Recomendaciones: Leer sobre los temas vistos, inteligencia Artificial, Algoritmos genéticos, lógica difusa…
Componentes de un SSD…GIS…GDSS… capítulos 7 y 11 del Laudon ☺
LEER!!!
13
Ing. Diana Dick – JTP SG0
TRABAJO PRÁCTICO Nº 1 – (Grupal)
a) Elaborar cuadro comparativo entre los OLTP y OLAP.
b) Cuadro comparativo de Herramientas Analíticas (Bussines Intelligence en sitios de Oracle, Microsoft SQL,
Informix, Pentaho, Weka, etc.)
c) Para los siguientes supuestos: ¿Cuáles conocimientos necesitan para diseñar/desplegar una soluciónr?
¿Cuáles aplicaciones, sistemas y/o herramientas recomendaría o implementaría?. Fundamentar explicando
por qué cada elección en particular.
Puntuación: a) y b): 20% cada uno; c) 60%.
Supuesto 1)
Huracán en Golfo de México avanzando hacia Texas. Elaborar plan de contingencia ante una catástrofe
natural. El plan debe contemplar la distribución de agua potable, alimentos, vacunas, medicamentos, mantas
y ropa para la población, como también patrullas de rescate animal con las provisiones de agua potable,
alimentos balanceados, vacunas, medicamentos, jaulas de viaje, camiones .-
Datos: A nivel global se cuenta con información demográfica, censos poblacionales humanos, ganaderos y
conteo bastante aproximado de animales en estado salvaje además de registros exactos de reservas
naturales. Se puede obtener también datos sobre cantidades de animales domésticos y refugios animales.
Entre los datos poblacionales, se clasificó en grupos por edades y por sexo y asociado a estos grupos las
necesidades alimentarias básicas, sanitarias y de vestimenta para cada grupo, también mantas, bolsas de
dormir, etc.
Se sabe también de manera certera los recursos sanitarios disponibles del estado para catástrofes y la
cantidad de personal de Defensa Civil, Ejército, fuerzas especiales y ONG´s que estarán afectados hasta la
evacuación y asistencia total de todos los seres que serán atendidos.
Se sabe cuáles son los centros de asistencia y refugios humanos y animales más cercanos disponibles, pero
fuera de peligro, y las capacidades de los mismos. Las distancias terrestres y aéreas están dadas también,
entre centros de asistencia y desde puntos de partida del personal afectado a rescate. Se calculará al
momento las necesidades de combustible.
También se conoce al momento los caminos que van quedando bloqueados.
Qué información adicional buscar?
Cuáles valores, estimaciones, variables y datos relacionados hacen falta? Proponer.
Qué o cuáles sistemas implementaría?
Supuesto 2)
El análisis se hace en Argentina y tiene dos enfoques de interés: rentabilidad y desarrollo sustentable.
En base a las cotizaciones de la soja en las bolsas de Tokio y Nueva York en los últimos 10 años, se quiere
saber si al año 2018 se podrá seguir explotando este cultivo, territorio o región del país apta y conveniente
14
Ing. Diana Dick – JTP SG0
para esta actividad, de cuánto será la producción por región y si luego de un análisis de suelo con todas las
variables que involucra, sabiendo que la humedad y la temperatura afectan en general a todo tipo de cultivo,
se puede cambiar de cultivo o si el suelo debe quedar sin explotación.
Cuáles valores, estimaciones, variables y datos relacionados hacen falta? Proponer.
Qué información buscar? Qué o cuáles sistemas implementaría?
d) Proponer una situación real en la que usted implementaría las aplicaciones vistas, las que crea óptimas.
15
Ing. Diana Dick – JTP SG0
Revisión temas vistos
Premisa/Realidad:
Hemos visto que la especificación de funcionalidades y requerimientos de cada proyecto determinará cómo
serán los entregables, qué ejecutarán las aplicaciones y cuáles serán; es decir “la solución de negocio”. Uno
de los impactos mencionados está en los datos: Distintos formatos, distintos lenguajes, etc.
Vimos los sistemas clasificados según jerarquía organizacional, áreas funcionales, funciones de éstas y
perfiles -skills- de usuarios.
En resumen: TIPOS DE SISTEMAS
EIS - ESS*: Decisiones no rutinarias, problemas nuevos
Nivel
estratégico
Pronósticos de Tendencias a largo
plazo a nivel interno y externo
Planificaciones de negocio a mediano
y largo plazo. En general
posicionamiento deseado. Estrategia.
Objetivo: Alinear a la empresa
frente a los cambios de negocio.
Adaptar a la empresa al estado del
ambiente futuro.
Usuarios: Directores,
ejecutivos senior.
MIS: Decisiones predefinidas con
procedimiento de respuesta.
DSS: Decisiones únicas, sin procedimiento
de respuesta.
Administración de ventas,
inventario, presupuesto,
Inversiones, etc.
Usuarios:
Gerencia
media
Análisis regional de ventas, de
clientes, costos. Programación
de la producción, análisis de
fijación de precios.
Usuarios: Analistas
de negocio,
profesionales,
Gerentes medios.
Nivel
Administrativo
Objetivo: Evaluar cómo está la empresa,
dar soporte a actividades de Gerencia.
Objetivo: Decisiones cambiantes rápidamente, no
especificadas anticipadamente. Proveer análisis de
decisiones.
KWS**
Trabajo de Datos:
Función principal:
Procesamiento de datos.
Aplicaciones:
Ofimática – Office
Automation Systems
Nivel de
Conocimiento
Objetivo:
Dar soporte a la
distribución del
conocimiento
corporativo, al trabajo
integral de oficina.
Usuarios:
Administrativos,
oficinistas, menor
capacitación que
trabajadores de
datos
Trabajo del conocimiento:
(intellectual worker o brain
Worker). Función principal: Crear
conocimiento e información
nuevos, incorporándolos; una de
las más importantes es el
conocimiento de saber cuándo
aplicar la tecnología. Otra: Asociar
fuentes de conocimiento
corporativo para administrar y
compartir mejores prácticas- Know
how-Essentials de cada empresa
Usuarios:
Profesionales,
Gerentes,
colaboradores
con el
desarrollo de
BI
TPS – OLTP: Decisiones rutinarias, programadas, implementadas
Nivel Operativo
Actividades: Actualizaciones (I, U, D) registro y tracking de transacciones diarias.
Objetivo: Dar soporte a las funciones y subfunciones de este nivel.
Usuarios:
Gerentes
Operativos
Aclaración: la tabla no agrupa por área funcional, se nombran simplemente algunas actividades.
* EIS: están clasificados como un tipo especializado de MIS - DSS o referenciados también como ESS,
actualmente es un término desplazado a favor de Business Intelligence, que incluye informes, herramientas
analíticas y tableros de comandos. Generalmente, un EIS provee datos que sólo podrían necesitarse para
16
Ing. Diana Dick – JTP SG0
soporte a decisiones de nivel ejecutivo en lugar de los datos de toda la empresa. EL énfasis de los EIS está
en interfaces de usuario de uso/interacción simple y en la visualización o presentación gráfica.
** El conocimiento es un activo intangible. El Know How de cada empresa es parte de su posición en el
mercado y contribuye a la cultura organizacional, al comportamiento interno y externo de la misma.
Vimos también que hay aplicaciones previstas, diseñadas para encontrar información oculta y aplicar Minería
de Datos para cantidades masivas de datos que permita hacer Inteligencia de Negocios. Se mencionaron
Herramientas OLAP y cómo el Análisis Multidimensional permite responder a preguntas más complejas o a
consultas que involucren n variables o n dimensiones. Se mencionó el problema con los datos.-
Más en detalle:
Problemas con los datos o Problemas que dan origen a un
Data Warehouse (Warehouse=almacén, bodega)
A medida que las empresas incorporan/actualizan distintas aplicaciones, actualizan plataformas,
configuraciones de hardware y software, en definitiva: migran sus sistemas, los datos actuales y pasados
quedan propagados a través de múltiples sistemas, en distintas unidades de negocio y con distintos
formatos: se vuelven inaccesibles en forma directa. Inclusive pueden estar localizados en distintos países de
una misma corporación. Sin embargo existe, entre sistemas caducos y los TPS actuales, abundancia de datos.
En síntesis:
Abundancia de datos, pero no ayudan a la toma de decisiones: corren sobre sistemas previstos para
consultas estandarizadas, pero no se adaptan a las necesidades cambiantes de negocio. La información que
ofrecen es generalizada, no adaptada a cada necesidad de usuario para tomar decisiones. Ej: De un reporte
codificado, no se puede modificar online la consulta para que responda a un interrogante puntual.
Falta de integración y consistencia en la información: distintos archivos, distintos sistemas, distintos
lenguajes, distintos formatos, no estandarización de formato y tipo de datos a través de migraciones de
sistemas.
Datos no consolidados.
No soportan fácil exploración.
No están disponibles en forma permanente.
Información Genérica, no personalizada ni agrupada ni clasificada; en contraposición se habló de
asociaciones, secuencias, clasificaciones, grupos.
Otra realidad es que las empresas reconocen que una forma de aumentar su eficiencia (diferenciar entre
eficiencia y eficacia), es lograr ventajas competitivas y reaccionar rápidamente frente a los cambios. La clave
para ésto está en hacer un buen uso de la información que ya tienen pero, a la vez, saben que no han
logrado.
17
Ing. Diana Dick – JTP SG0
La razón principal es la evolución de la tecnología que lleva a migrar plataformas, es decir arquitecturas y de
ésto depende fundamentalmente conseguir buena información: de la arquitectura actual en hardware y
software.
¿Cómo pasamos de dato a información?
Éste es el interrogante central.
1) Diferencias entre Datos Operacionales y Datos Informativos
(necesarios para Data Mining y distintos DSS)
Datos Operacionales
Orientados a una aplicación
Integración limitada
Constantemente actualizados
Sólo valores actuales
Soportan operaciones diarias
Datos Informativos
Orientados a un tema
Integrados
No volátiles
Valores a lo largo del tiempo
Soportan decisiones de administración
Significa en síntesis que dato no es información.
Gráfica: Evolución desde los datos operacionales hasta la información para la Toma de Decisiones
DW
18
Ing. Diana Dick – JTP SG0
¿Cuáles son los requerimientos de los datos para que se transformen
en información aplicable a la Toma de Decisiones?
Datos que sean accesibles a múltiples aplicaciones, tal que pueda obtenerse información específica
para un determinado conjunto de usuarios para la Toma de decisiones (Integrados, soporte a Toma de
Decisiones, consistentes).
Datos que crucen por varias aplicaciones (Integrados y accesibles).
Reorganizados por temas de negocio (Orientados a un tema)
Que contengan valores históricos para obtener pronósticos y analizar tendencias (No volátiles, valores a
lo largo del tiempo).
Que estén disponibles para análisis de manera fácil y flexible durante períodos prolongados de tiempo;
por ejemplo: analizar una tendencia requiere períodos de varios años (Acceso fácil y Valores disponibles a
lo largo del tiempo).
Consolidación de datos para que sean consistentes y accesibles. Ejemplo: las mismas unidades de
medida para el mismo atributo en los distintos sistemas TPS.
Data Warehouse como respuesta al problema de los datos, a las
necesidades de información, a la ventaja competitiva.
Definiciones de DW
- Conjunto de datos integrados orientados a una materia (optimización del uso de info), que varían con el
tiempo y no son transitorios, los cuales soportan el proceso de toma de decisiones de una organización,
permiten aplicar técnicas de análisis de datos para obtener indicadores, información oculta.
- Arquitectura que sirve como infraestructura para proporcionar una solución completa al problema de los
datos.
- “El Data WareHouse es una colección de datos orientados a un tema, integrados, no volátiles e históricos,
organizados para el apoyo a un proceso de toma de decisiones”. Bill Inmon en su obra de referencia “Using
the Data WareHouse”.
- Información consolidada de varias bases de datos.
- Bases de Datos para dar soporte a todos los procesos de decisión de la organización.
Características de un DW
- Orientado a Usuarios/Temas: aspectos de interés para la empresa. Obviamente los temas de interés
afectan al diseño del DW. Excluye datos no usados para tomar decisiones. Los procesos de negocio no son
considerados en el proceso de diseño del DW.
19
Ing. Diana Dick – JTP SG0
- Integración: Se refleja en convenciones/estandarización de nombres, en la unidad de medida de las
variables, en la codificación de variables, etc.
“La capacidad colectiva de muchos diseñadores de aplicaciones para crear aplicaciones inconsistentes, es fabulosa…”
http://www.sqlmax.com/quienes.asp .
Ejemplos:
- Formatos de fecha: yymmdd, mmddyy, ddmmyy…
- Codificación de variables: DatosAfiliado.NombreApellido, Nombreapellido, nombreapellido, nya…
- Blob, long…char, varchar, string…
20
Ing. Diana Dick – JTP SG0
Gráficamente:
Cuando los datos se mueven al Data Warehouse desde las aplicaciones orientadas al ambiente operacional, los datos se
integran antes de entrar al depósito.
- No volátil: La información permanece, no se actualiza en el sentido habitual de una actualización. Existe una carga
masiva inicial y luego actualizaciones periódicas, pero no del tipo insertar, borra, modificar. Una de las ventajas es la
optimización del acceso a datos. Validaciones contra datos ya depurados e integrados, sin inconsistencias. Algunas de las
ventajas de la no volatilidad son:
Manejo de datos mucho más simple
Eliminación de todo el proceso de actualización de datos en línea: backup y recuperación, transacción e
integridad, detección y solución de deadlock (tiempo de bloqueo de un registro, no implementar exclusión
mutua si es posible para evitar inconsistencia, puede ser útil condición de espera circular)
Optimización del acceso a datos
21
Ing. Diana Dick – JTP SG0
- De tiempo variante: Incluye datos históricos. Tiempo variante significa dos cosas en DW:
1) El horizonte de tiempo de un DW es de 5 a 10 años. En TPS el horizonte de tiempo es hasta 90 días generalmente.
2) La otra forma de mostrar el tiempo variante se refiere a la estructura clave, cada una contiene un elemento de
tiempo como día, semana, mes, etc.
- Condensa y agrega información: No tiene el nivel de detalle de los datos operacionales, sin embargo se puede
descomponer por ejemplo una fecha en unidades más pequeñas para mejor análisis: día, mes, año.
Preguntas que puede responder:
- Cuál es el perfil de mis clientes?
- Cómo es su comportamiento?
- Cuál es la rentabilidad que me deja?
- Cuál es el riesgo que corro con él?
- Qué servicios y productos utiliza y cómo puedo
incrementarlos?
EL fin de un Data Warehouse es ayudar a la administración a comprender el pasado y planear para el futuro.
Las preguntas que se busca responder, en general son:
¿Qué compran nuestros clientes? ¿Qué no compran? ¿Cuáles incentivos funcionaron antes con los mismos clientes
en esta misma época del año?
¿Cuántos de nuestros vendedores visitan al mismo cliente?
¿Qué están haciendo en este momento nuestros competidores?
¿Cómo comparar nuestros costos para cada línea de producto durante estos últimos tres años?
El potencial del Data Warehouse es obtener datos de los sistemas operacionales para ayudar a las empresas en la toma
de mejores decisiones.
Fuentes de Datos
Datos Internos del entorno operacional de la organización, Legacy Systems, Archivos XML, DB Operacionales de
distintas plataformas y de distintos sistemas operativos, Spreadsheet y Datos Externos.-
22
Ing. Diana Dick – JTP SG0
Estructura de un Data Warehouse
Se basa en diferentes niveles de esquematización y detalle que delimitan un Data Warehouse. Esta estructura es clave
y es la que determinará la utilidad real de un Data Warehouse para la Toma de Decisiones. Sus diferentes componentes
son:
Detalle de datos actuales: En éste se centra el mayor interés debido a tres factores principales: refleja ocurrencias
recientes, que son de gran interés y aportan los datos actualizados para todo método de pronósticos o
FORECASTING. Su volumen importante, almacenado al más bajo nivel de granularidad, con todo el potencial de
extraer patrones. Es de fácil acceso, ya que se almacena en disco, no obstante la administración de éstos es compleja y
costosa.
Detalle de datos antiguos: Almacenada sobre algún medio de almacenamiento masivo debido a su gran volumen, a
un nivel de detalle consistente con los datos detallados actuales y no es accedida frecuentemente. Por esto, es poco
usual guardar esta información en disco.
Datos ligeramente resumidos: Proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual, se
almacena en disco y para construir este nivel se toman dos parámetros; la unidad de tiempo sobre el esquema
determinado y los atributos que tendrá la data resumida.
Datos completamente resumidos: Son datos compactos y fácilmente accesibles, sin importar dónde se almacene ya
que pueden o no estar dentro del ambiente del Data Warehouse.
Metadatos Básicamente, son datos/propiedades de los datos, están en una dimensión distinta a la de otros datos,
debido a que el contenido no se extrae directamente del ambiente operacional, pueden definirse como directorio para
que el analista encuentre los contenidos del Data Warehouse. Informan el mapping de la transformación de los datos
del entorno operacional al del DW. Por estas razones, son más importantes en un Data Warehouse que en ámbitos
operacionales. Es uno de los elementos del repositorio o directorio de datos.
Aspecto técnico clave: Forma de conservar la información en el almacén de datos.
Ejemplo:
Niveles de Esquematización que podría encontrarse en un data Warehouse. De nivel más antiguo a
completamente resumido hay diferentes grados de granularidad. El detalle de ventas antiguas se
23
Ing. Diana Dick – JTP SG0
encuentra antes de 1992. Todos los detalles de ventas desde 1982 (o cuando se inició la colección de
archivos) son almacenados en el nivel de detalles más antiguo. Detalle actual: de 1992-1993, suponiendo
1993 año actual. Detalle de ventas no ingresa al detalle actual hasta que no hayan pasado, mínimo, 24 hs.
de disponibilidad de esta información en el ambiente operacional. –
Ventas mensuales por línea de producto 1981-
1993Venta Nacional por mes: 1985-1993
Nivel Completamente resumido
Nivel
Ligeramente
Resumido
Ventas semanales por
subproducto 1985-1993Venta regional por mes: 1983-1993
Nivel de detalle actual
Detalle de Ventas
1992-1993 (año actual)
META DATA
Estructura de los Datos
Algoritmos de
esquematización
Mapping de Datos
Directorio de Contenidos
Ventas antiguas – Detalle
de Ventas 1982-1991
Nivel de detalles o de datos más
antiguos o detalle histórico
24
Ing. Diana Dick – JTP SG0
A nivel completamente resumido: Directores, Gerentes y Analistas
de Negocio, profesionales especializados, etc.- A más altos niveles
de esquematización, más uso de los datos.-
A nivel ligeramente resumido, Gerentes.
Detalle de Datos actuales: Analistas de Negocio, Gerentes mandos
intermedios.
Por lo general, los diferentes niveles de datos dentro del data
warehouse reciben diferentes usos. A más alto nivel de
esquematización, se tiene mayor uso de los datos.
En la Figura Población de Usuarios se muestra que hay mayor uso
de los datos completamente resumidos, a diferencia de la información antigua que apenas es usada.
Usos del Data Warehouse
Los datos operacionales y los datos del data warehouse son accedidos por usuarios que usan los datos de maneras
diferentes:
Uso de Base de Datos Operacionales Uso de Data Warehouse
Muchos usuarios concurrentes Pocos usuarios concurrentes
Consultas predefinidas y actualizables
Consultas complejas, frecuentemente
no anticipadas.
Tareas predefinidas
Acceso a datos complejos, en forma no
predecible
----------------------- Soporta proceso drilling down2
.
Acceso a una sola DB generalmente de una
aplicación
Acceso a conjuntos de datos desde fuentes
múltiples, sólo se conoce el conjunto inicial de
datos establecido en el depósito
Cantidades pequeñas de datos detallados Cantidades grandes de datos detallados
Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos
Sólo pocos usuarios acceden a los datos concurrentemente
En contraste a la producción de sistemas que pueden manejar cientos o miles de usuarios concurrentes, a un data
warehouse acceda un limitado conjunto de usuarios en cualquier tiempo determinado.
Los usuarios generan un procesamiento no predecible complejo
Los usuarios del data warehouse generan consultas complejas no predecibles o ad hoc. A veces la respuesta a una
consulta conduce a la formulación de otras preguntas más detalladas, en un proceso llamado drilling down. El data
warehouse puede incluir niveles de resúmenes múltiples, derivado de un conjunto principal, único, de datos detallados,
para soportar este tipo de uso.
2
Ver Pág. 33 – Figura Drill Down y Roll Up
25
Ing. Diana Dick – JTP SG0
Esto es así porque los usuarios frecuentemente comienzan buscando en los datos resumidos, al identificar áreas de
interés, comienzan a acceder al conjunto de datos detallado. Los conjuntos de datos resumidos representan el "Qué"
de una situación y los conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre "Cómo" se ha
derivado esa situación.
Las consultas de los usuarios acceden a cantidades grandes de datos
Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al
data warehouse permiten acceder a volúmenes muy grandes tanto de data detallada como resumida. Debido a los
requerimientos de datos históricos, los data warehouses evolucionan para llegar a un tamaño más grande que sus
orígenes operacionales (de 10 a 100 veces más grande).
Las consultas de los usuarios no tienen tiempos de respuesta críticos
Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una
respuesta. En el data warehouse, por el contrario, tiene un requerimiento de respuesta no-crítico porque el resultado
frecuentemente se usa en un proceso de análisis y toma de decisiones. Aunque los tiempos de respuesta no son
críticos, los usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta.
Hay una buena razón para mover una organización al paradigma sugerido en la figura: la utilización del recurso. La
data más resumida, permite capturar los datos en forma más rápida y eficiente. Si en una tarea se encuentra que se
hace mucho procesamiento a niveles de detalle del data Warehouse (nivel más bajo del DW, con mayor grado de
detalle), entonces se consumirán muchos recursos de máquina. Es mejor hacer el procesamiento a niveles más altos de
esquematización como sea posible.
Para muchas tareas, el analista de sistemas de soporte de decisiones usa la información a nivel de detalle en un pre-
data warehouse. La seguridad de la información de detalle se consigue de muchas maneras, aun cuando estén
disponibles otros niveles de esquematización. Una de las actividades del diseñador de datos es el de desconectar al
usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle más bajo.
El diseñador de datos puede tener dos alternativas:
Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos.
Señalar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de
esquematización, a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de
detalle.
Para ilustrar cómo un data warehouse puede ayudar a una organización a mejorar sus operaciones, se muestra un
ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse.
Ejemplo: Preparación de un reporte complejo
Problema bastante típico en una compañía de fabricación grande en el que se pide una información (un reporte) que
no está disponible.
26
Ing. Diana Dick – JTP SG0
El informe incluye las finanzas actuales, el inventario y la condición de personal, acompañado de comparaciones del
mes actual con el anterior y el mismo mes del año anterior, con una comparación adicional de los 3 años precedentes.
Se debe explicar cada desviación de la tendencia que cae fuera de un rango predefinido.
Sin un data warehouse, el informe es preparado de la manera siguiente:
La información financiera actual se obtiene desde una base de datos mediante un programa de extracción de datos, el
inventario actual de otro programa de extracción de otra base de datos, la condición actual de personal de un tercer
programa de extracción y la información histórica desde un backup de cinta magnética o CD-ROM.
Lo más interesante es que se ha pedido otro informe que continúe al primer informe (debido a que las preguntas se
originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aquí (p. ej., diversos
programas de extracción) se pueden usar para los próximos o para cualquier reporte subsiguiente. Imagine el tiempo y
el esfuerzo que se ha desperdiciado por un enfoque anticuado, gráficamente:
Las inconsistencias deben identificarse en cada conjunto de datos extraídos y resolverse, por lo general, manualmente.
Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido.
Nuevamente, el punto importante aquí es que todo el trabajo desempeñado para hacer este informe no afecta a otros
reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y
productividad.
Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios:
Las inconsistencias de los datos se resuelven automáticamente cuando los elementos de datos se cargan en el
data warehouse, no manualmente, cada vez que se prepara un reporte.
Los errores que ocurrieron durante el proceso complejo de la preparación del informe, se minimizan porque el
proceso es ahora mucho más simple.
27
Ing. Diana Dick – JTP SG0
Los elementos de datos son fácilmente accesibles para otros usos, no sólo para un reporte particular.
Se crea una sola fuente.
Perfil de las personas que utilizan un DW – Tipos de Usuario Final
Su trabajo se basa en la información derivando lo obtenido en recomendaciones empresariales. Son especialistas en
analizar la información, “rebanar y picar” de distintas maneras para obtener hechos acerca de clientes, mercados y
productos para mejorar predicciones y hallar tendencias; “Power Users” o Buzo de información.
Las decisiones que se tomarán se basan en hechos, que es lo que se intenta detectar, en definitiva:
Ejecutivos/Gerentes/Administradores, Responsables de Departamento/Area/Sección, Analistas de mercado, financieros,
de negocio, ingenieros, y finalmente Usuarios de Soporte, etc. y cada uno de ellos tiene su propio conjunto de
requerimientos para los datos, acceso, flexibilidad y facilidad de uso.
La siguiente tabla es una guía de las herramientas a utilizar según tipo de usuario.
Elija la Herramienta adecuada
Tipo de Herramienta Pregunta básica Modelo de Salida Usuario típico
Consulta y Reporte ¿Qué sucedió?
Reportes de ventas
mensuales; histórico de
inventario
Necesita data histórica y puede
tener aptitud técnica limitada
Procesamiento analítico en
línea (OLAP)
¿Qué sucedió y por qué?
Ventas mensuales vs.
Cambios de precio de los
competidores
Necesita ir de una visión
estática de los datos a "slicing
and dicing, rebanar y picar",
usuario técnicamente astuto
Sistema de Información
Ejecutiva (SIE)
¿Qué necesito conocer
ahora?
Libros electrónicos; Centros
de comandos
Necesita información resumida
o de alto nivel puede no ser
técnicamente astuto
Data mining
¿Qué es interesante? ¿Qué
podría pasar?
Modelos predictivos
Necesita extraer la relación y
tendencias de la data
ininteligible, técnicamente
astuto.
Nota: las herramientas Data Mining requieren expertos en técnicas de análisis de datos y se necesitan para pronósticos
avanzados, clasificación y creación del modelo.
28
Ing. Diana Dick – JTP SG0
Arquitectura de un Data Warehouse
La arquitectura de referencia del Data Warehouse divide los componentes en los siguientes bloques:
APIs
29
Ing. Diana Dick – JTP SG0
Diseño y construcción de un DW
Es importante y válido adoptar el mismo ciclo de perfeccionamiento que todos los desarrollos de software,
pudiendo ser en cascada también.-
Modelizar
datos
Localizar
datos
Desarrollar
Extracción
Definir Data
Marts
Construir
procedimientos
replicación
Cargar y
replicar
Análisis de
Especificaciones
Proceso
Iterativo de
Construcción
3º
4º
5º
6º
7º
1º
2º
30
Ing. Diana Dick – JTP SG0
Elementos de la Arquitectura DW
1) OLTP
Sistemas fuente de datos: sistemas corporativos, transaccionales departamentales, fuentes externas como backups,
archivos planos, investigaciones de mercado, etc.
2) CONSOLIDACIÓN – ETL: Extraction Transformation Load
Es el proceso de migrar los datos del OLTP a las Bases de Datos OLAP. Generalmente, consume el 80% del tiempo de
desarrollo
Extracción:
Capturar y copiar los datos requeridos desde los OLTP u otras fuentes. Los datos extraídos son llevados a un archivo
intermedio con formato definido que se usará en el siguiente paso: Transformación.
Durante la extracción, los registros rechazados quedan en un archivo log de rechazos para ser analizados y determinar
si pueden ser recuperados para llevarlos al DW. Este análisis sirve también para detectar errores en la creación de los
datos operacionales; ejemplos: claves duplicadas, violaciones de integridad, formatos incorrectos o cualquier dato
inválido.
Después de la carga inicial, la actualización consiste solamente en cargar datos nuevos y los que fueron modificados.
Transformación:
Principalmente integración de datos, se leen los archivos intermedios, se transforman eliminando inconsistencias, se
construyen los registros en formato DW y se crea un archivo de salida con todos los registros nuevos que entrarán al
DW. La mayor tarea acá es la transformación. Ésta incluye:
• Combinar campos múltiples de nombres y apellidos en un solo campo.
• Fusionar campos o datos homónimos.
• Separar un campo de fecha en campos de mes, año y día (podría seguir subdividiéndose)
• Cambiar la representación de los datos, ejemplo: en lugar de TRUE, 1 y 0 en lugar de FALSE; datos numéricos a
alfanuméricos.
31
Ing. Diana Dick – JTP SG0
• Llevar a una codificación común aquellos datos que aparecen codificados de distintas maneras pero corresponden
al mismo dato
Carga:
Registros formateados en la transformación y cargados al DW, que contiene todos los datos informativos, actuales e
históricos. Los datos que llegaron aquí rara vez son actualizados o eliminados. Debería haber una fuerte justificación
para la eliminación.
Metadatos:
Directorio de datos. Datos acerca de los datos. La importancia de éstos está en lograr un buen mantenimiento del DW.
El contenido de los metadatos es similar a los de cualquier base de datos, desde que un DW es una DB relacional, sólo
que con tablas sin normalizar.
Funciones:
-Ayudar al Analista a ubicar los contenidos del DW o DMart
-Guiar el mapeo de datos, en la medida en que el dato es transformado.
-Guiar los algoritmos usados para agregación y sumarización.
Contenido:
Identificación de la fuente de datos, descripción de la transformación sufrida al pasar el dato al DW o Data Mart,
información descriptiva del DW o DM (tablas, atributos, relaciones, es decir el modelo de datos del DW), definición de
los términos usados; Ejemplos: primary and foreign key, objetos y descripción de la base, tablas, nombres y
resúmenes. Descripciones lógicas y físicas de tablas, columnas y atributos, etc.
Niveles y métodos de sumarización, tablas de registros del DW.
Definición de las vistas, que pueden ser múltiples, para atender las preferencias/necesidades variadas de distintos
grupos de usuarios.
3) Middleware: Componentes tecnológicos para el transporte
Componentes tecnológicos para el transporte3
. Básicamente APIs traductoras de distintas tecnologías, entre otras cosas
gestionan las comunicaciones con el DW.
4) Herramientas de Acceso y Uso, Herramientas de Análisis
Deben proveer fácil acceso y uso, capturar rápidamente datos importantes y posibilitar distintos tipos de análisis.
También transformar los datos capturados en información útil para el negocio: BIT – Bussines Intelligence Tools – que
se ubican conceptualmente sobre el DW. Las herramientas pueden ser Consultas SQL (scripts), Herramientas MDA
3
El Middleware es un software de conectividad, servicios que hacen posible el funcionamiento de aplicaciones
distribuidas sobre plataformas heterogéneas. Funciona como una capa de abstracción de software distribuida, que se
sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). Proporciona una API para la fácil
programación y manejo de aplicaciones distribuidas. Dependiendo del problema a resolver y de las funciones
necesarias, serán útiles diferentes tipo de servicios de middleware.
Por lo general el middleware del lado cliente está implementado por el Sistema Operativo subyacente, el cual posee
las librerías que implementan todas las funcionalidades para la comunicación a través de la red.
32
Ing. Diana Dick – JTP SG0
(Multi dimensional analisyis), OLAP (On-line analyitical processing) y las de Data Mining. Las interfaces para el acceso y
uso deben ser obviamente simples. La tecnología OLAP es independiente de la implementación y permite el empleo de
cualquier base de datos, ya sea relacional (ROLAP: cuando se aplica modelo dimensional a una base de datos
relacional, guardan la información, incluyendo Tabla de Hechos en forma de relación) MOLAP (modelo dimensional a
una base de datos multidimensional, utilizan arrays para guardar conjuntos de datos multidimensionales), bases
orientadas a objetos, etc.-
Se puede resumir las herramientas de Análisis en tres tipos:
OLAP: aplicaciones dominadas por consultas complejas Ad Hoc o consultas que implican operadores de agregación y
agrupación, con muy buen soporte para condiciones booleanas complejas, funciones estadísticas y capacidad para el
análisis de series temporales. Los datos se almacenan en arrays multidimensionales.
SGDB relacionales optimizados: soportan consultas SQL y OLAP en forma eficiente.
Minería de Datos: Herramientas para análisis exploratorio de datos de gran tamaño/volumen.
5) Data Marts – DM
Es la Implementación de un DW pero de menor alcance, con soporte limitado para procesos analíticos por la simple
cuestión que está construido para determinados sector o tipo de usuario o un análisis específico. Siempre es menor que
un DW en complejidad y alcance de los datos que un DW. Es una Base de Datos para dar soporte a los procesos de
decisión departamentales. Agrupa datos asociados a un tema: Ventas, Compras, Distribución.- Concepto relacionado:
Escalabilidad.
Ventaja de los Data Marts
Permite personalización local
Menor cantidad de datos históricos
Uso local de recursos de procesamiento
Los departamentos puede elegir el software de análisis deseado
Menor costo unitario de procesamiento y almacenamiento
Carga de Data Marts
Un Data Mart se puede cargar de tres formas diferentes dependiendo de la arquitectura:
1) EL DM es cargado desde el DW mediante aplicaciones de carga (Modelo de Inmon)
2) El DM es una porción del DW y es cargado directamente desde las BD operacionales (Modelo de Kimball)
3) Sólo existe el DM, no el DW y es cargado directamente desde las BD operacionales (No recomendable)
Flujo de Datos
Existe un flujo de datos normal y predecible dentro del data warehouse. La figura muestra ese flujo.
Los datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas excepciones a esta regla).
Al ingresar al data warehouse, la información va al nivel de detalle actual y permanece ahí y se usa hasta que ocurra
uno de los tres eventos siguientes:
Sea eliminado
Sea resumido
Sea archivado
33
Ing. Diana Dick – JTP SG0
Con el proceso de desactualización/archivado en un data warehouse se mueve el detalle de la data actual a data
antigua, basado en el tiempo de los datos. Medios de almacenamiento: RAID, cintas, almacenamiento foto óptico.
El proceso de esquematización (agregación) usa el detalle de los datos para calcular los datos en forma ligera y
completamente resumidos.
Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayoría de datos encontrados en un data
warehouse, el flujo de la información es como se ha explicado.
Cómo modelar los Datos para un Data Warehouse?
Modelado Dimensional
Es una técnica de diseño lógico para presentar la información en un marco intuitivo que permita un acceso de alto
rendimiento. El Modelo Dimensional de Datos consta de:
Tablas Dimensionales
Conjunto de atributos, posee (en general) una sola clave primaria (PK)
Tabla de hechos
Conjunto de hechos, posee muchas claves foráneas (FK) que constituyen la clave primaria de esta tabla.
Proceso de
Esquematización
34
Ing. Diana Dick – JTP SG0
Representación de los datos
Definiciones:
Atributos: generalmente describen una característica de una cosa tangible (ej, tipo de producto, marca, tipo de
empaque,...). Se organizan (agrupan) en Dimensiones.
Facts – Hechos:
Es algo que se desea observar o analizar (ej: cantidad de clientes), pueden ser numéricos (mayoría) o Textos.
Clasificación de Hechos Numéricos
1) Aditivos: se pueden sumar en todas las dimensiones.
2) Semi-aditivos: se pueden sumar en todas las dimensiones excepto en la dimensión tiempo. En ésta se suman y se
divide por el número de períodos de tiempo.
3) No Aditivos: medidas de intensidad no aditivas en todas las dimensiones, se usa la función SQL_AVG
La estructura básica de un DW para el Modelo Multidimensional está definida por dos elementos: esquemas y tablas.
35
Ing. Diana Dick – JTP SG0
Tablas DW
Como cualquier base de datos relacional, un DW se compone de tablas.
Tablas Fact o de Hechos: Es la tabla central en un esquema dimensional y contiene los valores de las medidas de
negocios. Cada medida es tomada de la intersección de las dimensiones que la definen.
Tablas Lock_up o dimensionales: Estas tablas son las que se conectan a la tabla fact. Una tabla Lock-up
almacena un conjunto de valores que están relacionados con una dimensión particular. Están compuestas por una clave
primaria y esta clave debe ser a la vez componente de la clave primaria compuesta de la Tabla de Hechos.
Esquemas DW:
La colección de tablas en el DW se conoce como esquema.
Esquema estrella: Recibe este nombre por su estructura visual: una tabla central y un conjunto de tablas que la
“atienden” radicalmente. El centro consta de una o más tablas fact y los extremos son las tablas lock_up. Las métricas
más útiles son numéricas y aditivas. Tablas o dimensiones no normalizadas. Se minimiza el número de uniones en
consecuencia se incrementa el rendimiento de las consultas.
Esquemas snowflake (copo de nieve), Diferencia con el esquema estrella: las tablas lock_up están normalizadas,
reflejando las jerarquías, poca redundancia de datos y ocupan menos lugar en disco. No se recomienda por performance,
acceso a datos de tablas normalizadas. No provee soporte directo a las jerarquías dimensionales.
36
Ing. Diana Dick – JTP SG0
Esquemas Estrella y Copo de nieve
Jerarquías de agregación
Relacionado con hecho agregado, que es almacenamiento de sumarizaciones de un hecho con el objeto de mejorar la
performance de las consultas. Para ésto se definen:
Jerarquías de agregación: Las dimensiones se pueden organizar en Jerarquías de agregación. Una jerarquía es el
conjunto de elementos o campos de una dimensión, partiendo de la dimensión, los elementos se detallan
progresivamente hasta llegar al mayor nivel de detalle, estructura de árbol.
37
Ing. Diana Dick – JTP SG0
Niveles de agregación: nivel de detalle del elemento, se baja un nivel cuando se puede descomponer el dato en
atributos más detallados.
Ej: Dimensión Tiempo, raíz MesAño, semanas del mes, hojas.
Descomponer en jerarquías es crear otras tablas de hechos a partir de las dimensiones previstas y de las jerarquías a
analizar. Drill Down: analiza hacia niveles más bajos o detallados de jerarquías de dimensiones. Roll Up: de los niveles de
mayor detalle hacia la información de resumen o de sumarización, que es el mayor nivel de agregación. Las OLAP
sumarizan por defaut.
Ejemplo: Dimensión Organización Telefónica, Área: raíz, teléfonos internos de cada área son hojas.
Para tabla de hechos, el primer cubo, al analizar jerarquías se desprende otro cubo o hecho a analizar.
38
Ing. Diana Dick – JTP SG0
En la cotidianeidad, el uso del DW soporta dos actividades principales:
1) Acceso y Recuperación
2) Análisis e Informes
Además, este uso va evolucionando en fases:
3) Primera Fase: El DW se usa para informes y consultas predefinidas
4) Segunda Fase: Se utiliza para analizar los datos de resumen y de detalle, presentando los resultados en forma de
informes o gráficas (con herramientas de Data Mining)
5) Tercera Fase: A medida que los usuarios se familiarizan más con la calidad de los datos y con las herramientas,
comienzan a usar el DW con fines estratégicos, con análisis multidimensional y operaciones sofisticadas; acá es donde se
hace más intenso el uso de drilldown…rebanar y picar, y roll up.
¿Qué es Minería de Datos?
Tecnología que permite el análisis y modelización estadística de datos. Está soportado por plataformas potentes en
hardware, almacenamiento masivo, Data Warehouse y algoritmos de Data Mining.
Es la extracción de información oculta y predecible generalmente de un Data Warehouse, el objetivo es obtener
conocimiento útil y predecir tendencias y comportamientos que sirva para tomar decisiones proactivas para adaptarse al
entorno; apoyar el análisis explorador en conjuntos de datos de tamaño muy grandes.
El Data Warehouse dota a las organizaciones de memoria y el Data Mining de inteligencia.
Esquemáticamente:
¿Qué es Business Intelligence?
Combinación de consultas, servicios, aplicaciones y tecnologías para obtener, administrar, analizar y transformar datos en
información útil para desarrollar conocimiento aplicable.
39
Ing. Diana Dick – JTP SG0
Usuarios de BI
-Ejecutivos: Su atención está en la globalidad de los negocios.
-Tomadores de decisión de negocios: generalmente separados por áreas únicas: Finanzas, RRHH, etc.-
-Trabajadores de información: Típicamente, gerentes o staff de trabajo en el Back Office.
-Analistas de negocio: que desarrollarán análisis de datos de gran alcance, más a fondo.
40
Ing. Diana Dick – JTP SG0
TRABAJO PRÁCTICO Nº 2
Objetivo: Construir un DW para que la empresa TDC “The Drinking Company” pueda conocer:
1) Cantidad de litros y de productos adquiridos por cliente por mes.
2) Cantidad promedio de litros adquiridos por cliente por mes.
Observación: todo requerimiento debe incluir la dimensión tiempo. Los requerimientos están dados por lo que se busca
conocer o analizar.
Las tablas del sistema OLTP necesarias son:
Solución:
Construir los componentes del DW: Tabla de Hechos/Métricas, Tablas de Dimensiones, Diagrama de Modelado
Multidimensional.
Pasos a seguir
1) Identificar las variables: lo que se quiere analizar/saber. Corresponde al componente Métricas o Hechos. Se escriben
en la tabla de hechos.
2) Diseñar las dimensiones para cada hecho, es incorporar dimensiones y atributos de las dimensiones para dar
respuesta a los requerimientos. Es relacionar hechos y dimensiones por jerarquías.
41
Ing. Diana Dick – JTP SG0
o Analizar la granularidad del hecho: elementos que componen cada dimensión, dimensión dividida hasta el dato
más atómico, significa que cada descomposición genera una tabla: jerarquías.
o Decidir las dimensiones: cuáles dimensiones se necesitan para responder a los requerimientos y los atributos:
son datos de elementos/campos de la dimensión.
3) Diagramar el Modelo Multidimensional: esquema
Para el paso 1) Métricas:
Requerimiento 1: Cantidad de litros y de productos adquiridos por cliente por mes
Cantidad: cantidad de producto adquirido
Litros: Cantidad de litros en los productos
Requerimiento 2: Compra promedio de litros * cliente * mes
Promedio = Total litros
n compras (total de compras)
Para el Paso 2) Dimensiones y atributos
Cuáles son los atributos por los que se quieren ver los hechos:
Por cliente: Surge de Clientes Mayoristas, Minoristas, CLI_ID y para ambos, el nombre CLI_NOMBRE. No se necesitan
más datos para requerimientos.
Dimensión CLIENTE, PK: COD_CLIENTE, atributo: NOMBRE.
Por mes: de la tabla FACTURAS, la fecha FAC_FECHA y cliente CLI_ID. De la tabla DETALLE_FACTURA DET_ID que
traerá el detalle de cada factura, el código de producto y la cantidad del mismo: PRO_ID y DET_CANT relacionadas
ambas tablas por FAC_NUMERO.
Para obtener los litros se consulta la Tabla PRODUCTOS que tiene el dato del envase que identifica de cuántos litros es
cada envase de producto: PRO_ENVASE.
Dimensión TIEMPO: PK: COD_TIEMPO (generar autonumérico por performance y para eliminar ambigüedad en
comparaciones de fechas al interpretarlas según formato de fechas), atributos: MES, AÑO, MES NOMBRE.
Para obtener compras: se genera durante ETL con una consulta Query.
Aclaraciones:
Las PK son las relaciones entre tablas del modelo, observar la PK de la Tabla Hechos, es compuesta formada por las PK
de las dimensiones.
42
Ing. Diana Dick – JTP SG0
Ejemplo de Consulta para Script de Extracción de Datos:
¿Consultas?
ddick@ciec.com.ar; ddick@sistemas.frc.utn.edu.ar
43
Ing. Diana Dick – JTP SG0
Fuentes:
- Laudon-Laudon, Sistemas de Información Gerencial, Editorial Prentice Hall-Octava Edición
- http://www.bestpricecomputers.co.uk/glossary/decision-support-systems.htm
- Fundamentos de Data Warehouse
Mendez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R.
Centro de Actualización Permanente en Ingeniería del Software
Escuela de Postgrado - Instituto Tecnológico de Buenos Aires
- Data Warehouse – Bigatti Cristian – Grasso Mónica – UTN FRRo
- Inteligencia de Negocio – Maestría en Sistemas de Información – UTN Facultad Rosario
- Raghu Ramakrish – Gehrke Johannes - Sistemas de Gestión de Base de Datos – 3ª Edición

Más contenido relacionado

La actualidad más candente

Excel avanzado. Cuaderno de Ejercicios y Practicas
Excel avanzado. Cuaderno de Ejercicios y PracticasExcel avanzado. Cuaderno de Ejercicios y Practicas
Excel avanzado. Cuaderno de Ejercicios y PracticasConalep Puebla III
 
INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...
INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...
INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...CCNatalia
 
Manual microsoft office excel 2010
Manual microsoft office excel 2010Manual microsoft office excel 2010
Manual microsoft office excel 2010proneulsa
 
Manual de microsoft office access 2010
Manual de microsoft office access 2010Manual de microsoft office access 2010
Manual de microsoft office access 2010Javier Condori Flores
 
Trabajo de manual Word 2013
Trabajo de manual Word 2013Trabajo de manual Word 2013
Trabajo de manual Word 2013danitzapuris
 
Ejercicios Excel 2010
Ejercicios Excel 2010Ejercicios Excel 2010
Ejercicios Excel 2010Ismael Fanlo
 
Excelvbaplication 2010
Excelvbaplication 2010Excelvbaplication 2010
Excelvbaplication 2010ALEX GARCIA
 
Documentación de Proyecto de Software.
Documentación de Proyecto de Software.Documentación de Proyecto de Software.
Documentación de Proyecto de Software.Edgard Ramirez Huaccha
 
Revista word 2013
Revista word 2013Revista word 2013
Revista word 2013Juan Ospina
 
Presentacion
PresentacionPresentacion
Presentacionantoniapm
 
Manual de ususario de creacion y adminsitarcion de sitios web
Manual de ususario de creacion y adminsitarcion de sitios webManual de ususario de creacion y adminsitarcion de sitios web
Manual de ususario de creacion y adminsitarcion de sitios webJOELCERON PARADA
 

La actualidad más candente (17)

Manual de Excel 2013
Manual de Excel 2013Manual de Excel 2013
Manual de Excel 2013
 
Excel avanzado. Cuaderno de Ejercicios y Practicas
Excel avanzado. Cuaderno de Ejercicios y PracticasExcel avanzado. Cuaderno de Ejercicios y Practicas
Excel avanzado. Cuaderno de Ejercicios y Practicas
 
INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...
INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...
INTEGRATIVE DOCUMENT AND CONTENT MANAGEMENT: STRATEGIES FOR EXPLOITING ENTERP...
 
Access
AccessAccess
Access
 
Manual microsoft office excel 2010
Manual microsoft office excel 2010Manual microsoft office excel 2010
Manual microsoft office excel 2010
 
Planeación de Sistemas de Información
Planeación de Sistemas de InformaciónPlaneación de Sistemas de Información
Planeación de Sistemas de Información
 
Manual de microsoft office access 2010
Manual de microsoft office access 2010Manual de microsoft office access 2010
Manual de microsoft office access 2010
 
Manual excel basico2010
Manual excel basico2010Manual excel basico2010
Manual excel basico2010
 
Trabajo de manual Word 2013
Trabajo de manual Word 2013Trabajo de manual Word 2013
Trabajo de manual Word 2013
 
Ejercicios Excel 2010
Ejercicios Excel 2010Ejercicios Excel 2010
Ejercicios Excel 2010
 
Excelvbaplication 2010
Excelvbaplication 2010Excelvbaplication 2010
Excelvbaplication 2010
 
Documentación de Proyecto de Software.
Documentación de Proyecto de Software.Documentación de Proyecto de Software.
Documentación de Proyecto de Software.
 
Revista word 2013
Revista word 2013Revista word 2013
Revista word 2013
 
Presentacion
PresentacionPresentacion
Presentacion
 
Curso access
Curso accessCurso access
Curso access
 
978 84-9839-226-5
978 84-9839-226-5978 84-9839-226-5
978 84-9839-226-5
 
Manual de ususario de creacion y adminsitarcion de sitios web
Manual de ususario de creacion y adminsitarcion de sitios webManual de ususario de creacion y adminsitarcion de sitios web
Manual de ususario de creacion y adminsitarcion de sitios web
 

Destacado

Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
Diseño de PMO bajo entorno Scrum (Caso Práctico)
Diseño de PMO bajo entorno Scrum (Caso Práctico)Diseño de PMO bajo entorno Scrum (Caso Práctico)
Diseño de PMO bajo entorno Scrum (Caso Práctico)Jose Selaya
 

Destacado (6)

DATAMINING
DATAMININGDATAMINING
DATAMINING
 
Base De Datos Orientada A Objetos
Base De Datos Orientada A ObjetosBase De Datos Orientada A Objetos
Base De Datos Orientada A Objetos
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
 
Diseño de PMO bajo entorno Scrum (Caso Práctico)
Diseño de PMO bajo entorno Scrum (Caso Práctico)Diseño de PMO bajo entorno Scrum (Caso Práctico)
Diseño de PMO bajo entorno Scrum (Caso Práctico)
 
Data mart
Data martData mart
Data mart
 

Similar a Data warehouse y Data mining ING. DIANA DICK

Sistemas de informacion gerencial
Sistemas de informacion gerencial Sistemas de informacion gerencial
Sistemas de informacion gerencial Al Cougar
 
La teoría general de sistema en las organizaciones
La teoría general de sistema en las organizacionesLa teoría general de sistema en las organizaciones
La teoría general de sistema en las organizacionesAndreina Cat
 
Metrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacionMetrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacionAlex Crespin Mite
 
Metrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacionMetrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacionAlex Crespin Mite
 
Modelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdf
Modelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdfModelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdf
Modelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdfManuelQuintanaValien
 
Sistema de control, secuencia y termino
Sistema de control, secuencia y terminoSistema de control, secuencia y termino
Sistema de control, secuencia y terminoYadira Fuentes
 
Introducción a la gestión de sistemas de información en la empresa. Universit...
Introducción a la gestión de sistemas de información en la empresa. Universit...Introducción a la gestión de sistemas de información en la empresa. Universit...
Introducción a la gestión de sistemas de información en la empresa. Universit...Julio Iglesias Pascual
 
Introduccion ala gestion
Introduccion ala gestionIntroduccion ala gestion
Introduccion ala gestionAbigail mendez
 
Analitica web para la Empresa
Analitica web para la EmpresaAnalitica web para la Empresa
Analitica web para la EmpresaAlvaro Alfonso
 
Cobit 2(antecedes historia)2
Cobit 2(antecedes historia)2Cobit 2(antecedes historia)2
Cobit 2(antecedes historia)2diegonet373
 
Excel avanzado 2013
Excel avanzado 2013Excel avanzado 2013
Excel avanzado 2013flixpicado
 
Smdb Equipo11
Smdb Equipo11Smdb Equipo11
Smdb Equipo11antori
 
Smdb Equipo11
Smdb Equipo11Smdb Equipo11
Smdb Equipo11antori
 
BD OLAP Y BI para desarrollo como profesional.pdf
BD OLAP Y BI para desarrollo como profesional.pdfBD OLAP Y BI para desarrollo como profesional.pdf
BD OLAP Y BI para desarrollo como profesional.pdfexpertoleonelmartine
 
Analsis De Sistema
Analsis De SistemaAnalsis De Sistema
Analsis De SistemaVal Cornejo
 
Ebook reporting scg_estrategia_mejorar_v17
Ebook reporting scg_estrategia_mejorar_v17Ebook reporting scg_estrategia_mejorar_v17
Ebook reporting scg_estrategia_mejorar_v17Luis Muñiz González
 
Proyecto final info 3 jeny
Proyecto final info 3 jenyProyecto final info 3 jeny
Proyecto final info 3 jeny140710314
 
Proyecto final info jeny
Proyecto final info  jenyProyecto final info  jeny
Proyecto final info jeny140710314
 

Similar a Data warehouse y Data mining ING. DIANA DICK (20)

Sistemas de informacion gerencial
Sistemas de informacion gerencial Sistemas de informacion gerencial
Sistemas de informacion gerencial
 
La teoría general de sistema en las organizaciones
La teoría general de sistema en las organizacionesLa teoría general de sistema en las organizaciones
La teoría general de sistema en las organizaciones
 
Metrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacionMetrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacion
 
Metrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacionMetrica v3 diseno_del_sistema_de_informacion
Metrica v3 diseno_del_sistema_de_informacion
 
Modelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdf
Modelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdfModelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdf
Modelo de Procesos de Datos y Orientación a Objetos - Lectura M1.pdf
 
Sistema de control, secuencia y termino
Sistema de control, secuencia y terminoSistema de control, secuencia y termino
Sistema de control, secuencia y termino
 
Introducción a la gestión de sistemas de información en la empresa. Universit...
Introducción a la gestión de sistemas de información en la empresa. Universit...Introducción a la gestión de sistemas de información en la empresa. Universit...
Introducción a la gestión de sistemas de información en la empresa. Universit...
 
Introduccion ala gestion
Introduccion ala gestionIntroduccion ala gestion
Introduccion ala gestion
 
Analitica web para la Empresa
Analitica web para la EmpresaAnalitica web para la Empresa
Analitica web para la Empresa
 
Cobit 2(antecedes historia)2
Cobit 2(antecedes historia)2Cobit 2(antecedes historia)2
Cobit 2(antecedes historia)2
 
Excel avanzado 2013
Excel avanzado 2013Excel avanzado 2013
Excel avanzado 2013
 
UBP_SSD
UBP_SSDUBP_SSD
UBP_SSD
 
Smdb Equipo11
Smdb Equipo11Smdb Equipo11
Smdb Equipo11
 
Smdb Equipo11
Smdb Equipo11Smdb Equipo11
Smdb Equipo11
 
Smdb Equipo11
Smdb Equipo11Smdb Equipo11
Smdb Equipo11
 
BD OLAP Y BI para desarrollo como profesional.pdf
BD OLAP Y BI para desarrollo como profesional.pdfBD OLAP Y BI para desarrollo como profesional.pdf
BD OLAP Y BI para desarrollo como profesional.pdf
 
Analsis De Sistema
Analsis De SistemaAnalsis De Sistema
Analsis De Sistema
 
Ebook reporting scg_estrategia_mejorar_v17
Ebook reporting scg_estrategia_mejorar_v17Ebook reporting scg_estrategia_mejorar_v17
Ebook reporting scg_estrategia_mejorar_v17
 
Proyecto final info 3 jeny
Proyecto final info 3 jenyProyecto final info 3 jeny
Proyecto final info 3 jeny
 
Proyecto final info jeny
Proyecto final info  jenyProyecto final info  jeny
Proyecto final info jeny
 

Último

Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 

Último (20)

Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 

Data warehouse y Data mining ING. DIANA DICK

  • 1. 1 Ing. Diana Dick – JTP SG0 INDICE Introducción.......................................................................................................................................... 3 Principales Tipos de Sistemas en las Organizaciones ........................................................................... 3 Seis tipos principales de SI por niveles y funcionalidades................................................................ 4 Sistemas TPS (Sistemas de Procesamiento de Transacciones) – OLTP – Funciones principales, subfunciones y aplicaciones.............................................................................................................. 5 Aplicaciones comunes de los TPS. ................................................................................................ 5 Características de los sistemas de procesamiento de la información.............................................. 5 SSD Sistemas de Soporte a decisiones.............................................................................................. 6 Definición...................................................................................................................................... 6 TRABAJO PRÁCTICO Nº 1 – (Grupal)................................................................................................... 13 Revisión temas vistos.......................................................................................................................... 15 Premisa/Realidad:........................................................................................................................... 15 Problemas con los datos o Problemas que dan origen a un Data Warehouse (Warehouse=almacén, bodega) ............................................................................................................................................... 16 ¿Cómo pasamos de dato a información? ........................................................................................... 17 1) Diferencias entre Datos Operacionales y Datos Informativos (necesarios para Data Mining y distintos DSS) .................................................................................................................................. 17 Gráfica: Evolución desde los datos operacionales hasta la información para la Toma de Decisiones ................................................................................................................................... 17 ¿Cuáles son los requerimientos de los datos para que se transformen en información aplicable a la Toma de Decisiones?................................................................................................................... 18 Data Warehouse como respuesta al problema de los datos, a las necesidades de información, a la ventaja competitiva..................................................................................................................... 18 Definiciones de DW..................................................................................................................... 18 Características de un DW............................................................................................................ 18 Preguntas que puede responder:............................................................................................... 21 Fuentes de Datos ........................................................................................................................ 21 Estructura de un Data Warehouse ................................................................................................. 22 Usos del Data Warehouse............................................................................................................... 24 Perfil de las personas que utilizan un DW – Tipos de Usuario Final............................................... 27 Arquitectura de un Data Warehouse.............................................................................................. 28 Diseño y construcción de un DW.................................................................................................... 29 Elementos de la Arquitectura DW .................................................................................................. 30 1) OLTP........................................................................................................................................ 30 2) CONSOLIDACIÓN – ETL: Extraction Transformation Load...................................................... 30 Extracción.................................................................................................................................... 30 Transformación:.......................................................................................................................... 30 Carga: .......................................................................................................................................... 31 Metadatos:.................................................................................................................................. 31 3) Middleware: Componentes tecnológicos para el transporte................................................. 31 4) Herramientas de Acceso y Uso, Herramientas de Análisis..................................................... 31 5) Data Marts – DM..................................................................................................................... 32 Flujo de Datos ............................................................................................................................. 32 Cómo modelar los Datos para un Data Warehouse? ......................................................................... 33
  • 2. 2 Ing. Diana Dick – JTP SG0 Modelado Dimensional................................................................................................................... 33 Tablas Dimensionales................................................................................................................. 33 Tabla de hechos.......................................................................................................................... 33 Representación de los datos........................................................................................................... 34 Definiciones: ................................................................................................................................... 34 Atributos: .................................................................................................................................... 34 Facts – Hechos: ........................................................................................................................... 34 Clasificación de Hechos Numéricos ............................................................................................ 34 Tablas DW ................................................................................................................................... 35 Esquemas DW:............................................................................................................................ 35 Esquemas Estrella y Copo de nieve ................................................................................................ 36 Jerarquías de agregación ............................................................................................................ 36 ¿Qué es Business Intelligence?....................................................................................................... 38 Usuarios de BI ................................................................................................................................. 39 TRABAJO PRÁCTICO Nº 2 .................................................................................................................... 40 Solución:...................................................................................................................................... 40 Pasos a seguir.................................................................................................................................. 40 Ejemplo de Consulta para Script de Extracción de Datos:.......................................................... 42 Fuentes:....................................................................................................................................... 43
  • 3. 3 Ing. Diana Dick – JTP SG0 Introducción Principales Tipos de Sistemas en las Organizaciones Las empresas en su conjunto presentan distintos intereses, especialidades y niveles, por lo tanto, distintos tipos de requerimientos de información para distintos tipos de usuarios, y en consecuencia distintos tipos de sistemas para dar respuesta a estos requerimientos. Un solo sistema no alcanza por una sencilla razón: un proyecto está orientado a la aplicación/funcionalidad y ésto significa orientado a los requerimientos, según niveles organizativos y áreas funcionales. En consecuencia: Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial - A nivel operativo: apoyo a gerentes operativos, actualización (insertar, borra, modificar) y seguimiento de transacciones y actividades diarias. Objetivo: responder a preguntas de rutina, la información debe estar disponible al simple acceso y ser actual y precisa. Decisiones programadas, muchas automatizadas. - A nivel de conocimiento: apoya a trabajadores del conocimiento, quienes investigan y producen conocimiento o información nueva, perfil de usuarios: profesionales y a trabajadores de datos. Objetivo: integrar el nuevo conocimiento en los negocios y potenciar el control del trabajo de oficina (Ofimática) - A nivel administrativo: para actividades de supervisión, control, administración y Toma de Decisiones de los gerentes de nivel medio. Brindan informes periódicos. Algunos de éstos soportan decisiones no rutinarias con requisitos de información poco claros. Pueden responder a escenarios What-If (Programación lineal por ej.). Pueden requerir datos externos y/o datos internos que no están dados directamente por los sistemas operativos existentes. Objetivo: responder si van bien las cosas - A nivel estratégico: ayuda a enfoques estratégicos de negocio y tendencias a largo plazo a nivel interno como a nivel de contexto externo. Objetivo: su función principal es alinear la capacidad organizativa actual con los cambios del entorno, por ej.: ¿Qué productos se podrá y conviene producir dentro de 5 años?
  • 4. 4 Ing. Diana Dick – JTP SG0 Seis tipos principales de SI por niveles y funcionalidades Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial
  • 5. 5 Ing. Diana Dick – JTP SG0 Sistemas TPS (Sistemas de Procesamiento de Transacciones) – OLTP – Funciones principales, subfunciones y aplicaciones Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial Aplicaciones comunes de los TPS. Hay cinco categorías funcionales de TPS: ventas y marketing, manufactura y producción, finanzas y contabilidad, recursos humanos y otros tipos de sistemas específicos para una industria en particular. Cada una de estas funciones principales contiene subfunciones. Para cada una de estas subfunciones (por ejemplo, administración de ventas) hay un sistema principal de aplicaciones. Características de los sistemas de procesamiento de la información Tipo de Sistema Finalidad Entradas de Info Procesamiento Salidas de Info Usuarios ESS Para nivel estratégico, decisiones no rutinarias. Proveer capacidad general de cómputo y comunicaciones aplicable a problemas cambiantes. Datos acumulados; externos, internos. DSS y MIS internos. Requieren experiencia, evaluación y comprensión. Datos críticos Gráficas, simulaciones, interactivos. Proyecciones; respuestas a consultas Directores DSS Decisiones exclusivas, cambiantes rápidamente y no especificadas anticipadamente, sin procedimiento establecido de respuesta. Existen distintos tipos. Datos de bajo volumen o DB masivas optimizadas para el análisis de datos; modelos analíticos y herramientas de análisis de datos. TPS, MIS y fuentes externas: cotizaciones en bolsa Interactivo, simulaciones y análisis. Mayor poder analítico, interacción simple. What- if y preguntas nuevas Informes especiales; análisis de decisiones; respuestas a consultas Profesionales, gerentes de personal MIS Apoyo a las funciones de nivel administrativo; Datos resumidos de transacciones; datos de alto Informes de rutina: modelos simples; análisis Informes resumidos y Gerentes de nivel medio, interés en
  • 6. 6 Ing. Diana Dick – JTP SG0 informes a gerentes y acceso online a la performance de la empresa. Brindan info por períodos de tiempo, no diariamente***, apoyo a Planeación, Control y TD volumen; modelos simples. Dependen de TPS subyacentes. Datos internos. de bajo nivel. Preguntas predefinidas con procedimiento predefinido de respuesta. Poca flexibilidad y poca capacidad analítica. excepciones informes semanales, mensuales y anuales. KWS** Necesidades de información al nivel del conocimiento de la información. Ayuda a trabajadores del conocimiento Especificaciones de diseño, base del conocimiento Modelado, simulaciones Modelos; gráficos. Conocimientos nuevos. Profesionales, personal técnico, producen información Sistemas de Oficina Necesidades de información al nivel del conocimiento de la información. Ayuda a los trabajadores de datos. Distribuyen el conocimiento. Ofimática Documentos, programas Administración de documentos, programación, comunicación Documentos, programas, correo Oficinistas, procesan información TPS* Servicio a nivel operativo, suelen ser críticos. Para supervisar operaciones internas y relaciones de la empresa con el entorno. Info diaria Transacciones diarias/eventos Clasificación: listado; fusión; actualización Informes detallados, listas, resúmenes Personal de operaciones; supervisores Gráfica: Texto Laudon y Laudon: Sistemas de Informacion Gerencial *Tareas, recursos y metas se definen y estructuran a nivel operativo **Sistemas de trabajo del conocimiento: garantizan que el conocimiento nuevo y la experiencia técnica se integren adecuadamente en la empresa. Trabajadores del conocimiento: profesionales con títulos universitarios, su trabajo es descubrir conocimiento, crear información y conocimientos nuevos, investigadores. Trabajadores de datos: menor formación, procesan información más que crearla. ***Preguntas rutinarias, predefinidas con procedimiento predefinido para responder (decisiones automatizadas). Poco flexibles y poca capacidad analítica. DSS y ESS “se alimentan” o extraen información de los demás tipos de sistemas. Leer Capítulos 2, 3, 6, 7, 10 y 11 - Laudon La pregunta es: Cómo la extraen? Data Warehouse. SSD Sistemas de Soporte a decisiones Definición - Sistema de Soporte a Decisiones es un término general para describir alguna aplicación que mejore la habilidad del usuario para tomar decisiones. Más específicamente, el término es comúnmente usado para describir un sistema basado en computadora diseñado para ayudar a los tomadores de decisiones a usar los datos, el conocimiento y la tecnología para identificar problemas y tomar decisiones para resolver esos problemas. - Aplicaciones en las que se analizan y exploran conjuntamente datos actuales e históricos, se identifican tendencias útiles y se crean resúmenes de datos con el objeto de apoyar la toma de decisiones de alto nivel. - Herramienta de soporte para la Toma de Decisiones. Incorpora reglas/políticas de decisión (Por ejemplo Análisis Bayesiano, AHP, Simulaciones Programación Lineal con Análisis de Sensibilidad y análisis de datos no predefinidos en las posibilidades de un Executive Information System, entre éstos: Sistemas de presentación Sistemas de interrogación
  • 7. 7 Ing. Diana Dick – JTP SG0 Sistemas de simulación Sistemas funcionales Sistemas Expertos. Distintos Tipos de SSD (Capítulos 2, 7 y 11 Laudon) Según Laudon1 , dos tipos básicos de SSD: orientados a modelos y orientados a Datos. A Modelos: básicamente, los que responden a “Qué pasaría si…” o escenarios What-if. Ejemplo: un sistema que pronostica la capacidad de carga y establece un valor óptimo cada noche, el modelo utilizado es un modelo matemático de pronóstico. Si se tienen determinadas las variables necesarias, podría simularse con una aplicación de programación lineal. A Datos: Analizan grandes masas de datos, colaboran en la Toma de Decisiones extrayendo información oculta (patrones, indicadores, relaciones ocultas).El análisis de datos se hace mediante herramientas OLAP y minería de datos. Para comprender mejor, si se analiza el tipo de preguntas tradicionales que puede responder un TPS, como por ejemplo: ¿Cuántas unidades del producto 403 se vendieron en noviembre del 2002? Es un análisis bidimensional. Ejemplo: Las herramientas OLAP (orientados a datos) o análisis multidimensional pueden responder a preguntas mucho más complejas, del tipo: Comparar las ventas del producto 403 respecto del plan del trimestre y región de ventas durante los dos últimos años. Consultas Ad Hoc Creando las consultas en SQL, generalmente implican operadores de agrupación y de agregación. 1 Ver Fuentes Mes año q jun-02 5600 jul-02 3200 ago-02 6020 sep-02 3200 oct-02 1500 nov-02 4050 dic-02 3600 ene-03 4100 feb-03 2800 mar-03 5500 abr-03 5800 may-03 5900 jun-03 4900 jul-03 5400 ago-03 5700 sep-03 5500 oct-03 5800 nov-03 6000 dic-03 4800 ene-04 4900 feb-04 5010 mar-04 4900 abr-04 4800 Ventas mensuales Período Junio 2002 Abril 2004 0 1000 2000 3000 4000 5000 6000 7000 jun-02 ago-02 oct-02 dic-02 feb-03 abr-03 jun-03 ago-03 oct-03 dic-03 feb-04 abr-04 mes-año Cantidades cantidad
  • 8. 8 Ing. Diana Dick – JTP SG0 Las dimensiones analizadas son: Planificado contra real, para ambos la cantidad vendida q, trimestre y región. Gráficamente es una gráfica en 3D: Cómo se analiza este cubo? La vista (frontal, plana) que se está analizando es la comparación de trimestre con región. Si giro 90º hacia abajo, en el eje de las X quedan las regiones y en el eje de las Y lo planificado vs. lo real. Si giro el cubo 90º en sentido horario, lo que se ve es trimestre contra real y planificado. Quedaría al frente del cubo la proyección de ventas y la venta real en las X y en el eje de las Y los trimestres. Faltan las columnas y filas de sumarización. Un cubo completo sería como la imagen siguiente: http://www.dc.uba.ar/events/jadm/2006/docs/VaismanjornadasDM.pdf/view trimestres 1 2 3 4 Planificado Real Regiones Norte Este Oeste Sur Centro Ventas reales de producto 403, trimestre 3 región Centro. Ventas Producto 403
  • 9. 9 Ing. Diana Dick – JTP SG0 Consideremos un punto en el espacio. El espacio se define a través de sus ejes de coordenadas (por ejemplo X, Y, Z). Un punto cualquiera de este espacio quedará determinado por la intersección de tres valores particulares de sus ejes. Por supuesto, existen otras posibles vistas. Si a las Herramientas OLAP, agregamos extracción de datos se obtiene información de tipo asociación, secuencia, clasificación, agrupación y pronóstico. Asociaciones: relacionadas con un evento único, relaciones entre variables, se analizan por ejemplo con regresión lineal y frecuencia/proporción estadística, ej.: cada vez que se compra un auto de menos de determinado valor, se comprará equipo GNC el 90% de las veces, pero cuando se financian planes para comprar autos de mayor valor, también se compra equipo GNC el 70% de las veces. Secuencias: eventos relacionados con el tiempo: si se compra una casa, se detecta que en un período breve se comprarán determinados electrodomésticos y muebles el 65% de las veces y en un próximo período de tiempo, que no tiene que ser necesariamente igual al primero, se comprarán otros electrodomésticos y/o alguno. Clasificaciones: detecta patrones que describen el clasificación al que pertenece un ente determinado. Por ejemplo: Bancos y compañías de celulares se preocupan ante la pérdida de clientes fijos. Esta clasificación puede ayudar a detectar las características y comportamientos particulares de los pertenecientes a esta clase tal que se pueda decir que es probable que se retiren y en consecuencia, predecir quiénes son estos clientes para lanzar campañas o estrategias que les permitan retenerlos. Agrupaciones: Similar a la clasificación pero aún no se determinó ningún grupo. Alguna herramienta de extracción de datos detecta o descubre los grupos dentro de los datos, así agrupa personas por afinidades para promover determinado bien o servicio o fraccionar una DB en grupos de clientes según cantidad de habitantes y tipos de inversiones/compras, servicios, etc. Herramientas que utiliza la extracción de datos: Redes Neuronales Inteligencia Artificial Análisis Estadístico Lógica Difusa Algoritmos genéticos Algoritmos basados en reglas En definitiva: patrones y relaciones ocultas que servirán para pronosticar y guiar la Toma de Decisiones. También para descubrimiento del conocimiento o Knowlegde Discovery. bservación importante: Por qué se mencionan y describen los tipos de información que se obtiene y los tipos de DSS? PARA SABER SELECCIONAR QUÉ TIPO DE SISTEMA DE INFORMACIÓN O SSD (CUAL CUBRE LAS FUNCIONALIDADES ESPECIFICADAS O EL DE MAYOR PODER ANALÍTICO SEGÚN REQUERIMIENTOS) SE SUGIERE COMO INGENIERO, CONOCIENDO PERFECTAMENTE LOS REQUERIMIENTOS DEL CLIENTE. NO SUGERIR UN DATA WAREHOUSE SIN CONOCER EL DOMINIO DEL PROBLEMA NI ELOBJETIVO DE CADA DSS. ¡ESCALABILIDAD! Retomando SSD Orientados a Datos o Data Driven DSS Aplicaciones que soportan la Toma de Decisiones permitiendo a los usuarios extraer y analizar información útil que previamente fue almacenada en grandes bases de datos. Acceden y manipulan series de tiempo sobre datos internos. Frecuentemente los TPS se recolectan en un Data Warehouse. El análisis multidimensional y las herramientas de Data Mining pueden después analizar los datos. Enfocados en la provisión de datos internos y a veces externos para ganar en la Toma de Decisiones. Ejemplo: Geographic Information Systems- GIS. O
  • 10. 10 Ing. Diana Dick – JTP SG0 Una posible implementación de SSD: SSD Orientados a modelos o Model Driven DSS Principalmente son sistemas stand alone que tienen en su núcleo un modelo matemático o una representación en hoja de cálculo como modelo. El énfasis está en el modelo (simulación), escenarios y sensibilidad “What-if” tales como programación lineal. SSD para CRM Utilizan Data Mining para guiar las decisiones respecto a precios, fidelización de clientes, mercados compartidos y corrientes de ingresos. Estos sistemas consolidan típicamente información de clientes desde una variedad de sistemas en DW masivos y usan herramientas analíticas para “rebanar” información en delgados segmentos para marketing personalizado. Detección de estratos, conglomerados, grupos. GIS Geographic Information System Categoría especial de DSS que usa tecnología de visualización de datos para analizar y mostrar datos para la Toma de Decisiones y el planeamiento en forma de mapas digitalizados. Este software puede almacenar, mostrar, manipular y mostrar geográficamente información referenciada, vinculando datos a puntos, líneas y áreas en un mapa. Los GIS pueden usarse para soporte a decisiones que requieren conocimiento respecto a distribución geográfica de gente en otros recursos como investigación científica, administración de recursos y planeamiento de desarrollo. Ejemplo: Ayuda al gobierno y estado local en tiempo de respuesta en una emergencia o desastre natural, o ayudar a los bancos a identificar la mejor localización para instalar nuevas sucursales o terminales ATM o para decidir mejor emplazamiento para una construcción edilicia específica.
  • 11. 11 Ing. Diana Dick – JTP SG0 CDSS Customer Decision Support System Para la Toma de decisiones orientado a potenciales clientes. Los datos provienen tanto de fuentes internas como externas, incluyendo sistemas de empresas y la web. La web e Internet proveen acceso a distintas bases de datos y fondos de información. Junto con el soft para análisis de datos. GDSS Group Decision Support system (Diferencia con un DSS) Sistema interactivo que facilita la solución de problemas no estructurados dada por un conjunto de tomadores de decisiones trabajando juntos como equipo. GDSS han sido desarrollados en respuesta al interés creciente sobre calidad y efectividad de las reuniones. En general, DSS se enfoca en la Toma de Decisiones individuales, el GDSS soporta Toma de Decisiones de un grupo. Contribuyen a mayor asistencia y productividad de las reuniones. Implementan métodos estructurados para organizar y evaluar ideas, preservar los resultados de las reuniones y aumentar la cantidad de ideas. Otra clasificación separa en 7 amplias categorías, asistiendo cada una a la Toma de Decisiones mediante métodos diferentes. * Communications Driven DSS Tipo de sistema que mejora la toma de decisiones en grupo mediante posibilitar las comunicaciones y compartir la información entre grupos de personas. En su nivel más básico un C-D DSS podría ser un simple hilo de varios mails o mails reenviados mediante reenviar, responder, distribuir a listas masivas, etc. En su nivel más complejo, podría ser una aplicación web-conference o video interactivo. Estos sistemas exhiben como mínimo una de estas características: -Soportan coordinación y colaboración entre dos o más personas -Facilitan compartir información -Posibilitan las comunicaciones entre grupos de personas -Soportan decisiones grupales * Data-Driven DSS Una forma de sistema de soporte orientado a la provisión de datos internos y a veces externos para asistir a la Toma de Decisiones. La mayoría de éstos frecuentemente serán del tipo Data Warehouse, que es una base de datos diseñada para almacenar datos de tal manera que permiten distintas consultas y análisis de usuarios. Otro ejemplo de DD DSS podría ser un GIS, que puede usarse para representar visualmente dependencia geográfica de datos usando mapas. * Document-Driven DSS Sistemas de soporte diseñados para convertir documentos en datos de valor de negocio. Mientras un data driven DSS depende de datos que ya están en un formato estandarizado que se presta para el almacenamiento en bases de datos y análisis, en tanto los sistemas de soporte a decisiones orientados a documentos utilizan datos que no se pueden estandarizar y almacenar fácilmente. Las tres formas básicas de datos usados en sistemas orientados a documentos son: - Oral (p.e. conversaciones transcriptas); - Escritos (p.e. informes, memos, e-mail y otras correspondencias); - Video (p.e. comerciales de televisión y noticias). Estos formatos permiten fácilmente el almacenamiento en bases de datos estandarizadas y el análisis, así los gerentes requieren herramientas de sistemas de soporte a decisiones para convertirlos en valiosos en el proceso de toma de decisión. Los sistemas orientados a documentos constituyen un campo de estudio nuevo en sistemas de Soporte a Decisiones. Ejemplos de herramientas SSD orientadas a documentos pueden encontrarse en los motores de búsqueda de Internet, diseñados para buscar a través de grandes volúmenes de datos mediante el uso de palabras claves de
  • 12. 12 Ing. Diana Dick – JTP SG0 búsqueda. * SSD orientados al conocimiento Knowledge-Driven DSS SSD orientados al conocimiento son sistemas diseñados para recomendar acciones a los usuarios. Típicamente son diseñados para “escudriñar” en grandes volúmenes de datos, identificar patrones escondidos en los datos y presentar recomendaciones basadas en esos patrones. * Model-Driven DSS Estos sistemas incorporan la habilidad de manipular datos para generar informes estadísticos y financieros, así como modelos de simulación para asistir en la Toma de Decisiones. Pueden ser extremadamente útiles en pronosticar el impacto de los cambios en los procesos de negocio, así como pueden usar los datos del pasado para responder preguntas de tipo What if complejas a los tomadores de decisiones. Además de estos tipos básicos de SSD hay dos divisiones más: basados en hojas de cálculo y basados en la web. * Spreadsheet-based DSS Los sistemas de soporte a decisiones orientados a modelos y a datos pueden construirse usando hojas de cálculo, que ofrecen a los tomadores de decisión facilidades para comprender representaciones en grandes cantidades de datos. Además, los datos se disponen de manera tal que facilitan la conversión de datos en visualizaciones/gráficos para asistir aún más en la toma de decisiones. * Web-based DSS Algunos tipos de sistemas pueden ser basados en la web. El término describe simplemente un sistema de soporte que es operado a través de una interface web browser, aunque los datos usados para la Toma de decisiones permanezcan confinados a sistemas legados como un data Warehouse. Alcances de un SSD Además de estos tipos básicos de SSD, hay también dos categorías bien diferenciadas para definir sistemas: * Enterprise-wide DSS Sistemas vinculados en grandes entornos data warehouse y ofrecen soporte a decisiones a los administradores en todos los niveles de la empresa. Estos sistemas podrán ser típicamente básicos, de uso general que pueden ejecutar uan amplia variedad de funciones. * Desktop DSS Los SSD de escritorio son aplicaciones mucho más pequeñas diseñadas para ejecutarse desde una PC de escritorio. Mientras estos sistemas puedan vincularse bien a un Data Warehouse u otro sistema de grandes volúmenes de datos, serán típicamente más limitados en alcances. Ejemplo: MS Excel. Recomendaciones: Leer sobre los temas vistos, inteligencia Artificial, Algoritmos genéticos, lógica difusa… Componentes de un SSD…GIS…GDSS… capítulos 7 y 11 del Laudon ☺ LEER!!!
  • 13. 13 Ing. Diana Dick – JTP SG0 TRABAJO PRÁCTICO Nº 1 – (Grupal) a) Elaborar cuadro comparativo entre los OLTP y OLAP. b) Cuadro comparativo de Herramientas Analíticas (Bussines Intelligence en sitios de Oracle, Microsoft SQL, Informix, Pentaho, Weka, etc.) c) Para los siguientes supuestos: ¿Cuáles conocimientos necesitan para diseñar/desplegar una soluciónr? ¿Cuáles aplicaciones, sistemas y/o herramientas recomendaría o implementaría?. Fundamentar explicando por qué cada elección en particular. Puntuación: a) y b): 20% cada uno; c) 60%. Supuesto 1) Huracán en Golfo de México avanzando hacia Texas. Elaborar plan de contingencia ante una catástrofe natural. El plan debe contemplar la distribución de agua potable, alimentos, vacunas, medicamentos, mantas y ropa para la población, como también patrullas de rescate animal con las provisiones de agua potable, alimentos balanceados, vacunas, medicamentos, jaulas de viaje, camiones .- Datos: A nivel global se cuenta con información demográfica, censos poblacionales humanos, ganaderos y conteo bastante aproximado de animales en estado salvaje además de registros exactos de reservas naturales. Se puede obtener también datos sobre cantidades de animales domésticos y refugios animales. Entre los datos poblacionales, se clasificó en grupos por edades y por sexo y asociado a estos grupos las necesidades alimentarias básicas, sanitarias y de vestimenta para cada grupo, también mantas, bolsas de dormir, etc. Se sabe también de manera certera los recursos sanitarios disponibles del estado para catástrofes y la cantidad de personal de Defensa Civil, Ejército, fuerzas especiales y ONG´s que estarán afectados hasta la evacuación y asistencia total de todos los seres que serán atendidos. Se sabe cuáles son los centros de asistencia y refugios humanos y animales más cercanos disponibles, pero fuera de peligro, y las capacidades de los mismos. Las distancias terrestres y aéreas están dadas también, entre centros de asistencia y desde puntos de partida del personal afectado a rescate. Se calculará al momento las necesidades de combustible. También se conoce al momento los caminos que van quedando bloqueados. Qué información adicional buscar? Cuáles valores, estimaciones, variables y datos relacionados hacen falta? Proponer. Qué o cuáles sistemas implementaría? Supuesto 2) El análisis se hace en Argentina y tiene dos enfoques de interés: rentabilidad y desarrollo sustentable. En base a las cotizaciones de la soja en las bolsas de Tokio y Nueva York en los últimos 10 años, se quiere saber si al año 2018 se podrá seguir explotando este cultivo, territorio o región del país apta y conveniente
  • 14. 14 Ing. Diana Dick – JTP SG0 para esta actividad, de cuánto será la producción por región y si luego de un análisis de suelo con todas las variables que involucra, sabiendo que la humedad y la temperatura afectan en general a todo tipo de cultivo, se puede cambiar de cultivo o si el suelo debe quedar sin explotación. Cuáles valores, estimaciones, variables y datos relacionados hacen falta? Proponer. Qué información buscar? Qué o cuáles sistemas implementaría? d) Proponer una situación real en la que usted implementaría las aplicaciones vistas, las que crea óptimas.
  • 15. 15 Ing. Diana Dick – JTP SG0 Revisión temas vistos Premisa/Realidad: Hemos visto que la especificación de funcionalidades y requerimientos de cada proyecto determinará cómo serán los entregables, qué ejecutarán las aplicaciones y cuáles serán; es decir “la solución de negocio”. Uno de los impactos mencionados está en los datos: Distintos formatos, distintos lenguajes, etc. Vimos los sistemas clasificados según jerarquía organizacional, áreas funcionales, funciones de éstas y perfiles -skills- de usuarios. En resumen: TIPOS DE SISTEMAS EIS - ESS*: Decisiones no rutinarias, problemas nuevos Nivel estratégico Pronósticos de Tendencias a largo plazo a nivel interno y externo Planificaciones de negocio a mediano y largo plazo. En general posicionamiento deseado. Estrategia. Objetivo: Alinear a la empresa frente a los cambios de negocio. Adaptar a la empresa al estado del ambiente futuro. Usuarios: Directores, ejecutivos senior. MIS: Decisiones predefinidas con procedimiento de respuesta. DSS: Decisiones únicas, sin procedimiento de respuesta. Administración de ventas, inventario, presupuesto, Inversiones, etc. Usuarios: Gerencia media Análisis regional de ventas, de clientes, costos. Programación de la producción, análisis de fijación de precios. Usuarios: Analistas de negocio, profesionales, Gerentes medios. Nivel Administrativo Objetivo: Evaluar cómo está la empresa, dar soporte a actividades de Gerencia. Objetivo: Decisiones cambiantes rápidamente, no especificadas anticipadamente. Proveer análisis de decisiones. KWS** Trabajo de Datos: Función principal: Procesamiento de datos. Aplicaciones: Ofimática – Office Automation Systems Nivel de Conocimiento Objetivo: Dar soporte a la distribución del conocimiento corporativo, al trabajo integral de oficina. Usuarios: Administrativos, oficinistas, menor capacitación que trabajadores de datos Trabajo del conocimiento: (intellectual worker o brain Worker). Función principal: Crear conocimiento e información nuevos, incorporándolos; una de las más importantes es el conocimiento de saber cuándo aplicar la tecnología. Otra: Asociar fuentes de conocimiento corporativo para administrar y compartir mejores prácticas- Know how-Essentials de cada empresa Usuarios: Profesionales, Gerentes, colaboradores con el desarrollo de BI TPS – OLTP: Decisiones rutinarias, programadas, implementadas Nivel Operativo Actividades: Actualizaciones (I, U, D) registro y tracking de transacciones diarias. Objetivo: Dar soporte a las funciones y subfunciones de este nivel. Usuarios: Gerentes Operativos Aclaración: la tabla no agrupa por área funcional, se nombran simplemente algunas actividades. * EIS: están clasificados como un tipo especializado de MIS - DSS o referenciados también como ESS, actualmente es un término desplazado a favor de Business Intelligence, que incluye informes, herramientas analíticas y tableros de comandos. Generalmente, un EIS provee datos que sólo podrían necesitarse para
  • 16. 16 Ing. Diana Dick – JTP SG0 soporte a decisiones de nivel ejecutivo en lugar de los datos de toda la empresa. EL énfasis de los EIS está en interfaces de usuario de uso/interacción simple y en la visualización o presentación gráfica. ** El conocimiento es un activo intangible. El Know How de cada empresa es parte de su posición en el mercado y contribuye a la cultura organizacional, al comportamiento interno y externo de la misma. Vimos también que hay aplicaciones previstas, diseñadas para encontrar información oculta y aplicar Minería de Datos para cantidades masivas de datos que permita hacer Inteligencia de Negocios. Se mencionaron Herramientas OLAP y cómo el Análisis Multidimensional permite responder a preguntas más complejas o a consultas que involucren n variables o n dimensiones. Se mencionó el problema con los datos.- Más en detalle: Problemas con los datos o Problemas que dan origen a un Data Warehouse (Warehouse=almacén, bodega) A medida que las empresas incorporan/actualizan distintas aplicaciones, actualizan plataformas, configuraciones de hardware y software, en definitiva: migran sus sistemas, los datos actuales y pasados quedan propagados a través de múltiples sistemas, en distintas unidades de negocio y con distintos formatos: se vuelven inaccesibles en forma directa. Inclusive pueden estar localizados en distintos países de una misma corporación. Sin embargo existe, entre sistemas caducos y los TPS actuales, abundancia de datos. En síntesis: Abundancia de datos, pero no ayudan a la toma de decisiones: corren sobre sistemas previstos para consultas estandarizadas, pero no se adaptan a las necesidades cambiantes de negocio. La información que ofrecen es generalizada, no adaptada a cada necesidad de usuario para tomar decisiones. Ej: De un reporte codificado, no se puede modificar online la consulta para que responda a un interrogante puntual. Falta de integración y consistencia en la información: distintos archivos, distintos sistemas, distintos lenguajes, distintos formatos, no estandarización de formato y tipo de datos a través de migraciones de sistemas. Datos no consolidados. No soportan fácil exploración. No están disponibles en forma permanente. Información Genérica, no personalizada ni agrupada ni clasificada; en contraposición se habló de asociaciones, secuencias, clasificaciones, grupos. Otra realidad es que las empresas reconocen que una forma de aumentar su eficiencia (diferenciar entre eficiencia y eficacia), es lograr ventajas competitivas y reaccionar rápidamente frente a los cambios. La clave para ésto está en hacer un buen uso de la información que ya tienen pero, a la vez, saben que no han logrado.
  • 17. 17 Ing. Diana Dick – JTP SG0 La razón principal es la evolución de la tecnología que lleva a migrar plataformas, es decir arquitecturas y de ésto depende fundamentalmente conseguir buena información: de la arquitectura actual en hardware y software. ¿Cómo pasamos de dato a información? Éste es el interrogante central. 1) Diferencias entre Datos Operacionales y Datos Informativos (necesarios para Data Mining y distintos DSS) Datos Operacionales Orientados a una aplicación Integración limitada Constantemente actualizados Sólo valores actuales Soportan operaciones diarias Datos Informativos Orientados a un tema Integrados No volátiles Valores a lo largo del tiempo Soportan decisiones de administración Significa en síntesis que dato no es información. Gráfica: Evolución desde los datos operacionales hasta la información para la Toma de Decisiones DW
  • 18. 18 Ing. Diana Dick – JTP SG0 ¿Cuáles son los requerimientos de los datos para que se transformen en información aplicable a la Toma de Decisiones? Datos que sean accesibles a múltiples aplicaciones, tal que pueda obtenerse información específica para un determinado conjunto de usuarios para la Toma de decisiones (Integrados, soporte a Toma de Decisiones, consistentes). Datos que crucen por varias aplicaciones (Integrados y accesibles). Reorganizados por temas de negocio (Orientados a un tema) Que contengan valores históricos para obtener pronósticos y analizar tendencias (No volátiles, valores a lo largo del tiempo). Que estén disponibles para análisis de manera fácil y flexible durante períodos prolongados de tiempo; por ejemplo: analizar una tendencia requiere períodos de varios años (Acceso fácil y Valores disponibles a lo largo del tiempo). Consolidación de datos para que sean consistentes y accesibles. Ejemplo: las mismas unidades de medida para el mismo atributo en los distintos sistemas TPS. Data Warehouse como respuesta al problema de los datos, a las necesidades de información, a la ventaja competitiva. Definiciones de DW - Conjunto de datos integrados orientados a una materia (optimización del uso de info), que varían con el tiempo y no son transitorios, los cuales soportan el proceso de toma de decisiones de una organización, permiten aplicar técnicas de análisis de datos para obtener indicadores, información oculta. - Arquitectura que sirve como infraestructura para proporcionar una solución completa al problema de los datos. - “El Data WareHouse es una colección de datos orientados a un tema, integrados, no volátiles e históricos, organizados para el apoyo a un proceso de toma de decisiones”. Bill Inmon en su obra de referencia “Using the Data WareHouse”. - Información consolidada de varias bases de datos. - Bases de Datos para dar soporte a todos los procesos de decisión de la organización. Características de un DW - Orientado a Usuarios/Temas: aspectos de interés para la empresa. Obviamente los temas de interés afectan al diseño del DW. Excluye datos no usados para tomar decisiones. Los procesos de negocio no son considerados en el proceso de diseño del DW.
  • 19. 19 Ing. Diana Dick – JTP SG0 - Integración: Se refleja en convenciones/estandarización de nombres, en la unidad de medida de las variables, en la codificación de variables, etc. “La capacidad colectiva de muchos diseñadores de aplicaciones para crear aplicaciones inconsistentes, es fabulosa…” http://www.sqlmax.com/quienes.asp . Ejemplos: - Formatos de fecha: yymmdd, mmddyy, ddmmyy… - Codificación de variables: DatosAfiliado.NombreApellido, Nombreapellido, nombreapellido, nya… - Blob, long…char, varchar, string…
  • 20. 20 Ing. Diana Dick – JTP SG0 Gráficamente: Cuando los datos se mueven al Data Warehouse desde las aplicaciones orientadas al ambiente operacional, los datos se integran antes de entrar al depósito. - No volátil: La información permanece, no se actualiza en el sentido habitual de una actualización. Existe una carga masiva inicial y luego actualizaciones periódicas, pero no del tipo insertar, borra, modificar. Una de las ventajas es la optimización del acceso a datos. Validaciones contra datos ya depurados e integrados, sin inconsistencias. Algunas de las ventajas de la no volatilidad son: Manejo de datos mucho más simple Eliminación de todo el proceso de actualización de datos en línea: backup y recuperación, transacción e integridad, detección y solución de deadlock (tiempo de bloqueo de un registro, no implementar exclusión mutua si es posible para evitar inconsistencia, puede ser útil condición de espera circular) Optimización del acceso a datos
  • 21. 21 Ing. Diana Dick – JTP SG0 - De tiempo variante: Incluye datos históricos. Tiempo variante significa dos cosas en DW: 1) El horizonte de tiempo de un DW es de 5 a 10 años. En TPS el horizonte de tiempo es hasta 90 días generalmente. 2) La otra forma de mostrar el tiempo variante se refiere a la estructura clave, cada una contiene un elemento de tiempo como día, semana, mes, etc. - Condensa y agrega información: No tiene el nivel de detalle de los datos operacionales, sin embargo se puede descomponer por ejemplo una fecha en unidades más pequeñas para mejor análisis: día, mes, año. Preguntas que puede responder: - Cuál es el perfil de mis clientes? - Cómo es su comportamiento? - Cuál es la rentabilidad que me deja? - Cuál es el riesgo que corro con él? - Qué servicios y productos utiliza y cómo puedo incrementarlos? EL fin de un Data Warehouse es ayudar a la administración a comprender el pasado y planear para el futuro. Las preguntas que se busca responder, en general son: ¿Qué compran nuestros clientes? ¿Qué no compran? ¿Cuáles incentivos funcionaron antes con los mismos clientes en esta misma época del año? ¿Cuántos de nuestros vendedores visitan al mismo cliente? ¿Qué están haciendo en este momento nuestros competidores? ¿Cómo comparar nuestros costos para cada línea de producto durante estos últimos tres años? El potencial del Data Warehouse es obtener datos de los sistemas operacionales para ayudar a las empresas en la toma de mejores decisiones. Fuentes de Datos Datos Internos del entorno operacional de la organización, Legacy Systems, Archivos XML, DB Operacionales de distintas plataformas y de distintos sistemas operativos, Spreadsheet y Datos Externos.-
  • 22. 22 Ing. Diana Dick – JTP SG0 Estructura de un Data Warehouse Se basa en diferentes niveles de esquematización y detalle que delimitan un Data Warehouse. Esta estructura es clave y es la que determinará la utilidad real de un Data Warehouse para la Toma de Decisiones. Sus diferentes componentes son: Detalle de datos actuales: En éste se centra el mayor interés debido a tres factores principales: refleja ocurrencias recientes, que son de gran interés y aportan los datos actualizados para todo método de pronósticos o FORECASTING. Su volumen importante, almacenado al más bajo nivel de granularidad, con todo el potencial de extraer patrones. Es de fácil acceso, ya que se almacena en disco, no obstante la administración de éstos es compleja y costosa. Detalle de datos antiguos: Almacenada sobre algún medio de almacenamiento masivo debido a su gran volumen, a un nivel de detalle consistente con los datos detallados actuales y no es accedida frecuentemente. Por esto, es poco usual guardar esta información en disco. Datos ligeramente resumidos: Proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual, se almacena en disco y para construir este nivel se toman dos parámetros; la unidad de tiempo sobre el esquema determinado y los atributos que tendrá la data resumida. Datos completamente resumidos: Son datos compactos y fácilmente accesibles, sin importar dónde se almacene ya que pueden o no estar dentro del ambiente del Data Warehouse. Metadatos Básicamente, son datos/propiedades de los datos, están en una dimensión distinta a la de otros datos, debido a que el contenido no se extrae directamente del ambiente operacional, pueden definirse como directorio para que el analista encuentre los contenidos del Data Warehouse. Informan el mapping de la transformación de los datos del entorno operacional al del DW. Por estas razones, son más importantes en un Data Warehouse que en ámbitos operacionales. Es uno de los elementos del repositorio o directorio de datos. Aspecto técnico clave: Forma de conservar la información en el almacén de datos. Ejemplo: Niveles de Esquematización que podría encontrarse en un data Warehouse. De nivel más antiguo a completamente resumido hay diferentes grados de granularidad. El detalle de ventas antiguas se
  • 23. 23 Ing. Diana Dick – JTP SG0 encuentra antes de 1992. Todos los detalles de ventas desde 1982 (o cuando se inició la colección de archivos) son almacenados en el nivel de detalles más antiguo. Detalle actual: de 1992-1993, suponiendo 1993 año actual. Detalle de ventas no ingresa al detalle actual hasta que no hayan pasado, mínimo, 24 hs. de disponibilidad de esta información en el ambiente operacional. – Ventas mensuales por línea de producto 1981- 1993Venta Nacional por mes: 1985-1993 Nivel Completamente resumido Nivel Ligeramente Resumido Ventas semanales por subproducto 1985-1993Venta regional por mes: 1983-1993 Nivel de detalle actual Detalle de Ventas 1992-1993 (año actual) META DATA Estructura de los Datos Algoritmos de esquematización Mapping de Datos Directorio de Contenidos Ventas antiguas – Detalle de Ventas 1982-1991 Nivel de detalles o de datos más antiguos o detalle histórico
  • 24. 24 Ing. Diana Dick – JTP SG0 A nivel completamente resumido: Directores, Gerentes y Analistas de Negocio, profesionales especializados, etc.- A más altos niveles de esquematización, más uso de los datos.- A nivel ligeramente resumido, Gerentes. Detalle de Datos actuales: Analistas de Negocio, Gerentes mandos intermedios. Por lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A más alto nivel de esquematización, se tiene mayor uso de los datos. En la Figura Población de Usuarios se muestra que hay mayor uso de los datos completamente resumidos, a diferencia de la información antigua que apenas es usada. Usos del Data Warehouse Los datos operacionales y los datos del data warehouse son accedidos por usuarios que usan los datos de maneras diferentes: Uso de Base de Datos Operacionales Uso de Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas predefinidas y actualizables Consultas complejas, frecuentemente no anticipadas. Tareas predefinidas Acceso a datos complejos, en forma no predecible ----------------------- Soporta proceso drilling down2 . Acceso a una sola DB generalmente de una aplicación Acceso a conjuntos de datos desde fuentes múltiples, sólo se conoce el conjunto inicial de datos establecido en el depósito Cantidades pequeñas de datos detallados Cantidades grandes de datos detallados Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Sólo pocos usuarios acceden a los datos concurrentemente En contraste a la producción de sistemas que pueden manejar cientos o miles de usuarios concurrentes, a un data warehouse acceda un limitado conjunto de usuarios en cualquier tiempo determinado. Los usuarios generan un procesamiento no predecible complejo Los usuarios del data warehouse generan consultas complejas no predecibles o ad hoc. A veces la respuesta a una consulta conduce a la formulación de otras preguntas más detalladas, en un proceso llamado drilling down. El data warehouse puede incluir niveles de resúmenes múltiples, derivado de un conjunto principal, único, de datos detallados, para soportar este tipo de uso. 2 Ver Pág. 33 – Figura Drill Down y Roll Up
  • 25. 25 Ing. Diana Dick – JTP SG0 Esto es así porque los usuarios frecuentemente comienzan buscando en los datos resumidos, al identificar áreas de interés, comienzan a acceder al conjunto de datos detallado. Los conjuntos de datos resumidos representan el "Qué" de una situación y los conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre "Cómo" se ha derivado esa situación. Las consultas de los usuarios acceden a cantidades grandes de datos Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al data warehouse permiten acceder a volúmenes muy grandes tanto de data detallada como resumida. Debido a los requerimientos de datos históricos, los data warehouses evolucionan para llegar a un tamaño más grande que sus orígenes operacionales (de 10 a 100 veces más grande). Las consultas de los usuarios no tienen tiempos de respuesta críticos Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta. En el data warehouse, por el contrario, tiene un requerimiento de respuesta no-crítico porque el resultado frecuentemente se usa en un proceso de análisis y toma de decisiones. Aunque los tiempos de respuesta no son críticos, los usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta. Hay una buena razón para mover una organización al paradigma sugerido en la figura: la utilización del recurso. La data más resumida, permite capturar los datos en forma más rápida y eficiente. Si en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data Warehouse (nivel más bajo del DW, con mayor grado de detalle), entonces se consumirán muchos recursos de máquina. Es mejor hacer el procesamiento a niveles más altos de esquematización como sea posible. Para muchas tareas, el analista de sistemas de soporte de decisiones usa la información a nivel de detalle en un pre- data warehouse. La seguridad de la información de detalle se consigue de muchas maneras, aun cuando estén disponibles otros niveles de esquematización. Una de las actividades del diseñador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle más bajo. El diseñador de datos puede tener dos alternativas: Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos. Señalar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de esquematización, a diferencia de un pobre tiempo de respuesta que resulta de trabajar con los datos a un nivel bajo de detalle. Para ilustrar cómo un data warehouse puede ayudar a una organización a mejorar sus operaciones, se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse. Ejemplo: Preparación de un reporte complejo Problema bastante típico en una compañía de fabricación grande en el que se pide una información (un reporte) que no está disponible.
  • 26. 26 Ing. Diana Dick – JTP SG0 El informe incluye las finanzas actuales, el inventario y la condición de personal, acompañado de comparaciones del mes actual con el anterior y el mismo mes del año anterior, con una comparación adicional de los 3 años precedentes. Se debe explicar cada desviación de la tendencia que cae fuera de un rango predefinido. Sin un data warehouse, el informe es preparado de la manera siguiente: La información financiera actual se obtiene desde una base de datos mediante un programa de extracción de datos, el inventario actual de otro programa de extracción de otra base de datos, la condición actual de personal de un tercer programa de extracción y la información histórica desde un backup de cinta magnética o CD-ROM. Lo más interesante es que se ha pedido otro informe que continúe al primer informe (debido a que las preguntas se originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aquí (p. ej., diversos programas de extracción) se pueden usar para los próximos o para cualquier reporte subsiguiente. Imagine el tiempo y el esfuerzo que se ha desperdiciado por un enfoque anticuado, gráficamente: Las inconsistencias deben identificarse en cada conjunto de datos extraídos y resolverse, por lo general, manualmente. Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido. Nuevamente, el punto importante aquí es que todo el trabajo desempeñado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y productividad. Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios: Las inconsistencias de los datos se resuelven automáticamente cuando los elementos de datos se cargan en el data warehouse, no manualmente, cada vez que se prepara un reporte. Los errores que ocurrieron durante el proceso complejo de la preparación del informe, se minimizan porque el proceso es ahora mucho más simple.
  • 27. 27 Ing. Diana Dick – JTP SG0 Los elementos de datos son fácilmente accesibles para otros usos, no sólo para un reporte particular. Se crea una sola fuente. Perfil de las personas que utilizan un DW – Tipos de Usuario Final Su trabajo se basa en la información derivando lo obtenido en recomendaciones empresariales. Son especialistas en analizar la información, “rebanar y picar” de distintas maneras para obtener hechos acerca de clientes, mercados y productos para mejorar predicciones y hallar tendencias; “Power Users” o Buzo de información. Las decisiones que se tomarán se basan en hechos, que es lo que se intenta detectar, en definitiva: Ejecutivos/Gerentes/Administradores, Responsables de Departamento/Area/Sección, Analistas de mercado, financieros, de negocio, ingenieros, y finalmente Usuarios de Soporte, etc. y cada uno de ellos tiene su propio conjunto de requerimientos para los datos, acceso, flexibilidad y facilidad de uso. La siguiente tabla es una guía de las herramientas a utilizar según tipo de usuario. Elija la Herramienta adecuada Tipo de Herramienta Pregunta básica Modelo de Salida Usuario típico Consulta y Reporte ¿Qué sucedió? Reportes de ventas mensuales; histórico de inventario Necesita data histórica y puede tener aptitud técnica limitada Procesamiento analítico en línea (OLAP) ¿Qué sucedió y por qué? Ventas mensuales vs. Cambios de precio de los competidores Necesita ir de una visión estática de los datos a "slicing and dicing, rebanar y picar", usuario técnicamente astuto Sistema de Información Ejecutiva (SIE) ¿Qué necesito conocer ahora? Libros electrónicos; Centros de comandos Necesita información resumida o de alto nivel puede no ser técnicamente astuto Data mining ¿Qué es interesante? ¿Qué podría pasar? Modelos predictivos Necesita extraer la relación y tendencias de la data ininteligible, técnicamente astuto. Nota: las herramientas Data Mining requieren expertos en técnicas de análisis de datos y se necesitan para pronósticos avanzados, clasificación y creación del modelo.
  • 28. 28 Ing. Diana Dick – JTP SG0 Arquitectura de un Data Warehouse La arquitectura de referencia del Data Warehouse divide los componentes en los siguientes bloques: APIs
  • 29. 29 Ing. Diana Dick – JTP SG0 Diseño y construcción de un DW Es importante y válido adoptar el mismo ciclo de perfeccionamiento que todos los desarrollos de software, pudiendo ser en cascada también.- Modelizar datos Localizar datos Desarrollar Extracción Definir Data Marts Construir procedimientos replicación Cargar y replicar Análisis de Especificaciones Proceso Iterativo de Construcción 3º 4º 5º 6º 7º 1º 2º
  • 30. 30 Ing. Diana Dick – JTP SG0 Elementos de la Arquitectura DW 1) OLTP Sistemas fuente de datos: sistemas corporativos, transaccionales departamentales, fuentes externas como backups, archivos planos, investigaciones de mercado, etc. 2) CONSOLIDACIÓN – ETL: Extraction Transformation Load Es el proceso de migrar los datos del OLTP a las Bases de Datos OLAP. Generalmente, consume el 80% del tiempo de desarrollo Extracción: Capturar y copiar los datos requeridos desde los OLTP u otras fuentes. Los datos extraídos son llevados a un archivo intermedio con formato definido que se usará en el siguiente paso: Transformación. Durante la extracción, los registros rechazados quedan en un archivo log de rechazos para ser analizados y determinar si pueden ser recuperados para llevarlos al DW. Este análisis sirve también para detectar errores en la creación de los datos operacionales; ejemplos: claves duplicadas, violaciones de integridad, formatos incorrectos o cualquier dato inválido. Después de la carga inicial, la actualización consiste solamente en cargar datos nuevos y los que fueron modificados. Transformación: Principalmente integración de datos, se leen los archivos intermedios, se transforman eliminando inconsistencias, se construyen los registros en formato DW y se crea un archivo de salida con todos los registros nuevos que entrarán al DW. La mayor tarea acá es la transformación. Ésta incluye: • Combinar campos múltiples de nombres y apellidos en un solo campo. • Fusionar campos o datos homónimos. • Separar un campo de fecha en campos de mes, año y día (podría seguir subdividiéndose) • Cambiar la representación de los datos, ejemplo: en lugar de TRUE, 1 y 0 en lugar de FALSE; datos numéricos a alfanuméricos.
  • 31. 31 Ing. Diana Dick – JTP SG0 • Llevar a una codificación común aquellos datos que aparecen codificados de distintas maneras pero corresponden al mismo dato Carga: Registros formateados en la transformación y cargados al DW, que contiene todos los datos informativos, actuales e históricos. Los datos que llegaron aquí rara vez son actualizados o eliminados. Debería haber una fuerte justificación para la eliminación. Metadatos: Directorio de datos. Datos acerca de los datos. La importancia de éstos está en lograr un buen mantenimiento del DW. El contenido de los metadatos es similar a los de cualquier base de datos, desde que un DW es una DB relacional, sólo que con tablas sin normalizar. Funciones: -Ayudar al Analista a ubicar los contenidos del DW o DMart -Guiar el mapeo de datos, en la medida en que el dato es transformado. -Guiar los algoritmos usados para agregación y sumarización. Contenido: Identificación de la fuente de datos, descripción de la transformación sufrida al pasar el dato al DW o Data Mart, información descriptiva del DW o DM (tablas, atributos, relaciones, es decir el modelo de datos del DW), definición de los términos usados; Ejemplos: primary and foreign key, objetos y descripción de la base, tablas, nombres y resúmenes. Descripciones lógicas y físicas de tablas, columnas y atributos, etc. Niveles y métodos de sumarización, tablas de registros del DW. Definición de las vistas, que pueden ser múltiples, para atender las preferencias/necesidades variadas de distintos grupos de usuarios. 3) Middleware: Componentes tecnológicos para el transporte Componentes tecnológicos para el transporte3 . Básicamente APIs traductoras de distintas tecnologías, entre otras cosas gestionan las comunicaciones con el DW. 4) Herramientas de Acceso y Uso, Herramientas de Análisis Deben proveer fácil acceso y uso, capturar rápidamente datos importantes y posibilitar distintos tipos de análisis. También transformar los datos capturados en información útil para el negocio: BIT – Bussines Intelligence Tools – que se ubican conceptualmente sobre el DW. Las herramientas pueden ser Consultas SQL (scripts), Herramientas MDA 3 El Middleware es un software de conectividad, servicios que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Funciona como una capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). Proporciona una API para la fácil programación y manejo de aplicaciones distribuidas. Dependiendo del problema a resolver y de las funciones necesarias, serán útiles diferentes tipo de servicios de middleware. Por lo general el middleware del lado cliente está implementado por el Sistema Operativo subyacente, el cual posee las librerías que implementan todas las funcionalidades para la comunicación a través de la red.
  • 32. 32 Ing. Diana Dick – JTP SG0 (Multi dimensional analisyis), OLAP (On-line analyitical processing) y las de Data Mining. Las interfaces para el acceso y uso deben ser obviamente simples. La tecnología OLAP es independiente de la implementación y permite el empleo de cualquier base de datos, ya sea relacional (ROLAP: cuando se aplica modelo dimensional a una base de datos relacional, guardan la información, incluyendo Tabla de Hechos en forma de relación) MOLAP (modelo dimensional a una base de datos multidimensional, utilizan arrays para guardar conjuntos de datos multidimensionales), bases orientadas a objetos, etc.- Se puede resumir las herramientas de Análisis en tres tipos: OLAP: aplicaciones dominadas por consultas complejas Ad Hoc o consultas que implican operadores de agregación y agrupación, con muy buen soporte para condiciones booleanas complejas, funciones estadísticas y capacidad para el análisis de series temporales. Los datos se almacenan en arrays multidimensionales. SGDB relacionales optimizados: soportan consultas SQL y OLAP en forma eficiente. Minería de Datos: Herramientas para análisis exploratorio de datos de gran tamaño/volumen. 5) Data Marts – DM Es la Implementación de un DW pero de menor alcance, con soporte limitado para procesos analíticos por la simple cuestión que está construido para determinados sector o tipo de usuario o un análisis específico. Siempre es menor que un DW en complejidad y alcance de los datos que un DW. Es una Base de Datos para dar soporte a los procesos de decisión departamentales. Agrupa datos asociados a un tema: Ventas, Compras, Distribución.- Concepto relacionado: Escalabilidad. Ventaja de los Data Marts Permite personalización local Menor cantidad de datos históricos Uso local de recursos de procesamiento Los departamentos puede elegir el software de análisis deseado Menor costo unitario de procesamiento y almacenamiento Carga de Data Marts Un Data Mart se puede cargar de tres formas diferentes dependiendo de la arquitectura: 1) EL DM es cargado desde el DW mediante aplicaciones de carga (Modelo de Inmon) 2) El DM es una porción del DW y es cargado directamente desde las BD operacionales (Modelo de Kimball) 3) Sólo existe el DM, no el DW y es cargado directamente desde las BD operacionales (No recomendable) Flujo de Datos Existe un flujo de datos normal y predecible dentro del data warehouse. La figura muestra ese flujo. Los datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas excepciones a esta regla). Al ingresar al data warehouse, la información va al nivel de detalle actual y permanece ahí y se usa hasta que ocurra uno de los tres eventos siguientes: Sea eliminado Sea resumido Sea archivado
  • 33. 33 Ing. Diana Dick – JTP SG0 Con el proceso de desactualización/archivado en un data warehouse se mueve el detalle de la data actual a data antigua, basado en el tiempo de los datos. Medios de almacenamiento: RAID, cintas, almacenamiento foto óptico. El proceso de esquematización (agregación) usa el detalle de los datos para calcular los datos en forma ligera y completamente resumidos. Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayoría de datos encontrados en un data warehouse, el flujo de la información es como se ha explicado. Cómo modelar los Datos para un Data Warehouse? Modelado Dimensional Es una técnica de diseño lógico para presentar la información en un marco intuitivo que permita un acceso de alto rendimiento. El Modelo Dimensional de Datos consta de: Tablas Dimensionales Conjunto de atributos, posee (en general) una sola clave primaria (PK) Tabla de hechos Conjunto de hechos, posee muchas claves foráneas (FK) que constituyen la clave primaria de esta tabla. Proceso de Esquematización
  • 34. 34 Ing. Diana Dick – JTP SG0 Representación de los datos Definiciones: Atributos: generalmente describen una característica de una cosa tangible (ej, tipo de producto, marca, tipo de empaque,...). Se organizan (agrupan) en Dimensiones. Facts – Hechos: Es algo que se desea observar o analizar (ej: cantidad de clientes), pueden ser numéricos (mayoría) o Textos. Clasificación de Hechos Numéricos 1) Aditivos: se pueden sumar en todas las dimensiones. 2) Semi-aditivos: se pueden sumar en todas las dimensiones excepto en la dimensión tiempo. En ésta se suman y se divide por el número de períodos de tiempo. 3) No Aditivos: medidas de intensidad no aditivas en todas las dimensiones, se usa la función SQL_AVG La estructura básica de un DW para el Modelo Multidimensional está definida por dos elementos: esquemas y tablas.
  • 35. 35 Ing. Diana Dick – JTP SG0 Tablas DW Como cualquier base de datos relacional, un DW se compone de tablas. Tablas Fact o de Hechos: Es la tabla central en un esquema dimensional y contiene los valores de las medidas de negocios. Cada medida es tomada de la intersección de las dimensiones que la definen. Tablas Lock_up o dimensionales: Estas tablas son las que se conectan a la tabla fact. Una tabla Lock-up almacena un conjunto de valores que están relacionados con una dimensión particular. Están compuestas por una clave primaria y esta clave debe ser a la vez componente de la clave primaria compuesta de la Tabla de Hechos. Esquemas DW: La colección de tablas en el DW se conoce como esquema. Esquema estrella: Recibe este nombre por su estructura visual: una tabla central y un conjunto de tablas que la “atienden” radicalmente. El centro consta de una o más tablas fact y los extremos son las tablas lock_up. Las métricas más útiles son numéricas y aditivas. Tablas o dimensiones no normalizadas. Se minimiza el número de uniones en consecuencia se incrementa el rendimiento de las consultas. Esquemas snowflake (copo de nieve), Diferencia con el esquema estrella: las tablas lock_up están normalizadas, reflejando las jerarquías, poca redundancia de datos y ocupan menos lugar en disco. No se recomienda por performance, acceso a datos de tablas normalizadas. No provee soporte directo a las jerarquías dimensionales.
  • 36. 36 Ing. Diana Dick – JTP SG0 Esquemas Estrella y Copo de nieve Jerarquías de agregación Relacionado con hecho agregado, que es almacenamiento de sumarizaciones de un hecho con el objeto de mejorar la performance de las consultas. Para ésto se definen: Jerarquías de agregación: Las dimensiones se pueden organizar en Jerarquías de agregación. Una jerarquía es el conjunto de elementos o campos de una dimensión, partiendo de la dimensión, los elementos se detallan progresivamente hasta llegar al mayor nivel de detalle, estructura de árbol.
  • 37. 37 Ing. Diana Dick – JTP SG0 Niveles de agregación: nivel de detalle del elemento, se baja un nivel cuando se puede descomponer el dato en atributos más detallados. Ej: Dimensión Tiempo, raíz MesAño, semanas del mes, hojas. Descomponer en jerarquías es crear otras tablas de hechos a partir de las dimensiones previstas y de las jerarquías a analizar. Drill Down: analiza hacia niveles más bajos o detallados de jerarquías de dimensiones. Roll Up: de los niveles de mayor detalle hacia la información de resumen o de sumarización, que es el mayor nivel de agregación. Las OLAP sumarizan por defaut. Ejemplo: Dimensión Organización Telefónica, Área: raíz, teléfonos internos de cada área son hojas. Para tabla de hechos, el primer cubo, al analizar jerarquías se desprende otro cubo o hecho a analizar.
  • 38. 38 Ing. Diana Dick – JTP SG0 En la cotidianeidad, el uso del DW soporta dos actividades principales: 1) Acceso y Recuperación 2) Análisis e Informes Además, este uso va evolucionando en fases: 3) Primera Fase: El DW se usa para informes y consultas predefinidas 4) Segunda Fase: Se utiliza para analizar los datos de resumen y de detalle, presentando los resultados en forma de informes o gráficas (con herramientas de Data Mining) 5) Tercera Fase: A medida que los usuarios se familiarizan más con la calidad de los datos y con las herramientas, comienzan a usar el DW con fines estratégicos, con análisis multidimensional y operaciones sofisticadas; acá es donde se hace más intenso el uso de drilldown…rebanar y picar, y roll up. ¿Qué es Minería de Datos? Tecnología que permite el análisis y modelización estadística de datos. Está soportado por plataformas potentes en hardware, almacenamiento masivo, Data Warehouse y algoritmos de Data Mining. Es la extracción de información oculta y predecible generalmente de un Data Warehouse, el objetivo es obtener conocimiento útil y predecir tendencias y comportamientos que sirva para tomar decisiones proactivas para adaptarse al entorno; apoyar el análisis explorador en conjuntos de datos de tamaño muy grandes. El Data Warehouse dota a las organizaciones de memoria y el Data Mining de inteligencia. Esquemáticamente: ¿Qué es Business Intelligence? Combinación de consultas, servicios, aplicaciones y tecnologías para obtener, administrar, analizar y transformar datos en información útil para desarrollar conocimiento aplicable.
  • 39. 39 Ing. Diana Dick – JTP SG0 Usuarios de BI -Ejecutivos: Su atención está en la globalidad de los negocios. -Tomadores de decisión de negocios: generalmente separados por áreas únicas: Finanzas, RRHH, etc.- -Trabajadores de información: Típicamente, gerentes o staff de trabajo en el Back Office. -Analistas de negocio: que desarrollarán análisis de datos de gran alcance, más a fondo.
  • 40. 40 Ing. Diana Dick – JTP SG0 TRABAJO PRÁCTICO Nº 2 Objetivo: Construir un DW para que la empresa TDC “The Drinking Company” pueda conocer: 1) Cantidad de litros y de productos adquiridos por cliente por mes. 2) Cantidad promedio de litros adquiridos por cliente por mes. Observación: todo requerimiento debe incluir la dimensión tiempo. Los requerimientos están dados por lo que se busca conocer o analizar. Las tablas del sistema OLTP necesarias son: Solución: Construir los componentes del DW: Tabla de Hechos/Métricas, Tablas de Dimensiones, Diagrama de Modelado Multidimensional. Pasos a seguir 1) Identificar las variables: lo que se quiere analizar/saber. Corresponde al componente Métricas o Hechos. Se escriben en la tabla de hechos. 2) Diseñar las dimensiones para cada hecho, es incorporar dimensiones y atributos de las dimensiones para dar respuesta a los requerimientos. Es relacionar hechos y dimensiones por jerarquías.
  • 41. 41 Ing. Diana Dick – JTP SG0 o Analizar la granularidad del hecho: elementos que componen cada dimensión, dimensión dividida hasta el dato más atómico, significa que cada descomposición genera una tabla: jerarquías. o Decidir las dimensiones: cuáles dimensiones se necesitan para responder a los requerimientos y los atributos: son datos de elementos/campos de la dimensión. 3) Diagramar el Modelo Multidimensional: esquema Para el paso 1) Métricas: Requerimiento 1: Cantidad de litros y de productos adquiridos por cliente por mes Cantidad: cantidad de producto adquirido Litros: Cantidad de litros en los productos Requerimiento 2: Compra promedio de litros * cliente * mes Promedio = Total litros n compras (total de compras) Para el Paso 2) Dimensiones y atributos Cuáles son los atributos por los que se quieren ver los hechos: Por cliente: Surge de Clientes Mayoristas, Minoristas, CLI_ID y para ambos, el nombre CLI_NOMBRE. No se necesitan más datos para requerimientos. Dimensión CLIENTE, PK: COD_CLIENTE, atributo: NOMBRE. Por mes: de la tabla FACTURAS, la fecha FAC_FECHA y cliente CLI_ID. De la tabla DETALLE_FACTURA DET_ID que traerá el detalle de cada factura, el código de producto y la cantidad del mismo: PRO_ID y DET_CANT relacionadas ambas tablas por FAC_NUMERO. Para obtener los litros se consulta la Tabla PRODUCTOS que tiene el dato del envase que identifica de cuántos litros es cada envase de producto: PRO_ENVASE. Dimensión TIEMPO: PK: COD_TIEMPO (generar autonumérico por performance y para eliminar ambigüedad en comparaciones de fechas al interpretarlas según formato de fechas), atributos: MES, AÑO, MES NOMBRE. Para obtener compras: se genera durante ETL con una consulta Query. Aclaraciones: Las PK son las relaciones entre tablas del modelo, observar la PK de la Tabla Hechos, es compuesta formada por las PK de las dimensiones.
  • 42. 42 Ing. Diana Dick – JTP SG0 Ejemplo de Consulta para Script de Extracción de Datos: ¿Consultas? ddick@ciec.com.ar; ddick@sistemas.frc.utn.edu.ar
  • 43. 43 Ing. Diana Dick – JTP SG0 Fuentes: - Laudon-Laudon, Sistemas de Información Gerencial, Editorial Prentice Hall-Octava Edición - http://www.bestpricecomputers.co.uk/glossary/decision-support-systems.htm - Fundamentos de Data Warehouse Mendez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R. Centro de Actualización Permanente en Ingeniería del Software Escuela de Postgrado - Instituto Tecnológico de Buenos Aires - Data Warehouse – Bigatti Cristian – Grasso Mónica – UTN FRRo - Inteligencia de Negocio – Maestría en Sistemas de Información – UTN Facultad Rosario - Raghu Ramakrish – Gehrke Johannes - Sistemas de Gestión de Base de Datos – 3ª Edición