SlideShare una empresa de Scribd logo
1 de 56
Base de Datos.
 Primera Parte
◦ Introducción
◦ OLTP VS OLAP
◦ Limpieza de datos e integración
 Segunda Parte
◦ Modelo de datos y diseño de Bodegas
 Tercera Parte
◦ Minería de Datos
 No puedo encontrar los datos que necesito
◦ Datos dispersos en la red.
◦ Muchas versiones diferencias sutiles
 No puedo obtener los datos que necesito
◦ Necesito experto para obtener los datos
 No entiendo los datos que obtengo
◦ Pobre documentación de datos
 No puedo usar los datos que encuentro
◦ Resultados inesperados
◦ Datos necesitan ser transformados de una forma a otra.
 Bodega de datos es una colección de datos,
orientada a temas, integrada, no volátil, y
variante en el tiempo que soporta decisiones
administrativas. Datos obtenidos de una
variedad de fuentes diferentes, a disposición
de los usuarios finales en lo que pueden
entender y utilizar en un contexto
empresarial
Que epoca del año
es mejor para
lanzar promociones?
Quienes son los clientes
y que productos estan
Comprando?
Que clientes son mas
probables que se vayan
a la competencia?
Que impacto tiene
los nuevos
servicios/productos en
las ganancias?
Que producto
tiene el mayor impacto
en las ganancias?
Cual es el canal de
distribucion mas
Efectivo?
 Agregación y suma de varios conjuntos de
datos.
 Agrupamiento (Cluster)
 Detectar Tendencias
 Proyecciones Multi-dimensionales (Como
influye el una variable en otra)
OLTP
• Orientado a aplicaciones
• Usado para manejar
negocios
• Usuarios de oficina
• Detalle de datos
• Datos actuales
• Accesos repetitivos en
pequeñas transacciones
• Acceso de lectura y
escritura
OLAP
• Orientado a un tema.
• Usados para analizar
negocios
• Administrador/Analista
• Suma de datos
• Datos tomados en cierto
periodo.
• Accesos usando
búsquedas extensas.
• Mayormente lectura
(Cambios por lotes)
Tiempo 60/90 Dias 5 a 10 años
Cambio de Registros Sofisticado Fotos de Datos
Llave puede no contener Llave debe contener
elemento de tiempo elemento de tiempo
Variante en el Tiempo
Manipulación Carga/Acceso en
De datos registro Masa
a registro
No Volátil
Un Data mart es una versión especial de almacén
de datos (data warehouse). Son subconjuntos de
datos con el propósito de ayudar a que un área
específica dentro del negocio pueda tomar mejores
decisiones. Los datos existentes en este contexto
pueden ser agrupados, explorados y propagados
de múltiples formas para que diversos grupos de
usuarios realicen la explotación de los mismos de
la forma más conveniente según sus necesidades.
Puede ser simplemente una copia de parte de un
DataWarehouse para uso departamental.
 Fácil acceso a los datos que se necesitan
frecuentemente.
 Crea vista colectiva para grupo de usuarios.
 Mejora el tiempo de respuesta del usuario
final.
 Facilidad de creación.
 Costo inferior al de la aplicación de un
completo almacén de datos.
 Los usuarios potenciales son más
claramente identificables que en un
almacén de datos completo
Bodega de
Datos
UNIDAD
OLTP
UNIDAD
OLTP
UNIDAD
OLTP
LIMPIEZA DE
DATOS
E
INTEGRACION
Cambios/retroalimentación
Retroalimentacion
Introduccion a Bodega de Datos
 Datos Sucios
◦ Multiplicidad de códigos
◦ Igual significado “EN LA WEB”, es igual que “EN
INTERNET” .
◦ Varios Estándares.
m,f
pipeline - cm
appl A - pipeline - cm
appl B - pipeline - in
appl C - pipeline - feet
appl D - pipeline - yds
appl A - m,f
appl B - 1,0
appl C - x,y
appl D - male, female
Bodega de Datos
 Datos Faltantes, Falsos y Duplicados
◦ Falta la edad del empleado.
◦ Días de incapacidad digitados erróneamente.
◦ Duplicación de datos en los diferentes OLTP o
misma OLTP.
◦ Duplicación en el significado (Jon G. Ordonez,
aparece en otra OLTP como Jon Geiler Ordonez.)
 Inconsistencia
◦ Códigos mal digitados (El codigo de genero es M/F,
se encuentran datos con 1/0).
◦ Códigos que no tienen significado (AL), no tiene
ningún significados en los códigos usados.
◦ Inconsistencia de datos duplicados (Dos datos son
encontrados con la misma persona pero ambos
tiene direcciones difentes)
 No puede ser automatizada.
 Requiere considerable conocimientos que
es tácticamente y mas allá de los
competencias en Bodega de Datos
(Medidas, Políticas, Geografía).
 Complejidad se incrementa con el
incremento en base de datos.
 Complejidad se incrementa con datos
históricos.
Problema a Detectar Tecnica Usada
Valores No Legales (Max, Min), Desviacion, Media
Falta de Estandares Comparacion de Columnas
(Compara los valores en
determinada columna en toda la
tabla)
Duplicados y Datos No Digitados Comparar con numero de filas,
Detectar nulos, usar reglas para
predecir datos incorrectos y no
digitados
Para garantizar el uso de los mejores datos posibles para la
bodega, se deben tener en cuenta los siguientes pasos:
 Identificar la fuente de datos con la mejor calidad: Es posible que
se encuentren varias fuentes con los mismos datos, pero en
algunas se tenga mejor calidad de los mismos.
 Identificar variaciones en palabras : Como errores de ortografía y
mayúscula y minúscula.
 Discutir problemas de datos con el equipo.
 Arreglar los problemas de datos en las fuentes cuando sea
posible, en vez de hacerlo en el proceso ETL o directamente a la
bodega.
 SI existen muchos problemas en las fuentes, arreglarlos en el
proceso ira en contra del rendimiento, estos problemas deber
ser responsabilidad de los sistemas fuentes.
 Realizar tareas de limpieza sobre los datos.
 Tres funciones separadas: ETL
◦ Extracción – Leer los datos de fuentes de datos
especificadas y extraer el grupo de datos deseado.
◦ Transformación – Uso de reglas o búsqueda de
tabla, o creando combinaciones con otros datos,
para convertir fuente de datos en los estados
deseados
◦ Cargar : Escribir los datos resultantes en la base de
datos destino
 Desarrollo del ETL
◦ Oportunidad para eliminar datos inservibles
◦ Normalmente 80% verificando integridad y reglas de
negocio
◦ Contar con un involucrado del negocio que pueda
tomar decisiones acerca de las reglas
 Combinar fuentes de datos dispares en una
sola estructura.
◦ Integración de Esquemas: Crear e integrar
esquemas con fuentes de datos disparejas.
◦ Integración de Datos: Limpiar y concatenar datos de
diferentes fuentes de datos
 Retos
◦ Nombres diferentes
◦ Estructuras diferentes
◦ Tipo de datos diferentes
◦ Campos Faltantes
◦ Semántica diferente
Por ejemplo :
Carros (Noserie, Modelo, Color, Estero..)
Autos (Serialnr, Model, Color)
Optionen(Serialnr, Stereo,..)
Extractor Extractor Extractor
Mediador
 Extractor
◦ Crea una vista común para toda las fuentes de
datos.
◦ Realiza el puente en las diferencias de nombre,
tipos y estructuras.
 Mediador
◦ Construye e integra esquemas.
◦ Realiza la integración de datos y pasa la
información a la bodega de datos.
 La Bodega de datos puede fallar sin una
apropiada estrategia de transformación es
desarrollada.
◦ Limpieza de Datos
◦ Integración de Esquemas
 Propagar cambios en los datos fuente en el
almacén
 Problemas:
Cuando refrescar
Cómo actualizar – técnicas incrementales de cargar
 Periódicamente (por ejemplo, todas las noches,
todas las semanas) o después de eventos
importantes.
 En cada actualización: no se justifica a menos que
la bodega de datos requiera datos actuales.
 Política de actualización establecidos por el
administrador basadas en las necesidades de los
usuario y el tráfico.
 Posiblemente diferentes políticas para diferentes
fuentes
Una vez se tienen los datos, es importante determinar si este
contenido es realmente correcto. Se pueden hacer varios
procesos para determinar esto:
 Cruce de datos.
Se ejecutan varios Queries contra las fuentes de datos y se
verifica que el resultado de estos Queries sea el mismo que el
datos con los datos seleccionados del proceso ETL.
 Validación del Proceso.
Al utilizar la bodega de datos es posible encontrar diferentes
resultados de los que se harían con simples Queries sobre las
fuentes. Esto se da debido a la limpieza y transformación
hechas a los datos en el proceso ETL. Por lo tanto es
importante identificar las causas de las diferencias y
determinar cual resultados es realmente el correcto.
Algunas técnicas para limitar la cantidad de
operaciones necesarias para refrescar las bodegas
de datos
Aplicación
Existente
Tiempo de
Cambio (TimeStamp)
Aplicación
Existente
Archivo de Log
Aplicación
Existente
---
---
---
---
---
---
---
---
Codigo de
Aplicacion
Antes Despues
Cambios
desde la
ultima carga
Diseño Lógico
 Esquema en Estrella
◦ Una sola tabla de hechos, y una tabla de dimensión
por cada dimensión.
◦ Soportado por múltiples RDBMS
 Tabla de Hechos – Modelo de Estrella
◦ Ejemplo típico: los registros de ventas individuales
◦ Los hechos son valores cuantificables.
◦ Medidas numéricas para analizar.
◦ Las tablas de hechos tienen gran cantidad de
registros en comparación con el número de
columnas.
◦ Acceso a través de las dimensiones.
 Dimensiones – Modelo de Estrella
◦ Definición de negocio en términos ya familiares para
los usuarios
◦ Las dimensiones son denormalizadas ( jerarquías que
llevan a redundancia)
◦ Tablas pequeñas.
◦ Se unen a la tabla de hechos mediante una clave
externa
◦ Bien indexada
◦ Dimensiones típicas
 períodos de tiempo, región geográfica (mercados, ciudades), los
productos, clientes, vendedores, etc
 Modelo de copo de nieve
◦ Mayor normalización, es decir, los niveles de las
jerarquías se normalizan.
◦ Mayor flexibilidad
◦ Mayor dificultad de mantenimiento
◦ Joins más costosos
◦ Menos registros en las dimensiones.
Ejemplo Modelo de copo de nieve
 Dimensión de Tiempo
◦ Obligatoria en la mayoría de las bodegas de datos.
◦ Tiene varios significados y técnicas roll-up
dependiente del contesto.
 Calendario simple
 Calendario Fiscal
 Calendario Académico
◦ Se necesita indexar fechas especiales como
eventos, lanzamientos..
 Llaves Subrogadas
Todas las llaves de las tablas de la bodega de
datos deben ser llaves subrogadas, es decir
no deben significar nada respecto a las
características de su contenido ni a su fuente
en los sistemas fuente. No se deben utilizar
las llaves originales de un sistema fuente del
cual fueron extraídas. Estas llaves subrogadas
se manejan con enteros.
 Declaración de Granularidad de la tabla de hechos.
Es necesario definir claramente lo que es un registro
de la tabla de hechos en el diseño dimensional
propuesto. La granularidad es la respuesta a la
pregunta. Que es un registro en la tabla de hechos ?
La granularidad se refiere al nivel de detalle existente
en las unidades de los datos de la bodega. Entre mas
detalle halla, menor será el nivel de granularidad.
Entre menos detalle halla, mayor será la granularidad.
Es un factor determinante en el desarrollo de la
bodega de datos, debido a que de ella depende el
volumen de datos que será almacenada en la bodega
y el tipo de queries que pueden ser realizados.
Granularidad
 Pivotear : Escoger (Rotar el cubo en un
pivote) un grupo de dimensiones a mostrar.
 Slicing-Dicing : Seleccionar cierto datos de
el cubo.
 Roll-up : Sumar una dimensión en una
dimensión mas pequeña (Roll-up semanas
en meses).
 Drill-down : Abrir una dimensión agrega
para relevar detalles (Abrir meses para
relevar información en semanas)
Mineria de datos es una tecnología de soporte para usuario final, cuyo
objetivo es extraer conocimiento útil y utilizable a partir de la información
contenida en las bases de datos de las empresas.
Los objetivos de un sistema Mineria de Datos nos permitirían analizar
factores de influencia en determinados procesos, predecir o estimar variables
o comportamientos futuros, sementar o agrupar ítems similares, además de
obtener secuencias de eventos que provocan comportamientos específicos.
Los sistemas Minería de Datos se desarrollan bajo lenguajes de ultima
generación basados en la inteligencia artificial y utilizando métodos
matemáticos, tales como:
• Redes neuronales
• Introducción de reglas
• Arboles de decisión
• Conjunto de reglas por clase
• Soporta también sofisticadas operaciones de análisis tales como los
• sistemas Scoring y aplicaciones de detección de fraude.
 Calificaciones de crédito / marketing dirigido:
◦ Dada una base de datos de 100.000 nombres, que las
personas son los menos propensos a dejar de pagar sus
tarjetas de crédito?
◦ Identificar las probabilidades de respuesta a las
promociones de ventas
 Detección de fraudes
◦ ¿Qué tipo de operaciones es probable que sean
fraudulentas, dada la demografía y el historial de
transacciones de un cliente en particular?
 Manejo de Relaciones con Clientes:
◦ ¿Cuál de mis clientes son probablemente los más fieles, y
que tienen más probabilidades de irse a la competencia? :
 Proceso de semi-automático para analizar grandes bases de
datos en búsqueda de patrones interesantes y útiles.
 Coincide en parte con el aprendizaje de máquina,
estadísticas, e inteligencia artificial y bases de datos, pero
◦ más escalable en número de características y casos
◦ más automática para manejar datos heterogéneos
 Predecir:
Regresión
Clasificación
 Descriptivo:
Agrupaciones (Cluster) o se pongan en venta similitud
Reglas de Asociación
Detección de Desviación
Teniendo en cuenta los datos antiguos sobre los clientes y los
pagos, predecir si un nuevo solicitante es Elegible para
préstamo o no
Clientes Anteriores Clasificador
Arboles de
Decision
Salary > 5 L
Prof. = Exec
Edad
Salario
Profesion
Localidad
Tipo de Cliente
Árbol donde los nodos internos son simples reglas de decisión
en uno o más atributos y nodos de la hoja se prevé etiquetas
de clase.
Salario < 1 M
Prof = teacher
Bueno
Edad < 30
MaloMalo Bueno
Industria
Finanzas
Seguros
Telecomunicaciones
Transporte
Aplicación
Análisis de Tarjetas de Crédito
Reglamos y Análisis de fraudes
Análisis de Llamadas
Manejo de Logística

Más contenido relacionado

La actualidad más candente

Arquitectura de datos empresariales actividad 3
Arquitectura de datos empresariales   actividad 3Arquitectura de datos empresariales   actividad 3
Arquitectura de datos empresariales actividad 3CarlosTenelema1
 
Arquitectura de datos empresariales informe power bi sql
Arquitectura de datos empresariales   informe power bi sqlArquitectura de datos empresariales   informe power bi sql
Arquitectura de datos empresariales informe power bi sqlCarlosTenelema1
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)Karina Lucio
 
Data Mart de una área de compras
Data Mart de una área de comprasData Mart de una área de compras
Data Mart de una área de comprasroy_vs
 
Presentación estructura
Presentación estructuraPresentación estructura
Presentación estructuraAdrian Zeus
 
Data warehouse
Data warehouseData warehouse
Data warehouseMarian C.
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000Salvador Ramos
 
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negociosIN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negociosFranklin Parrales Bravo
 

La actualidad más candente (19)

Arquitectura de datos empresariales actividad 3
Arquitectura de datos empresariales   actividad 3Arquitectura de datos empresariales   actividad 3
Arquitectura de datos empresariales actividad 3
 
Arquitectura de datos empresariales informe power bi sql
Arquitectura de datos empresariales   informe power bi sqlArquitectura de datos empresariales   informe power bi sql
Arquitectura de datos empresariales informe power bi sql
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Kdd fase1
Kdd fase1Kdd fase1
Kdd fase1
 
data warehouse
data warehousedata warehouse
data warehouse
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data Mart de una área de compras
Data Mart de una área de comprasData Mart de una área de compras
Data Mart de una área de compras
 
Presentación estructura
Presentación estructuraPresentación estructura
Presentación estructura
 
Almacén de datos
Almacén de datosAlmacén de datos
Almacén de datos
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Almacenes de datos
Almacenes de datosAlmacenes de datos
Almacenes de datos
 
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negociosIN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
IN Unidad 2: Infraestructuras y arquitecturas de inteligencia de negocios
 

Similar a Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)

Base de datos presentacion
Base de datos presentacionBase de datos presentacion
Base de datos presentacionValmore Medina
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Titiushko Jazz
 
Base de Datos
Base de DatosBase de Datos
Base de DatosKathev
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
Informatica Base de datos
Informatica Base de datosInformatica Base de datos
Informatica Base de datosPaula Ramirez
 
Proyecto final "publisher, access y bases de datos"
Proyecto final "publisher, access y bases de datos"Proyecto final "publisher, access y bases de datos"
Proyecto final "publisher, access y bases de datos"Paulinalopezb
 
Presentacion neomar milt programación 3 a
Presentacion neomar milt programación 3 aPresentacion neomar milt programación 3 a
Presentacion neomar milt programación 3 amiltneomar
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Velmuz Buzz
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligenceMaryy Aqua
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Data integration
Data integrationData integration
Data integrationPowerData
 

Similar a Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse) (20)

Cristian achury 10 01
Cristian achury 10 01Cristian achury 10 01
Cristian achury 10 01
 
Base de datos presentacion
Base de datos presentacionBase de datos presentacion
Base de datos presentacion
 
Actividad 4
Actividad 4Actividad 4
Actividad 4
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Informatica Base de datos
Informatica Base de datosInformatica Base de datos
Informatica Base de datos
 
Proyecto final "publisher, access y bases de datos"
Proyecto final "publisher, access y bases de datos"Proyecto final "publisher, access y bases de datos"
Proyecto final "publisher, access y bases de datos"
 
Presentación final
Presentación finalPresentación final
Presentación final
 
Presentacion neomar milt programación 3 a
Presentacion neomar milt programación 3 aPresentacion neomar milt programación 3 a
Presentacion neomar milt programación 3 a
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
Data integration
Data integrationData integration
Data integration
 

Más de Titiushko Jazz

Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Titiushko Jazz
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingTitiushko Jazz
 
Unidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sqlUnidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sqlTitiushko Jazz
 
Tarea pronosticos eily
Tarea pronosticos eilyTarea pronosticos eily
Tarea pronosticos eilyTitiushko Jazz
 
Proyecto teórico práctico
Proyecto teórico prácticoProyecto teórico práctico
Proyecto teórico prácticoTitiushko Jazz
 

Más de Titiushko Jazz (20)

Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y datamining
 
Unidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sqlUnidad vi esp parte 2 procesimientos en plsql y transact sql
Unidad vi esp parte 2 procesimientos en plsql y transact sql
 
Unidad ii esp parte 2
Unidad ii esp parte 2Unidad ii esp parte 2
Unidad ii esp parte 2
 
Unidad ii esp parte 1
Unidad ii esp parte 1Unidad ii esp parte 1
Unidad ii esp parte 1
 
Unidad i esp parte 2
Unidad i esp parte 2Unidad i esp parte 2
Unidad i esp parte 2
 
Unidad i esp parte 1
Unidad i esp parte 1Unidad i esp parte 1
Unidad i esp parte 1
 
Tarea pronosticos eily
Tarea pronosticos eilyTarea pronosticos eily
Tarea pronosticos eily
 
Sociedades limitadas
Sociedades limitadasSociedades limitadas
Sociedades limitadas
 
Rhu
RhuRhu
Rhu
 
Qué es un proyecto
Qué es un proyectoQué es un proyecto
Qué es un proyecto
 
Proyecto teórico práctico
Proyecto teórico prácticoProyecto teórico práctico
Proyecto teórico práctico
 
Presentacion1630
Presentacion1630Presentacion1630
Presentacion1630
 
Presentacion1410
Presentacion1410Presentacion1410
Presentacion1410
 
Presentacion1310
Presentacion1310Presentacion1310
Presentacion1310
 
Presentacion1210
Presentacion1210Presentacion1210
Presentacion1210
 
Presentacion1220
Presentacion1220Presentacion1220
Presentacion1220
 
Presentacion1001
Presentacion1001Presentacion1001
Presentacion1001
 
Presentacion810
Presentacion810Presentacion810
Presentacion810
 
Presentacion610
Presentacion610Presentacion610
Presentacion610
 

Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)

  • 2.  Primera Parte ◦ Introducción ◦ OLTP VS OLAP ◦ Limpieza de datos e integración  Segunda Parte ◦ Modelo de datos y diseño de Bodegas  Tercera Parte ◦ Minería de Datos
  • 3.  No puedo encontrar los datos que necesito ◦ Datos dispersos en la red. ◦ Muchas versiones diferencias sutiles  No puedo obtener los datos que necesito ◦ Necesito experto para obtener los datos  No entiendo los datos que obtengo ◦ Pobre documentación de datos  No puedo usar los datos que encuentro ◦ Resultados inesperados ◦ Datos necesitan ser transformados de una forma a otra.
  • 4.  Bodega de datos es una colección de datos, orientada a temas, integrada, no volátil, y variante en el tiempo que soporta decisiones administrativas. Datos obtenidos de una variedad de fuentes diferentes, a disposición de los usuarios finales en lo que pueden entender y utilizar en un contexto empresarial
  • 5. Que epoca del año es mejor para lanzar promociones? Quienes son los clientes y que productos estan Comprando? Que clientes son mas probables que se vayan a la competencia? Que impacto tiene los nuevos servicios/productos en las ganancias? Que producto tiene el mayor impacto en las ganancias? Cual es el canal de distribucion mas Efectivo?
  • 6.
  • 7.  Agregación y suma de varios conjuntos de datos.  Agrupamiento (Cluster)  Detectar Tendencias  Proyecciones Multi-dimensionales (Como influye el una variable en otra)
  • 8. OLTP • Orientado a aplicaciones • Usado para manejar negocios • Usuarios de oficina • Detalle de datos • Datos actuales • Accesos repetitivos en pequeñas transacciones • Acceso de lectura y escritura OLAP • Orientado a un tema. • Usados para analizar negocios • Administrador/Analista • Suma de datos • Datos tomados en cierto periodo. • Accesos usando búsquedas extensas. • Mayormente lectura (Cambios por lotes)
  • 9. Tiempo 60/90 Dias 5 a 10 años Cambio de Registros Sofisticado Fotos de Datos Llave puede no contener Llave debe contener elemento de tiempo elemento de tiempo Variante en el Tiempo
  • 10. Manipulación Carga/Acceso en De datos registro Masa a registro No Volátil
  • 11.
  • 12. Un Data mart es una versión especial de almacén de datos (data warehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades. Puede ser simplemente una copia de parte de un DataWarehouse para uso departamental.
  • 13.  Fácil acceso a los datos que se necesitan frecuentemente.  Crea vista colectiva para grupo de usuarios.  Mejora el tiempo de respuesta del usuario final.  Facilidad de creación.  Costo inferior al de la aplicación de un completo almacén de datos.  Los usuarios potenciales son más claramente identificables que en un almacén de datos completo
  • 15. Introduccion a Bodega de Datos  Datos Sucios ◦ Multiplicidad de códigos ◦ Igual significado “EN LA WEB”, es igual que “EN INTERNET” . ◦ Varios Estándares.
  • 16. m,f pipeline - cm appl A - pipeline - cm appl B - pipeline - in appl C - pipeline - feet appl D - pipeline - yds appl A - m,f appl B - 1,0 appl C - x,y appl D - male, female Bodega de Datos
  • 17.  Datos Faltantes, Falsos y Duplicados ◦ Falta la edad del empleado. ◦ Días de incapacidad digitados erróneamente. ◦ Duplicación de datos en los diferentes OLTP o misma OLTP. ◦ Duplicación en el significado (Jon G. Ordonez, aparece en otra OLTP como Jon Geiler Ordonez.)
  • 18.  Inconsistencia ◦ Códigos mal digitados (El codigo de genero es M/F, se encuentran datos con 1/0). ◦ Códigos que no tienen significado (AL), no tiene ningún significados en los códigos usados. ◦ Inconsistencia de datos duplicados (Dos datos son encontrados con la misma persona pero ambos tiene direcciones difentes)
  • 19.  No puede ser automatizada.  Requiere considerable conocimientos que es tácticamente y mas allá de los competencias en Bodega de Datos (Medidas, Políticas, Geografía).  Complejidad se incrementa con el incremento en base de datos.  Complejidad se incrementa con datos históricos.
  • 20. Problema a Detectar Tecnica Usada Valores No Legales (Max, Min), Desviacion, Media Falta de Estandares Comparacion de Columnas (Compara los valores en determinada columna en toda la tabla) Duplicados y Datos No Digitados Comparar con numero de filas, Detectar nulos, usar reglas para predecir datos incorrectos y no digitados
  • 21. Para garantizar el uso de los mejores datos posibles para la bodega, se deben tener en cuenta los siguientes pasos:  Identificar la fuente de datos con la mejor calidad: Es posible que se encuentren varias fuentes con los mismos datos, pero en algunas se tenga mejor calidad de los mismos.  Identificar variaciones en palabras : Como errores de ortografía y mayúscula y minúscula.  Discutir problemas de datos con el equipo.  Arreglar los problemas de datos en las fuentes cuando sea posible, en vez de hacerlo en el proceso ETL o directamente a la bodega.  SI existen muchos problemas en las fuentes, arreglarlos en el proceso ira en contra del rendimiento, estos problemas deber ser responsabilidad de los sistemas fuentes.  Realizar tareas de limpieza sobre los datos.
  • 22.  Tres funciones separadas: ETL ◦ Extracción – Leer los datos de fuentes de datos especificadas y extraer el grupo de datos deseado. ◦ Transformación – Uso de reglas o búsqueda de tabla, o creando combinaciones con otros datos, para convertir fuente de datos en los estados deseados ◦ Cargar : Escribir los datos resultantes en la base de datos destino
  • 23.  Desarrollo del ETL ◦ Oportunidad para eliminar datos inservibles ◦ Normalmente 80% verificando integridad y reglas de negocio ◦ Contar con un involucrado del negocio que pueda tomar decisiones acerca de las reglas
  • 24.
  • 25.  Combinar fuentes de datos dispares en una sola estructura. ◦ Integración de Esquemas: Crear e integrar esquemas con fuentes de datos disparejas. ◦ Integración de Datos: Limpiar y concatenar datos de diferentes fuentes de datos
  • 26.  Retos ◦ Nombres diferentes ◦ Estructuras diferentes ◦ Tipo de datos diferentes ◦ Campos Faltantes ◦ Semántica diferente
  • 27. Por ejemplo : Carros (Noserie, Modelo, Color, Estero..) Autos (Serialnr, Model, Color) Optionen(Serialnr, Stereo,..)
  • 29.  Extractor ◦ Crea una vista común para toda las fuentes de datos. ◦ Realiza el puente en las diferencias de nombre, tipos y estructuras.  Mediador ◦ Construye e integra esquemas. ◦ Realiza la integración de datos y pasa la información a la bodega de datos.
  • 30.  La Bodega de datos puede fallar sin una apropiada estrategia de transformación es desarrollada. ◦ Limpieza de Datos ◦ Integración de Esquemas
  • 31.  Propagar cambios en los datos fuente en el almacén  Problemas: Cuando refrescar Cómo actualizar – técnicas incrementales de cargar
  • 32.  Periódicamente (por ejemplo, todas las noches, todas las semanas) o después de eventos importantes.  En cada actualización: no se justifica a menos que la bodega de datos requiera datos actuales.  Política de actualización establecidos por el administrador basadas en las necesidades de los usuario y el tráfico.  Posiblemente diferentes políticas para diferentes fuentes
  • 33. Una vez se tienen los datos, es importante determinar si este contenido es realmente correcto. Se pueden hacer varios procesos para determinar esto:  Cruce de datos. Se ejecutan varios Queries contra las fuentes de datos y se verifica que el resultado de estos Queries sea el mismo que el datos con los datos seleccionados del proceso ETL.  Validación del Proceso. Al utilizar la bodega de datos es posible encontrar diferentes resultados de los que se harían con simples Queries sobre las fuentes. Esto se da debido a la limpieza y transformación hechas a los datos en el proceso ETL. Por lo tanto es importante identificar las causas de las diferencias y determinar cual resultados es realmente el correcto.
  • 34. Algunas técnicas para limitar la cantidad de operaciones necesarias para refrescar las bodegas de datos Aplicación Existente Tiempo de Cambio (TimeStamp) Aplicación Existente Archivo de Log Aplicación Existente --- --- --- --- --- --- --- --- Codigo de Aplicacion Antes Despues Cambios desde la ultima carga
  • 36.  Esquema en Estrella ◦ Una sola tabla de hechos, y una tabla de dimensión por cada dimensión. ◦ Soportado por múltiples RDBMS
  • 37.  Tabla de Hechos – Modelo de Estrella ◦ Ejemplo típico: los registros de ventas individuales ◦ Los hechos son valores cuantificables. ◦ Medidas numéricas para analizar. ◦ Las tablas de hechos tienen gran cantidad de registros en comparación con el número de columnas. ◦ Acceso a través de las dimensiones.
  • 38.  Dimensiones – Modelo de Estrella ◦ Definición de negocio en términos ya familiares para los usuarios ◦ Las dimensiones son denormalizadas ( jerarquías que llevan a redundancia) ◦ Tablas pequeñas. ◦ Se unen a la tabla de hechos mediante una clave externa ◦ Bien indexada ◦ Dimensiones típicas  períodos de tiempo, región geográfica (mercados, ciudades), los productos, clientes, vendedores, etc
  • 39.
  • 40.  Modelo de copo de nieve ◦ Mayor normalización, es decir, los niveles de las jerarquías se normalizan. ◦ Mayor flexibilidad ◦ Mayor dificultad de mantenimiento ◦ Joins más costosos ◦ Menos registros en las dimensiones.
  • 41. Ejemplo Modelo de copo de nieve
  • 42.  Dimensión de Tiempo ◦ Obligatoria en la mayoría de las bodegas de datos. ◦ Tiene varios significados y técnicas roll-up dependiente del contesto.  Calendario simple  Calendario Fiscal  Calendario Académico ◦ Se necesita indexar fechas especiales como eventos, lanzamientos..
  • 43.  Llaves Subrogadas Todas las llaves de las tablas de la bodega de datos deben ser llaves subrogadas, es decir no deben significar nada respecto a las características de su contenido ni a su fuente en los sistemas fuente. No se deben utilizar las llaves originales de un sistema fuente del cual fueron extraídas. Estas llaves subrogadas se manejan con enteros.
  • 44.  Declaración de Granularidad de la tabla de hechos. Es necesario definir claramente lo que es un registro de la tabla de hechos en el diseño dimensional propuesto. La granularidad es la respuesta a la pregunta. Que es un registro en la tabla de hechos ? La granularidad se refiere al nivel de detalle existente en las unidades de los datos de la bodega. Entre mas detalle halla, menor será el nivel de granularidad. Entre menos detalle halla, mayor será la granularidad. Es un factor determinante en el desarrollo de la bodega de datos, debido a que de ella depende el volumen de datos que será almacenada en la bodega y el tipo de queries que pueden ser realizados.
  • 46.
  • 47.  Pivotear : Escoger (Rotar el cubo en un pivote) un grupo de dimensiones a mostrar.  Slicing-Dicing : Seleccionar cierto datos de el cubo.  Roll-up : Sumar una dimensión en una dimensión mas pequeña (Roll-up semanas en meses).  Drill-down : Abrir una dimensión agrega para relevar detalles (Abrir meses para relevar información en semanas)
  • 48.
  • 49.
  • 50. Mineria de datos es una tecnología de soporte para usuario final, cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas. Los objetivos de un sistema Mineria de Datos nos permitirían analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos. Los sistemas Minería de Datos se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos matemáticos, tales como: • Redes neuronales • Introducción de reglas • Arboles de decisión • Conjunto de reglas por clase • Soporta también sofisticadas operaciones de análisis tales como los • sistemas Scoring y aplicaciones de detección de fraude.
  • 51.  Calificaciones de crédito / marketing dirigido: ◦ Dada una base de datos de 100.000 nombres, que las personas son los menos propensos a dejar de pagar sus tarjetas de crédito? ◦ Identificar las probabilidades de respuesta a las promociones de ventas  Detección de fraudes ◦ ¿Qué tipo de operaciones es probable que sean fraudulentas, dada la demografía y el historial de transacciones de un cliente en particular?  Manejo de Relaciones con Clientes: ◦ ¿Cuál de mis clientes son probablemente los más fieles, y que tienen más probabilidades de irse a la competencia? :
  • 52.  Proceso de semi-automático para analizar grandes bases de datos en búsqueda de patrones interesantes y útiles.  Coincide en parte con el aprendizaje de máquina, estadísticas, e inteligencia artificial y bases de datos, pero ◦ más escalable en número de características y casos ◦ más automática para manejar datos heterogéneos
  • 53.  Predecir: Regresión Clasificación  Descriptivo: Agrupaciones (Cluster) o se pongan en venta similitud Reglas de Asociación Detección de Desviación
  • 54. Teniendo en cuenta los datos antiguos sobre los clientes y los pagos, predecir si un nuevo solicitante es Elegible para préstamo o no Clientes Anteriores Clasificador Arboles de Decision Salary > 5 L Prof. = Exec Edad Salario Profesion Localidad Tipo de Cliente
  • 55. Árbol donde los nodos internos son simples reglas de decisión en uno o más atributos y nodos de la hoja se prevé etiquetas de clase. Salario < 1 M Prof = teacher Bueno Edad < 30 MaloMalo Bueno
  • 56. Industria Finanzas Seguros Telecomunicaciones Transporte Aplicación Análisis de Tarjetas de Crédito Reglamos y Análisis de fraudes Análisis de Llamadas Manejo de Logística