Alumnos:  Jeri Sandoval, Roberto Rosales Buiza John Segovia Herrera Néstor Robles Rodriguez Isaac Data Warehouse 27/11/09 Administración de las Tecnologías de la Información  FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS
Definiciones de Data Warehouse Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo Bill H. Inmon "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis“ o"la unión de todos los Data marts de una entidad“ Ralph Kimball “ Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico” Susan Osterfeldt  27/11/09 Administración de las Tecnologías de la Información
Objetivos Hacer la información de la organización accesible Hacer a la información de la organización consistente Controlar el acceso efectivo a los datos Generar información de manera flexible Servir de ayuda a la toma de decisiones 27/11/09 Administración de las Tecnologías de la Información
En resumen Un Data Warehouse tiene como objetivo almacenar y proveer a la Organización de información relevante y a tiempo 27/11/09 Administración de las Tecnologías de la Información
Importancia del Data Warehouse Mejorar la Entrega de Información: .  Mejorar el Proceso de Toma de Decisiones Impacto Positivo sobre los Procesos Empresariales 27/11/09 Administración de las Tecnologías de la Información
A pensar antes de implementar un Data Warehouse La amplitud; el número de diferentes temas y puntos de foco Fuentes que proveerán datos brutos. Los medios por los cuales los datos se transportan de las aplicaciones fuente y son cargados al Data Warehouse. Las reglas de negocio que se aplican a la data en bruto para producir activos de datos de alta calidad. Las bases de datos receptoras,  en la que estos activos de datos serán almacenados. Los activos de datos; los elementos, el nivel de detalle de cada elemento, y cuánta historia se ha mantenido, por ejemplo. La Inteligencia de negocio Herramientas de nivel usuario para acceder a los activos de datos. La arquitectura y complejidad en general del entorno. 27/11/09 Administración de las Tecnologías de la Información
Empresas que usan DATA WAREHOUSE Royal bank of canada Paypal 3M Coca-Cola Company Verizon Ford Motor Company Herramientas de nivel usuario para acceder a los activos de datos. La arquitectura y complejidad en general del entorno. 27/11/09 Administración de las Tecnologías de la Información
27/11/09 Administración de las Tecnologías de la Información
Productos (suites) de DATA WAREHOUSE y BI IBM Cognos http://www-01.ibm.com/software/data/cognos/ Teradata http://www.teradata.com Oracle Hyperion http://www.oracle.com/hyperion/index.html MicroStrategy http://www.strategy.com SAS http://www.sas.com 27/11/09 Administración de las Tecnologías de la Información
Características de un Data Warehouse Orientado a un tema Administra grandes cantidades de información Guarda información en diversos medios de almacenamiento Comprende múltiples versiones de uno (o varios) esquema de base de datos Condensa y agrega información Integra y asocia información de muchas fuentes 27/11/09 Administración de las Tecnologías de la Información
Diferencias entre un sistema de Data Warehouse y aplicaciones tradicionales 27/11/09 Administración de las Tecnologías de la Información  SISTEMAS TRADICIONALES DATAWAREHOUSE Predomina la actualización. Actividad operativa (día a día). Proceso puntual. Estabilidad. Datos desagregados. Dato actual. Respuesta de la transacción inmediata. Estructura relacional. Usuarios de perfiles bajos. Explotación de la información relacionada con operatividad de cada aplicación  Predomina la consulta Análisis y decisión estratégica. Proceso masivo. Dinamismo. Niveles de detalle/agregación. Dato histórico. Respuesta masiva Estructura  Multidimensional Usuarios de perfiles altos. Explotación de información interna y externa relacionada con el negocio.
Metodologías de Diseño de Data Warehouse Metodología de Inmon (Top – Bottom) 27/11/09 Administración de las Tecnologías de la Información
Metodología de Kimball (Bottom-up) 27/11/09 Administración de las Tecnologías de la Información
Metodología agil para la implementación de un dw 27/11/09 Administración de las Tecnologías de la Información
Page  Arquitectura de un Data Warehouse 27/11/09 Administración de las Tecnologías de la Información
Production systems Other sources CRM Billing Activation systems Other DBs… Files ETL DataWarehouse OLAP cubes Business Users Querying & Reporting tools Acquisition Storage / Archiving Restitution Datamarts Flujo de Datos de un DW 27/11/09 Administración de las Tecnologías de la Información
Page  Base de datos operacional / Nivel de base de datos externo.  Nivel de acceso a los datos  Nivel de organización de datos Nivel de data warehouse  Nivel de acceso a la información  Nivel de gestión de proceso  Arquitectura de un Data Warehouse 27/11/09 Administración de las Tecnologías de la Información
Page  Base de datos operacional / Nivel de base de datos externo (Fuentes de datos)  Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas, tales como ERPs, SCMs, también se procesa información de fuentes de datos externas, tales como de la internet, INEI, BCRP. Nivel de acceso a los datos  Es responsable de la interfaces entre las herramientas de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita para realizar estas interfases se utiliza el SQL (Standar  Query Lenguaje)  Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
Page  Nivel de  organización de datos  El componente final de la arquitectura data Warehouse es la organización de los datos, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas Nivel de data warehouse  En un data Warehouse físico, el almacenaje de data procesada, incluso en forma redundante Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
Page  Nivel de acceso a la información  Este nivel se incluye el hardware y software involucrados en representar y proveer de información al usuario final normalmente usa día a día. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.  Nivel de gestión de proceso  El nivel de gestión de procesos tiene que ver con la programación de diversas tareas que deben realizarse para construir y mantener actualizado el data warehouse y la información del directorio de datos.  Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE  1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE   Establecer una asociación de usuarios, gestión y grupos Construir prototipos rápida y frecuentemente Implementación incremental Reportar activamente y publicar los casos exitosos Administración de las Tecnologías de la Información  Fase 1: Organización  27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE 2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  ¿Quién es el auditorio? ¿Cuál es el alcance? ¿Qué tipo de data warehouse debería construirse? 1ra.: Establecer un ambiente "data warehouse virtual“. 2da.: Construir una copia de los datos operacionales desde un sistema operacional único y posibilitar al data warehouse de una serie de herramientas de acceso a la información. 3ra.: Finalmente, la estrategia data warehousing óptima es seleccionar el número de usuarios basados en el valor de la empresa y hacer un análisis de sus puntos, preguntas y necesidades de acceso a datos. 27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  3 ESTRATEGIAS PARA EL DISEÑO DE UN DATA WAREHOUSE 1ra. : Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales.  2da.: El diseño de un data warehouse, con frecuencia involucra lo que se piensa en términos más amplios y con conceptos del negocio más difíciles de definir que en el diseño de un sistema operacional. Al respecto, un data warehouse está bastante cerca a Reingeniería de los Procesos del Negocio (Business Process Reengineering).  3ra.: Finalmente, la estrategia de diseño ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down). 27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE  1ra.: Un data warehouse es una inversión buena sólo si los usuarios finales realmente pueden conseguir información vital más rápida y más barata de lo que obtienen con la tecnología actual. 2da.: La administración debe reconocer que el mantenimiento de la estructura del data warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de misión-crítica.  3ra.: La gestión debe comprender también que si se embarcan sobre un programa data warehousing, se crearán nuevas demandas sobre sus sistemas operacionales, que son: Demandas para mejorar datos  Demandas para una data consistente  Demandas para diferentes tipos de datos, etc.  27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE  Administración de las Tecnologías de la Información  Se ha reconocido los beneficios del procesamiento analítico en línea (On Line Analytical Processing - OLAP), más allá de las áreas tradicionales de marketing y finanzas.  El crecimiento de la computación cliente/servidor, ha creado servidores de hardware y software más poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnológicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas. Fase 2: Desarrollo 1. ¿PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE? 27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE  Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas: Alcance de un data warehouse  Redundancia de datos  Tipo de usuario final  27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difíciles de trabajar en su entorno, costoso para arreglar y difícil de justificar. Para conseguir que la implementación del depósito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construcción: Arquitectura total del depósito  Arquitecturas del servidor  Sistemas de Gestión de Base de Dato Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas: Alcance de un data warehouse  Redundancia de datos  Tipo de usuario final  27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  4 CONFIABILIDAD DE LOS DATOS  La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad. No importa cómo esté diseñado un programa o cuán hábilmente se use. Si se alimenta mala información, se obtendrá resultados incorrectos o falsos.  Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de línea comercial operacionales pueden ser basura en lo que concierne a la aplicación data warehousing 27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA WAREHOUSE La data sucia es un serio peligro para el éxito de un proyecto de data warehouse. Dependiendo del alcance del problema, simplemente podría no ser posible dirigirlo rápidamente y abaratarlo. Los principales factores son:  El tiempo que toma la programación interna  El costo de las herramientas  Los gerentes de proyectos de Data Warehouse necesitan evaluar el problema con realismo, los recursos internos disponibles para distribuirlos y seleccionar la solución que se adapte a la planilla y presupuesto del proyecto, o modificar la planilla y el presupuesto para solucionar el problema. 27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE  Administración de las Tecnologías de la Información  Proyecto Total o Proyecto en Fases Es más viable el desarrollo de un proyecto en fases que produzcan resultados a corto plazo que el desarrollo de un proyecto que entregue resultados al término de varios años. Por ello, el proyecto debe estar centrado en un área o un proceso.   Modelo lógico de datos  El modelo lógico de datos debe tener un alcance más alto y cubrir todas las áreas de interés, así como los procesos más estratégicos de cada una de ellas. Proyecto Especializado o Proyecto Base  Decidir sobre qué tipo de proyecto, es algo complicado. Un proyecto especializado soporta directamente un proceso específico, por ejemplo: retención de clientes. Un proyecto base entrega capacidad genérica de análisis a todos los usuarios que tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la solución de un problema específico o el soporte especializado de un proceso específico. FASE 3: IMPLEMENTACION 1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION  27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION  Identificar el problema en el cual el uso estratégico de la información detallada, permita conseguir una solución para generar una ventaja competitiva o un ahorro de costos.  Definir el modelo lógico de datos a implementar para resolver el problema planteado. 27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  3 ESTRATEGIAS EN LA IMPLEMENTACION  Definir el mejor diseño físico para el modelo de datos. El diseño físico debe estar orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia del modelo lógico que está orientado al usuario y a la facilidad de consulta. Definir los procesos de extracción, filtro, transformación de información y carga de datos que se deben implementar para poblar ese modelo de datos. Definir los procesos de administración de la información que permanece en el data warehouse  Definir las formas de consultas a la información del data warehouse que se le proporcionará al usuario. Para ésto, debe considerarse la necesidad de resolver un problema y la potencia de consulta. Completar el modelo de consulta base, relativo al área seleccionada.  Implementar los procesos estratégicos del área de trabajo, es decir, implementar herramientas especializadas de scoring, herramientas especializadas para inducción de conocimiento (Data Mining), etc. Completar las áreas de interés, en forma similar a lo descrito anteriormente. 27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE  Administración de las Tecnologías de la Información  ¿Qué clases de costos excedieron el presupuesto en más del 10% en cada uno de los 12 meses pasados?  ¿Se aumentaron los presupuestos en más de 5% para cualquier área dentro de los últimos 18 meses?  ¿Cómo especificar las clases de gasto entre diferentes departamentos? ¿Entre divisiones? ¿A través de las regiones geográficas?  ¿Cómo tener márgenes de operación sobre los dos últimos años en cada área de negocio? Donde han disminuido los márgenes, ¿se han incrementado los costos?  FASE 4: EVALUACION 1 EVALUACION DE RENDIMIENTO DE LA INVERSION  27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  CASO PRACTICO En un estudio encargado por 20 vendedores y consultores, se encontró un Retorno Promedio Total de la inversión (Return On Investment-ROI) de 401%.También, se excluyeron los proyectos fracasados, así como los ejecutados excepcionalmente, tanto buenos como malos. 27/11/09 2.2 Millones Costo promedio  2.3 Años Período de reembolso promedio 160% ROI mediano 533% ROI promedio del modelo complementario de datos 322% ROI promedio del proyecto más grande 401% ROI promedio total  CAMBIOS DE VALOR
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  1.1 COSTOS Y BENEFICIOS  Costos preliminares   Planificación  Diseño  Modelamiento /Ingeniería de Información  Costos iniciales   Plataforma de hardware  Software de base de datos  Costos en procesamiento   Mantenimiento de datos  Desarrollo de aplicaciones  Capacitación y soporte  Beneficios Tácticos   Impresión y emisión de reporte reducido  Demanda reducida para consultas de clientes  Entrega más rápida de información a los usuarios  Beneficios Estratégicos (Potencialidad)   Aplicaciones y herramientas de acceso para los usuarios finales  Decisiones con mayor información  Toma de decisiones más rápida  Capacidad de soporte a la información organizacional  27/11/09
PROYECTO DE ELABORACION DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información  2 BENEFICIOS A OBTENER Para la Empresa  El data warehouse hace lo posible por aprovechar el valor potencial enorme de los recursos de información de la empresa y volver ese valor potencial en valor verdadero.  Para los Usuarios El data warehouse extiende el alcance de la información para que puedan accesar directamente en línea, lo que a la vez contribuye en su capacidad para operar con mayor efectividad las tareas rutinarias o no. Para la Organización en Tecnologías de Información El data warehouse enriquece las capacidades del usuario autosuficiente y hace lo factible para ofrecer nuevos servicios a los usuarios, sin interferir con las aplicaciones cotidianas de producción   27/11/09
Importante: El Modelo de Datos Es el modelo por el cual se diseña el esquema de funcionamiento  de la Base de Datos que provee al Data Warehouse. Existen varios enfoques en este sentido: Fábrica de información corporativa (CIF): incluyen ODS, data warehouse y data marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional, fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa    Esquema en estrella: Este método replica las estructuras multidimensionales de hechos y dimensiones, pero usa tablas de RDBMS, específicamente tablas de hechos y tablas de dimensiones. Se dejan de lado las reglas de normalización de base de datos y se ponen los datos donde tienen más sentido   Data vault (Arquitectura de modelado fundacional común -CFIMA):  Esta es una arquitectura de integración de datos que contiene una base de datos orientada al detalle que contiene un conjunto de tablas normalizadas únicamente enlazadas que soportan una o más áreas funcionales de las tablas de negocio con tablas satélites para rastrear cambios históricos. Este enfoque híbrido reúne lo mejor del cruce entre la tercera forma normal (3NF) 27/11/09 Administración de las Tecnologías de la Información
Page  DATA WAREHOUSE VS BD OPERACIONAL 27/11/09 Administración de las Tecnologías de la Información  Uso de Base de Datos Operacionales Uso de Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas predefinidas y actualizables Consultas complejas, frecuentemente no anticipadas. Cantidades pequeñas de datos resumidas. Cantidades grandes de datos resumidas. Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos
Modelo de Estrella 27/11/09 Administración de las Tecnologías de la Información
Extracción, Transformación y Carga Extracción Multiples Fuentes Orientadas a trabajo Batch : cagas de estos sistemas son más fuertes cuando los sistemas de producción tienen poca carga Conectvidad a diferentes tecnologías, diferentes manejadores de BDs Transformación Manipulación de data compleja Reunión de diferentes fuentes Implementación de reglas de negocio Limpiado, ordenado, eliminación de duplicidades Optimizado para el desempeño y para grandes volúmenes Carga Cargar la data en tablas de hechos y dimensiones Produce un historial en archivos o en la BD para trazabilidad Otros Controla los flujos de ejecución: maneja las dependencias entre tareas, control de ejecución, gestión de errores, registros históricos. 27/11/09 Administración de las Tecnologías de la Información
Ejemplos de transformación Transformación  de Búsqueda difusa Busca valores en las tablas usando criterios difusos Ejemplo: Para un campo de texto la data puede contener muchas variantes de la misma palabra  (“friend”, “a friend”, “freind”, etc). La lógica difusa puede ayudar a reunir las variantes. Transformación de dimensiones de cambio lento Ayuda a manejar la actualización de una dimensión de cambio lento Ejemplo : la información sobre los consumidores cambia constantemente, pero queremos una historia de estos Cambio de dirección   no queremos el valor anteiror (reemplazo) Un cambio en el valor VAT    ‘duplicamos’ la entrada del consumidor agregando los datos adicionales (para propósitos financieros) Clave sustituta 27/11/09 Administración de las Tecnologías de la Información
Control de la Ejecución Los datos son muy sensibles, la calidad de los reportes depende la calidad de estos Cargar un Data Warehouse puede implicar reglas complejas de extracción, transformación y carga Los usuarios del negocio no confiarán en un DW si no confían en su carga 27/11/09 Administración de las Tecnologías de la Información
Ejemplos de paquetes en ETL Flujo de control y flujo de datos 27/11/09 Administración de las Tecnologías de la Información
Middleware Son Instancias intermedias a la carga y al acceso que sirven para verificar la calidad y fiabilidad de la data Estación de transformación interina: un área en la cual grupos de datos extraídos de alguna de las fuentes pasan por un proceso de transformación antes de moverse hacia la base de datos del almacén. Estación de aseguramiento de la calidad: Un área en la cual grupos de datos pasan por un conjunto de intensas revisiones de aseguramiento de la calidad antes de pasar hacia el almacén de datos. 27/11/09 Administración de las Tecnologías de la Información
Middleware (2) 27/11/09 Administración de las Tecnologías de la Información
Solución:   crear almacenes de datos especializados por área, que reciben los datos desde el almacén centralizado, estos almacenes se conocen como Data Marts. Problema :  al crecer el DW. El rendimiento de las consultas decae y el modelo centralizado deja de ser optimo. 27/11/09 Administración de las Tecnologías de la Información
Toma de decisiones Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos  de un área de negocio  específica.  Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.  DATAMART 27/11/09 Administración de las Tecnologías de la Información
Data Mart Puede ser alimentado desde los datos de un  DWH, o integrar por si mismo un compendio de distintas fuentes de información.  27/11/09 Administración de las Tecnologías de la Información
Data Warehouses Vs. Data   Marts Data Mart Departamental Un solo tema Pocos < 100 GB Meses Data  Warehouse Propiedad Alcance Tema Fuente de datos Tamaño (típico) Tiempo de implementación Data Warehouse Empresarial Múltiples Muchas 100 GB to > 1 TB Meses a años 27/11/09 Administración de las Tecnologías de la Información  Data Mart
Su objetivo es agilizar la consulta de grandes cantidades de datos. Caracteriza la Arquitectura necesaria para la implementación de un sistema de ayuda en la toma de decisiones. La consultas son pocas pero son muy consumidoras de tiempo (pueden correr horas), las actualizaciones son menos frecuentes y/o la respuesta a la consulta no depende del hecho de tener actualizada la base de datos. Soporte análisis multidimensional y procesamiento analítico en línea ( OLAP ) 27/11/09 Administración de las Tecnologías de la Información
Soporte análisis multidimensional y procesamiento analítico en línea ( OLAP ) Los datos son clasificados en diferentes dimensiones y pueden ser vistas unas con otras en diferentes combinaciones para obtener diferentes análisis de los datos que contienen.  Los Usuarios pueden formular consultas complejas,  arreglar datos en un reporte, cambiar de datos resumidos a datos detall ados . CARACTERISTICAS 27/11/09 Administración de las Tecnologías de la Información
Clasificación según el tipo de motor en el que estén almacenados los datos: 27/11/09 Administración de las Tecnologías de la Información  ROLAP  (Relational OLAP) MOLAP  (multidimensional OLAP) Almacena los datos en un motor relacional   Almacena los datos en una base de datos multidimensional   Muchas dimensiones   Diez o menos dimensiones   Soportan analisis OLAP contra grandes volumenens de datos   Se comportan razonablemente en volumenes de datos mas reducidos (menos de 5Gb)   Herramienta flexible y general   Solución particular con volúmenes de información y numero de dimensiones mas modestos
Consultando un cubo Trim4 Trim1 Trim2 Trim3 Dimensión tiempo Santiago Quito Arequipa Dimensión Ciudad Manzana Pañal Yogurt Lima Melon Dimensión Producto 27/11/09 Administración de las Tecnologías de la Información  Ventas   Fact
LA ESTRUCTURA DE UN CUBO 27/11/09 Administración de las Tecnologías de la Información
Hechos Principales 27/11/09 Administración de las Tecnologías de la Información
Medidas 27/11/09 Administración de las Tecnologías de la Información
Medida : cuenta de suscriptor x mes (para agilizar cálculos) 27/11/09 Administración de las Tecnologías de la Información
Medida: Tasa de cambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago. 27/11/09 Administración de las Tecnologías de la Información
Dimensiones La Dimensión fecha se usa más de una vez (dimensión con rol) 27/11/09 Administración de las Tecnologías de la Información
Relaciones Una relación regular 27/11/09 Administración de las Tecnologías de la Información
The cube structure Relaciones Una relación de hecho 27/11/09 Administración de las Tecnologías de la Información
Relaciones Una relación referenciada 27/11/09 Administración de las Tecnologías de la Información
The cube structure Relaciones Una relación de « muchos a muchos » Dim Product    Fact Charges Fact Charges    Dim Subscriber Dim Subscriber    Fact Subscriber 27/11/09 Administración de las Tecnologías de la Información
DATA MINING Minería de Datos Administración de las Tecnologías de la Información  27/11/09
Contents DATA MINING Administración de las Tecnologías de la Información  1.  What is Data Mining? 27/11/09 2.  ¿POR QUÉ? 3.  Data Mining un proceso 4.  Importante 5. Anexos
What is Data Mining? El data mining es el conjunto de técnicas y tecnologías que permiten explorar grandes BBDD, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Administración de las Tecnologías de la Información  27/11/09
What is Data Mining? Arte/Ciencia de descubrir y aprovecha en forma automática información  no-obvia y útil en grandes bases de datos Administración de las Tecnologías de la Información  27/11/09 Énfasis en: no-obvia (no intuitivas) útil (coste vs beneficio) grande (proceso automático) No hay reglas siempre que el proceso sea eficiente en tiempo, dinero y recursos humanos
Tres pasos Preparación de los datos Análisis de datos Toma de decisiones Redes Neuronales 27/11/09 Administración de las Tecnologías de la Información
Preparación de datos Extracción / Integración Transformación Selección Limpieza Data warehouse 50-80% tiempo del proyecto 27/11/09 Administración de las Tecnologías de la Información
27/11/09 Administración de las Tecnologías de la Información
“ Scrubbing, selecting, cleansing, preprocessing,…”   Eliminar redundancia Eliminar datos y variables irrelevantes Tratar datos ausentes media, substitución astuta, interpolación, ignorar, ? Corrección errores Outliers (datos fuera de rango) Verificar consistencia Reservar todo preprocesamiento relevante hasta el análisis 27/11/09 Administración de las Tecnologías de la Información
Anáslisis de datos Técnicas: Árboles de decisión  Reglas de asociación  Ajustes (regresiones..) Algoritmos genéticos Redes neuronales … Tareas conceptuales: Clasificación Optimización Interpolación Modelación Predicción … Objetivos: Target marketing Segmentación Control Predicción ventas Descubrir imperfecciones … 27/11/09 Administración de las Tecnologías de la Información
Toma de decisiones Los resultados del análisis pueden resultar inescrutables El analista debe entender el problema a fondo Los resultados deben presentarse con honestidad El post-procesamiento y la inclusión de factores subjectivos  son a menudo necesarios Validación estricta 27/11/09 Administración de las Tecnologías de la Información
¿PARA QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para  crear una relación “one-to-one” con sus clientes. Las empresas recogen datos de todos lo procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel Administración de las Tecnologías de la Información  27/11/09
Data Mining proporciona la Inteligencia El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento Administración de las Tecnologías de la Información  27/11/09
Relación Administración de las Tecnologías de la Información  27/11/09 Relación con el Data Mining  Está asociado al escalón más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos.   Mientras en Data Warehousing, se basan en estructuras multidimensionales, en las que se almacena la información calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de análisis.   Aunque este método se puede considerar como exagerado, nunca será tan caro, como lo que le costaría a la organización el tomar las decisiones equivocadas.
¿Como nos ayudan? ¿Qué clientes permanecerán fieles? ¿Qué clientes están a punto de abandonar? ¿Dónde debemos localizar la próxima sucursal? ¿Qué productos se deben promocionar a qué prospectos? ... Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas Administración de las Tecnologías de la Información  27/11/09
Data Mining un proceso Administración de las Tecnologías de la Información  27/11/09 Pasos
Data Mining un proceso Administración de las Tecnologías de la Información  27/11/09 Identificar un problema Usar data mining para  transformar los datos  en información   Actuar basándonos en la información Medir los resultados
27/11/09 Administración de las Tecnologías de la Información  OBJETIVO Establecer la secuencia de l ó gica de actividades, responsables e informaci ó n necesaria que permita controlar, recopilar y procesar informaci ó n primaria y secundaria.  ALCANCE El presente procedimiento permite la publicaci ó n de informaci ó n clasificada por sector, inici á ndose con la coordinaci ó n de la disponibilidad de informaci ó n y finalizando con el ingreso de informaci ó n al sistema.  El presente documento aplica para el Departamento de Informaci ó n y Negocios Electr ó nicos de la Sub Direcci ó n de Inteligencia y Prospectiva Comercial.
27/11/09 Administración de las Tecnologías de la Información
27/11/09 Administración de las Tecnologías de la Información
27/11/09 Administración de las Tecnologías de la Información
Importante Administración de las Tecnologías de la Información  27/11/09 La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa
Data Mining resumen Administración de las Tecnologías de la Información  27/11/09 Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos
Conclusiones Administración de las Tecnologías de la Información  27/11/09 El concepto de DWH está teniendo una gran aplicación en la actualidad para el desarrollo de las empresas, como almacén de datos. Sus objetivos incluyen la reducción de los costes de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre años, más que sobre meses de información. Para diseñar una buena arquitectura de DWH es necesario como primer paso conocer bien los requerimientos del negocio y hacer un estudio profundo de las fuentes externas que nos van a suministrar los datos. Además, hacer un buen diseño del área de transformación de datos, cuáles son las transformaciones que se van a realizar y cómo se va a implementar el modelo dimensional con sus tablas de hechos y de dimensiones es el segundo paso a seguir.
Resumiendo los beneficios de la arquitectura del DWH : Administración de las Tecnologías de la Información  27/11/09 Provee un esquema de organización – cuáles son los componentes que la forman, cómo ellos se interrelacionan, quién es el dueño de cada parte y cuáles son las prioridades.  Mejora la flexibilidad – permite que rápidamente se añadan nuevas fuentes de datos.  Desarrollo rápido y reuso – los desarrolladores de DWH son más capaces de comprender el proceso de DWH , los contenidos de las bases de datos y las reglas del negocio más rápidamente.  Herramientas de comunicaciones – define y comunica la dirección y el alcance de las expectativas , identifica los roles y responsabilidades y comunica los requerimientos al proveedor.
Que  la tecnología  no te entierre¡¡¡ Administración de las Tecnologías de la Información  Thank You ! 27/11/09
ANEXOS REDES  NEURONALES 27/11/09 Administración de las Tecnologías de la Información  Fuente: José Ignacio Latorre Universitat de Barcelona http://sophia.ecm.ub.es/latorre /
¿Por qué no se emplea el Data Mining? Explotación “bruta” de las bases de datos da resultados sin sentido o no-competitivos Sentido común y buena formación  =  coste elevado Sí se emplea, pero poca gente es consciente Data Mining 27/11/09 Administración de las Tecnologías de la Información
Redes Neuronales 27/11/09 Administración de las Tecnologías de la Información
¿Qué es una red neuronal? Datos Datos históricos variables   objetivos Datos  nuevos variables   ?? Las redes neuronales aprenden a partir de ejemplos Economista/Matemático/Físico/Analista Aproximante universal (Permiten un ajuste a partir de ejemplos en un gran espacio de funciones sin sesgo, robusto, flexible que implementa  inferencia bayesiana) Economista/Empresario Herramienta de predicción (objetivo, consolidado, adaptable a problemas complejos, integrable) Modelo del cerebro Redes neuronales 27/11/09 Administración de las Tecnologías de la Información
Redes neuronales ¿Para qué sirven una red neuronal?   Clasificación Clientes buenos/malos, comprometidos o no, asequibles o no Reconocimiento de patrones Interpolación Adivinar el comportamiento de un nuevo cliente Crear una nueva pintura Predicción Ventas, meteorología, finanzas, control de producción  Las redes neuronales pueden ser aplicadas a cualquier problema de inferencia estadística 27/11/09 Administración de las Tecnologías de la Información
¿Cómo funciona una red neuronal? capa 1 capa 2 capa  l ..... Red neuronal feedforward multicapa Redes neuronales 27/11/09 Administración de las Tecnologías de la Información
Redes neuronales La función de activación ƒ  da flexibilidad para que la respuesta de  cada neurona pueda ser no lineal Los pesos  w   y los umbrales  t  determinan la forma en que la información es procesada por cada neurona El número de capas y de neuronas por capa definen la  arquitectura de la red neuronal  El algoritmo de aprendizaje por corrección de errores hacia atrás, “back-propagation” (1985) establece un procedimiento eficiente para ajustar los pesos y umbrales de una red neuronal de forma que aprenda ejemplos.  ¡Hemos aprendido a aprender! 27/11/09 Administración de las Tecnologías de la Información
Redes neuronales T   vs  C   C T c T C T T C Entrenamiento 0.  w  y  t aleatorios 1.  Introducir un ejempo (T) Output = T    bien Output  = C error Propagar un cambio de  w  and  t  a través de la red  para reducir el error 4. Repetir con todos los ejemplos varias veces Aprendizaje supervisado de  T  /  C T Robusto  Universal Sin sesgo 27/11/09 Administración de las Tecnologías de la Información
Redes neuronales Belgrado 19/04/1999 Una red neuronal es  entrenada con patrones  de aviones La red detecta un avión militar escondido bajo un avión  comercial 27/11/09 Administración de las Tecnologías de la Información
Finanzas Data Mining Divorcios Ciencia Banca Reconocimiento de patrones 27/11/09 Administración de las Tecnologías de la Información
Tarjetas de crédito 50000 clientes reciben la oferta Un red neuronal es entrenada con las respuestas La red predice la respuesta de los 450000 clientes restantes Un banco desea ofrecer una nueva  tarjeta a sus clientes Depósitos  Salario Edad  Sexo  Créditos Hipotecas  Educación  Sí / No Red neuronal Ejemplos 27/11/09 Administración de las Tecnologías de la Información
Ejemplos Lift Chart % de clientes contactados % de Respuestas positivas retenidas 27/11/09 Administración de las Tecnologías de la Información
Promedios sobre redes entrenadas a partir de pesos aleatorios  Si existe un modelo subyacente, las redes son equivalentes Si no existe un modelo subyacente, las redes producen dispersión Lanzamos 100 redes sobre  datos entrenar/validar Para cada dato tenemos un promedio y una dispersión Descartamos 3 sigma  Alarmas Arbitraje … . -1 sigma  + 1sigma  NN Real Ejemplos Series temporales de cotizaciones 27/11/09 Administración de las Tecnologías de la Información
Ejemplos ¿Estoy divorciado? Una red neuronal ha sido entrenada con  área del apartamento ¿es relevante la virginidad?  ¿divorciado? salario  sí / no visitas de los suegros salud,.. Acierto:  88% Matemáticas / Filosofía 100% 27/11/09 Administración de las Tecnologías de la Información

DATAWAREHOUSE

  • 1.
    Alumnos: JeriSandoval, Roberto Rosales Buiza John Segovia Herrera Néstor Robles Rodriguez Isaac Data Warehouse 27/11/09 Administración de las Tecnologías de la Información FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS
  • 2.
    Definiciones de DataWarehouse Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo Bill H. Inmon &quot;una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis“ o&quot;la unión de todos los Data marts de una entidad“ Ralph Kimball “ Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico” Susan Osterfeldt 27/11/09 Administración de las Tecnologías de la Información
  • 3.
    Objetivos Hacer lainformación de la organización accesible Hacer a la información de la organización consistente Controlar el acceso efectivo a los datos Generar información de manera flexible Servir de ayuda a la toma de decisiones 27/11/09 Administración de las Tecnologías de la Información
  • 4.
    En resumen UnData Warehouse tiene como objetivo almacenar y proveer a la Organización de información relevante y a tiempo 27/11/09 Administración de las Tecnologías de la Información
  • 5.
    Importancia del DataWarehouse Mejorar la Entrega de Información: . Mejorar el Proceso de Toma de Decisiones Impacto Positivo sobre los Procesos Empresariales 27/11/09 Administración de las Tecnologías de la Información
  • 6.
    A pensar antesde implementar un Data Warehouse La amplitud; el número de diferentes temas y puntos de foco Fuentes que proveerán datos brutos. Los medios por los cuales los datos se transportan de las aplicaciones fuente y son cargados al Data Warehouse. Las reglas de negocio que se aplican a la data en bruto para producir activos de datos de alta calidad. Las bases de datos receptoras, en la que estos activos de datos serán almacenados. Los activos de datos; los elementos, el nivel de detalle de cada elemento, y cuánta historia se ha mantenido, por ejemplo. La Inteligencia de negocio Herramientas de nivel usuario para acceder a los activos de datos. La arquitectura y complejidad en general del entorno. 27/11/09 Administración de las Tecnologías de la Información
  • 7.
    Empresas que usanDATA WAREHOUSE Royal bank of canada Paypal 3M Coca-Cola Company Verizon Ford Motor Company Herramientas de nivel usuario para acceder a los activos de datos. La arquitectura y complejidad en general del entorno. 27/11/09 Administración de las Tecnologías de la Información
  • 8.
    27/11/09 Administración delas Tecnologías de la Información
  • 9.
    Productos (suites) deDATA WAREHOUSE y BI IBM Cognos http://www-01.ibm.com/software/data/cognos/ Teradata http://www.teradata.com Oracle Hyperion http://www.oracle.com/hyperion/index.html MicroStrategy http://www.strategy.com SAS http://www.sas.com 27/11/09 Administración de las Tecnologías de la Información
  • 10.
    Características de unData Warehouse Orientado a un tema Administra grandes cantidades de información Guarda información en diversos medios de almacenamiento Comprende múltiples versiones de uno (o varios) esquema de base de datos Condensa y agrega información Integra y asocia información de muchas fuentes 27/11/09 Administración de las Tecnologías de la Información
  • 11.
    Diferencias entre unsistema de Data Warehouse y aplicaciones tradicionales 27/11/09 Administración de las Tecnologías de la Información SISTEMAS TRADICIONALES DATAWAREHOUSE Predomina la actualización. Actividad operativa (día a día). Proceso puntual. Estabilidad. Datos desagregados. Dato actual. Respuesta de la transacción inmediata. Estructura relacional. Usuarios de perfiles bajos. Explotación de la información relacionada con operatividad de cada aplicación Predomina la consulta Análisis y decisión estratégica. Proceso masivo. Dinamismo. Niveles de detalle/agregación. Dato histórico. Respuesta masiva Estructura Multidimensional Usuarios de perfiles altos. Explotación de información interna y externa relacionada con el negocio.
  • 12.
    Metodologías de Diseñode Data Warehouse Metodología de Inmon (Top – Bottom) 27/11/09 Administración de las Tecnologías de la Información
  • 13.
    Metodología de Kimball(Bottom-up) 27/11/09 Administración de las Tecnologías de la Información
  • 14.
    Metodología agil parala implementación de un dw 27/11/09 Administración de las Tecnologías de la Información
  • 15.
    Page Arquitecturade un Data Warehouse 27/11/09 Administración de las Tecnologías de la Información
  • 16.
    Production systems Othersources CRM Billing Activation systems Other DBs… Files ETL DataWarehouse OLAP cubes Business Users Querying & Reporting tools Acquisition Storage / Archiving Restitution Datamarts Flujo de Datos de un DW 27/11/09 Administración de las Tecnologías de la Información
  • 17.
    Page Basede datos operacional / Nivel de base de datos externo. Nivel de acceso a los datos Nivel de organización de datos Nivel de data warehouse Nivel de acceso a la información Nivel de gestión de proceso Arquitectura de un Data Warehouse 27/11/09 Administración de las Tecnologías de la Información
  • 18.
    Page Basede datos operacional / Nivel de base de datos externo (Fuentes de datos) Los sistemas operacionales procesan datos para apoyar las necesidades operacionales críticas, tales como ERPs, SCMs, también se procesa información de fuentes de datos externas, tales como de la internet, INEI, BCRP. Nivel de acceso a los datos Es responsable de la interfaces entre las herramientas de acceso a la información y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita para realizar estas interfases se utiliza el SQL (Standar Query Lenguaje) Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
  • 19.
    Page Nivelde organización de datos El componente final de la arquitectura data Warehouse es la organización de los datos, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depósito y acceder a la información desde bases de datos operacionales y/o externas Nivel de data warehouse En un data Warehouse físico, el almacenaje de data procesada, incluso en forma redundante Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
  • 20.
    Page Nivelde acceso a la información Este nivel se incluye el hardware y software involucrados en representar y proveer de información al usuario final normalmente usa día a día. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc. Nivel de gestión de proceso El nivel de gestión de procesos tiene que ver con la programación de diversas tareas que deben realizarse para construir y mantener actualizado el data warehouse y la información del directorio de datos. Elementos de la Arq. De un DW 27/11/09 Administración de las Tecnologías de la Información
  • 21.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE 1 FACTORES EN LA PLANIFICACION DE UN DATA WAREHOUSE Establecer una asociación de usuarios, gestión y grupos Construir prototipos rápida y frecuentemente Implementación incremental Reportar activamente y publicar los casos exitosos Administración de las Tecnologías de la Información Fase 1: Organización 27/11/09
  • 22.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE 2 ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE Administración de las Tecnologías de la Información ¿Quién es el auditorio? ¿Cuál es el alcance? ¿Qué tipo de data warehouse debería construirse? 1ra.: Establecer un ambiente &quot;data warehouse virtual“. 2da.: Construir una copia de los datos operacionales desde un sistema operacional único y posibilitar al data warehouse de una serie de herramientas de acceso a la información. 3ra.: Finalmente, la estrategia data warehousing óptima es seleccionar el número de usuarios basados en el valor de la empresa y hacer un análisis de sus puntos, preguntas y necesidades de acceso a datos. 27/11/09
  • 23.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 3 ESTRATEGIAS PARA EL DISEÑO DE UN DATA WAREHOUSE 1ra. : Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales. 2da.: El diseño de un data warehouse, con frecuencia involucra lo que se piensa en términos más amplios y con conceptos del negocio más difíciles de definir que en el diseño de un sistema operacional. Al respecto, un data warehouse está bastante cerca a Reingeniería de los Procesos del Negocio (Business Process Reengineering). 3ra.: Finalmente, la estrategia de diseño ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down). 27/11/09
  • 24.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE 1ra.: Un data warehouse es una inversión buena sólo si los usuarios finales realmente pueden conseguir información vital más rápida y más barata de lo que obtienen con la tecnología actual. 2da.: La administración debe reconocer que el mantenimiento de la estructura del data warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de misión-crítica. 3ra.: La gestión debe comprender también que si se embarcan sobre un programa data warehousing, se crearán nuevas demandas sobre sus sistemas operacionales, que son: Demandas para mejorar datos Demandas para una data consistente Demandas para diferentes tipos de datos, etc. 27/11/09
  • 25.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información Se ha reconocido los beneficios del procesamiento analítico en línea (On Line Analytical Processing - OLAP), más allá de las áreas tradicionales de marketing y finanzas. El crecimiento de la computación cliente/servidor, ha creado servidores de hardware y software más poderosos y sofisticados que nunca. Los servidores de hoy compiten con las mainframes de ayer y ofrecen arquitecturas de memoria tecnológicamente superiores, procesadores de alta velocidad y capacidades de almacenamiento masivas. Fase 2: Desarrollo 1. ¿PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE? 27/11/09
  • 26.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 2 CONSIDERACIONES PREVIAS AL DESARROLLO DE UN DATA WAREHOUSE Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas: Alcance de un data warehouse Redundancia de datos Tipo de usuario final 27/11/09
  • 27.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 3 ELEMENTOS CLAVES PARA EL DESARROLLO DE UN DATA WAREHOUSE Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con problemas difíciles de trabajar en su entorno, costoso para arreglar y difícil de justificar. Para conseguir que la implementación del depósito tenga un inicio exitoso, se necesita enfocar hacia tres bloques claves de construcción: Arquitectura total del depósito Arquitecturas del servidor Sistemas de Gestión de Base de Dato Hay muchas maneras para desarrollar data warehouses como tantas organizaciones existen. Sin embargo, hay un número de dimensiones diferentes que necesitan ser consideradas: Alcance de un data warehouse Redundancia de datos Tipo de usuario final 27/11/09
  • 28.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 4 CONFIABILIDAD DE LOS DATOS La data &quot;sucia&quot; es peligrosa. Las herramientas de limpieza especializadas y las formas de programar de los clientes proporcionan redes de seguridad. No importa cómo esté diseñado un programa o cuán hábilmente se use. Si se alimenta mala información, se obtendrá resultados incorrectos o falsos. Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de línea comercial operacionales pueden ser basura en lo que concierne a la aplicación data warehousing 27/11/09
  • 29.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 5 FACTORES DECISIVOS PARA DECIDIR EL DESARROLLO DE UN DATA WAREHOUSE La data sucia es un serio peligro para el éxito de un proyecto de data warehouse. Dependiendo del alcance del problema, simplemente podría no ser posible dirigirlo rápidamente y abaratarlo. Los principales factores son: El tiempo que toma la programación interna El costo de las herramientas Los gerentes de proyectos de Data Warehouse necesitan evaluar el problema con realismo, los recursos internos disponibles para distribuirlos y seleccionar la solución que se adapte a la planilla y presupuesto del proyecto, o modificar la planilla y el presupuesto para solucionar el problema. 27/11/09
  • 30.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información Proyecto Total o Proyecto en Fases Es más viable el desarrollo de un proyecto en fases que produzcan resultados a corto plazo que el desarrollo de un proyecto que entregue resultados al término de varios años. Por ello, el proyecto debe estar centrado en un área o un proceso. Modelo lógico de datos El modelo lógico de datos debe tener un alcance más alto y cubrir todas las áreas de interés, así como los procesos más estratégicos de cada una de ellas. Proyecto Especializado o Proyecto Base Decidir sobre qué tipo de proyecto, es algo complicado. Un proyecto especializado soporta directamente un proceso específico, por ejemplo: retención de clientes. Un proyecto base entrega capacidad genérica de análisis a todos los usuarios que tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la solución de un problema específico o el soporte especializado de un proceso específico. FASE 3: IMPLEMENTACION 1 ELEMENTOS A CONSIDERAR EN LA IMPLEMENTACION 27/11/09
  • 31.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 2 ESTRATEGIAS PARA EL PROCESO DE IMPLEMENTACION Identificar el problema en el cual el uso estratégico de la información detallada, permita conseguir una solución para generar una ventaja competitiva o un ahorro de costos. Definir el modelo lógico de datos a implementar para resolver el problema planteado. 27/11/09
  • 32.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 3 ESTRATEGIAS EN LA IMPLEMENTACION Definir el mejor diseño físico para el modelo de datos. El diseño físico debe estar orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia del modelo lógico que está orientado al usuario y a la facilidad de consulta. Definir los procesos de extracción, filtro, transformación de información y carga de datos que se deben implementar para poblar ese modelo de datos. Definir los procesos de administración de la información que permanece en el data warehouse Definir las formas de consultas a la información del data warehouse que se le proporcionará al usuario. Para ésto, debe considerarse la necesidad de resolver un problema y la potencia de consulta. Completar el modelo de consulta base, relativo al área seleccionada. Implementar los procesos estratégicos del área de trabajo, es decir, implementar herramientas especializadas de scoring, herramientas especializadas para inducción de conocimiento (Data Mining), etc. Completar las áreas de interés, en forma similar a lo descrito anteriormente. 27/11/09
  • 33.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información ¿Qué clases de costos excedieron el presupuesto en más del 10% en cada uno de los 12 meses pasados? ¿Se aumentaron los presupuestos en más de 5% para cualquier área dentro de los últimos 18 meses? ¿Cómo especificar las clases de gasto entre diferentes departamentos? ¿Entre divisiones? ¿A través de las regiones geográficas? ¿Cómo tener márgenes de operación sobre los dos últimos años en cada área de negocio? Donde han disminuido los márgenes, ¿se han incrementado los costos? FASE 4: EVALUACION 1 EVALUACION DE RENDIMIENTO DE LA INVERSION 27/11/09
  • 34.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información CASO PRACTICO En un estudio encargado por 20 vendedores y consultores, se encontró un Retorno Promedio Total de la inversión (Return On Investment-ROI) de 401%.También, se excluyeron los proyectos fracasados, así como los ejecutados excepcionalmente, tanto buenos como malos. 27/11/09 2.2 Millones Costo promedio 2.3 Años Período de reembolso promedio 160% ROI mediano 533% ROI promedio del modelo complementario de datos 322% ROI promedio del proyecto más grande 401% ROI promedio total CAMBIOS DE VALOR
  • 35.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 1.1 COSTOS Y BENEFICIOS Costos preliminares Planificación Diseño Modelamiento /Ingeniería de Información Costos iniciales Plataforma de hardware Software de base de datos Costos en procesamiento Mantenimiento de datos Desarrollo de aplicaciones Capacitación y soporte Beneficios Tácticos Impresión y emisión de reporte reducido Demanda reducida para consultas de clientes Entrega más rápida de información a los usuarios Beneficios Estratégicos (Potencialidad) Aplicaciones y herramientas de acceso para los usuarios finales Decisiones con mayor información Toma de decisiones más rápida Capacidad de soporte a la información organizacional 27/11/09
  • 36.
    PROYECTO DE ELABORACIONDE UN DATA WAREHOUSE Administración de las Tecnologías de la Información 2 BENEFICIOS A OBTENER Para la Empresa El data warehouse hace lo posible por aprovechar el valor potencial enorme de los recursos de información de la empresa y volver ese valor potencial en valor verdadero. Para los Usuarios El data warehouse extiende el alcance de la información para que puedan accesar directamente en línea, lo que a la vez contribuye en su capacidad para operar con mayor efectividad las tareas rutinarias o no. Para la Organización en Tecnologías de Información El data warehouse enriquece las capacidades del usuario autosuficiente y hace lo factible para ofrecer nuevos servicios a los usuarios, sin interferir con las aplicaciones cotidianas de producción 27/11/09
  • 37.
    Importante: El Modelode Datos Es el modelo por el cual se diseña el esquema de funcionamiento de la Base de Datos que provee al Data Warehouse. Existen varios enfoques en este sentido: Fábrica de información corporativa (CIF): incluyen ODS, data warehouse y data marts, junto con otras varias interfaces de aplicaciones y el ambiente operacional, fue desarrollada por Bill Inmon, Claudia Imhoff, y Ryan Sousa   Esquema en estrella: Este método replica las estructuras multidimensionales de hechos y dimensiones, pero usa tablas de RDBMS, específicamente tablas de hechos y tablas de dimensiones. Se dejan de lado las reglas de normalización de base de datos y se ponen los datos donde tienen más sentido   Data vault (Arquitectura de modelado fundacional común -CFIMA): Esta es una arquitectura de integración de datos que contiene una base de datos orientada al detalle que contiene un conjunto de tablas normalizadas únicamente enlazadas que soportan una o más áreas funcionales de las tablas de negocio con tablas satélites para rastrear cambios históricos. Este enfoque híbrido reúne lo mejor del cruce entre la tercera forma normal (3NF) 27/11/09 Administración de las Tecnologías de la Información
  • 38.
    Page DATAWAREHOUSE VS BD OPERACIONAL 27/11/09 Administración de las Tecnologías de la Información Uso de Base de Datos Operacionales Uso de Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas predefinidas y actualizables Consultas complejas, frecuentemente no anticipadas. Cantidades pequeñas de datos resumidas. Cantidades grandes de datos resumidas. Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos
  • 39.
    Modelo de Estrella27/11/09 Administración de las Tecnologías de la Información
  • 40.
    Extracción, Transformación yCarga Extracción Multiples Fuentes Orientadas a trabajo Batch : cagas de estos sistemas son más fuertes cuando los sistemas de producción tienen poca carga Conectvidad a diferentes tecnologías, diferentes manejadores de BDs Transformación Manipulación de data compleja Reunión de diferentes fuentes Implementación de reglas de negocio Limpiado, ordenado, eliminación de duplicidades Optimizado para el desempeño y para grandes volúmenes Carga Cargar la data en tablas de hechos y dimensiones Produce un historial en archivos o en la BD para trazabilidad Otros Controla los flujos de ejecución: maneja las dependencias entre tareas, control de ejecución, gestión de errores, registros históricos. 27/11/09 Administración de las Tecnologías de la Información
  • 41.
    Ejemplos de transformaciónTransformación de Búsqueda difusa Busca valores en las tablas usando criterios difusos Ejemplo: Para un campo de texto la data puede contener muchas variantes de la misma palabra (“friend”, “a friend”, “freind”, etc). La lógica difusa puede ayudar a reunir las variantes. Transformación de dimensiones de cambio lento Ayuda a manejar la actualización de una dimensión de cambio lento Ejemplo : la información sobre los consumidores cambia constantemente, pero queremos una historia de estos Cambio de dirección  no queremos el valor anteiror (reemplazo) Un cambio en el valor VAT  ‘duplicamos’ la entrada del consumidor agregando los datos adicionales (para propósitos financieros) Clave sustituta 27/11/09 Administración de las Tecnologías de la Información
  • 42.
    Control de laEjecución Los datos son muy sensibles, la calidad de los reportes depende la calidad de estos Cargar un Data Warehouse puede implicar reglas complejas de extracción, transformación y carga Los usuarios del negocio no confiarán en un DW si no confían en su carga 27/11/09 Administración de las Tecnologías de la Información
  • 43.
    Ejemplos de paquetesen ETL Flujo de control y flujo de datos 27/11/09 Administración de las Tecnologías de la Información
  • 44.
    Middleware Son Instanciasintermedias a la carga y al acceso que sirven para verificar la calidad y fiabilidad de la data Estación de transformación interina: un área en la cual grupos de datos extraídos de alguna de las fuentes pasan por un proceso de transformación antes de moverse hacia la base de datos del almacén. Estación de aseguramiento de la calidad: Un área en la cual grupos de datos pasan por un conjunto de intensas revisiones de aseguramiento de la calidad antes de pasar hacia el almacén de datos. 27/11/09 Administración de las Tecnologías de la Información
  • 45.
    Middleware (2) 27/11/09Administración de las Tecnologías de la Información
  • 46.
    Solución: crear almacenes de datos especializados por área, que reciben los datos desde el almacén centralizado, estos almacenes se conocen como Data Marts. Problema : al crecer el DW. El rendimiento de las consultas decae y el modelo centralizado deja de ser optimo. 27/11/09 Administración de las Tecnologías de la Información
  • 47.
    Toma de decisionesUn Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. DATAMART 27/11/09 Administración de las Tecnologías de la Información
  • 48.
    Data Mart Puedeser alimentado desde los datos de un DWH, o integrar por si mismo un compendio de distintas fuentes de información. 27/11/09 Administración de las Tecnologías de la Información
  • 49.
    Data Warehouses Vs.Data Marts Data Mart Departamental Un solo tema Pocos < 100 GB Meses Data Warehouse Propiedad Alcance Tema Fuente de datos Tamaño (típico) Tiempo de implementación Data Warehouse Empresarial Múltiples Muchas 100 GB to > 1 TB Meses a años 27/11/09 Administración de las Tecnologías de la Información Data Mart
  • 50.
    Su objetivo esagilizar la consulta de grandes cantidades de datos. Caracteriza la Arquitectura necesaria para la implementación de un sistema de ayuda en la toma de decisiones. La consultas son pocas pero son muy consumidoras de tiempo (pueden correr horas), las actualizaciones son menos frecuentes y/o la respuesta a la consulta no depende del hecho de tener actualizada la base de datos. Soporte análisis multidimensional y procesamiento analítico en línea ( OLAP ) 27/11/09 Administración de las Tecnologías de la Información
  • 51.
    Soporte análisis multidimensionaly procesamiento analítico en línea ( OLAP ) Los datos son clasificados en diferentes dimensiones y pueden ser vistas unas con otras en diferentes combinaciones para obtener diferentes análisis de los datos que contienen. Los Usuarios pueden formular consultas complejas, arreglar datos en un reporte, cambiar de datos resumidos a datos detall ados . CARACTERISTICAS 27/11/09 Administración de las Tecnologías de la Información
  • 52.
    Clasificación según eltipo de motor en el que estén almacenados los datos: 27/11/09 Administración de las Tecnologías de la Información ROLAP (Relational OLAP) MOLAP (multidimensional OLAP) Almacena los datos en un motor relacional Almacena los datos en una base de datos multidimensional Muchas dimensiones Diez o menos dimensiones Soportan analisis OLAP contra grandes volumenens de datos Se comportan razonablemente en volumenes de datos mas reducidos (menos de 5Gb) Herramienta flexible y general Solución particular con volúmenes de información y numero de dimensiones mas modestos
  • 53.
    Consultando un cuboTrim4 Trim1 Trim2 Trim3 Dimensión tiempo Santiago Quito Arequipa Dimensión Ciudad Manzana Pañal Yogurt Lima Melon Dimensión Producto 27/11/09 Administración de las Tecnologías de la Información Ventas Fact
  • 54.
    LA ESTRUCTURA DEUN CUBO 27/11/09 Administración de las Tecnologías de la Información
  • 55.
    Hechos Principales 27/11/09Administración de las Tecnologías de la Información
  • 56.
    Medidas 27/11/09 Administraciónde las Tecnologías de la Información
  • 57.
    Medida : cuentade suscriptor x mes (para agilizar cálculos) 27/11/09 Administración de las Tecnologías de la Información
  • 58.
    Medida: Tasa decambio de moneda, esta se expresa en una sola, independientemente de la divisa de pago. 27/11/09 Administración de las Tecnologías de la Información
  • 59.
    Dimensiones La Dimensiónfecha se usa más de una vez (dimensión con rol) 27/11/09 Administración de las Tecnologías de la Información
  • 60.
    Relaciones Una relaciónregular 27/11/09 Administración de las Tecnologías de la Información
  • 61.
    The cube structureRelaciones Una relación de hecho 27/11/09 Administración de las Tecnologías de la Información
  • 62.
    Relaciones Una relaciónreferenciada 27/11/09 Administración de las Tecnologías de la Información
  • 63.
    The cube structureRelaciones Una relación de « muchos a muchos » Dim Product  Fact Charges Fact Charges  Dim Subscriber Dim Subscriber  Fact Subscriber 27/11/09 Administración de las Tecnologías de la Información
  • 64.
    DATA MINING Mineríade Datos Administración de las Tecnologías de la Información 27/11/09
  • 65.
    Contents DATA MININGAdministración de las Tecnologías de la Información 1. What is Data Mining? 27/11/09 2. ¿POR QUÉ? 3. Data Mining un proceso 4. Importante 5. Anexos
  • 66.
    What is DataMining? El data mining es el conjunto de técnicas y tecnologías que permiten explorar grandes BBDD, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Administración de las Tecnologías de la Información 27/11/09
  • 67.
    What is DataMining? Arte/Ciencia de descubrir y aprovecha en forma automática información no-obvia y útil en grandes bases de datos Administración de las Tecnologías de la Información 27/11/09 Énfasis en: no-obvia (no intuitivas) útil (coste vs beneficio) grande (proceso automático) No hay reglas siempre que el proceso sea eficiente en tiempo, dinero y recursos humanos
  • 68.
    Tres pasos Preparaciónde los datos Análisis de datos Toma de decisiones Redes Neuronales 27/11/09 Administración de las Tecnologías de la Información
  • 69.
    Preparación de datosExtracción / Integración Transformación Selección Limpieza Data warehouse 50-80% tiempo del proyecto 27/11/09 Administración de las Tecnologías de la Información
  • 70.
    27/11/09 Administración delas Tecnologías de la Información
  • 71.
    “ Scrubbing, selecting,cleansing, preprocessing,…” Eliminar redundancia Eliminar datos y variables irrelevantes Tratar datos ausentes media, substitución astuta, interpolación, ignorar, ? Corrección errores Outliers (datos fuera de rango) Verificar consistencia Reservar todo preprocesamiento relevante hasta el análisis 27/11/09 Administración de las Tecnologías de la Información
  • 72.
    Anáslisis de datosTécnicas: Árboles de decisión Reglas de asociación Ajustes (regresiones..) Algoritmos genéticos Redes neuronales … Tareas conceptuales: Clasificación Optimización Interpolación Modelación Predicción … Objetivos: Target marketing Segmentación Control Predicción ventas Descubrir imperfecciones … 27/11/09 Administración de las Tecnologías de la Información
  • 73.
    Toma de decisionesLos resultados del análisis pueden resultar inescrutables El analista debe entender el problema a fondo Los resultados deben presentarse con honestidad El post-procesamiento y la inclusión de factores subjectivos son a menudo necesarios Validación estricta 27/11/09 Administración de las Tecnologías de la Información
  • 74.
    ¿PARA QUÉ? Lasempresas de todos los tamaños necesitan aprender de sus datos para crear una relación “one-to-one” con sus clientes. Las empresas recogen datos de todos lo procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel Administración de las Tecnologías de la Información 27/11/09
  • 75.
    Data Mining proporcionala Inteligencia El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento Administración de las Tecnologías de la Información 27/11/09
  • 76.
    Relación Administración delas Tecnologías de la Información 27/11/09 Relación con el Data Mining Está asociado al escalón más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos. Mientras en Data Warehousing, se basan en estructuras multidimensionales, en las que se almacena la información calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de análisis. Aunque este método se puede considerar como exagerado, nunca será tan caro, como lo que le costaría a la organización el tomar las decisiones equivocadas.
  • 77.
    ¿Como nos ayudan?¿Qué clientes permanecerán fieles? ¿Qué clientes están a punto de abandonar? ¿Dónde debemos localizar la próxima sucursal? ¿Qué productos se deben promocionar a qué prospectos? ... Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas Administración de las Tecnologías de la Información 27/11/09
  • 78.
    Data Mining unproceso Administración de las Tecnologías de la Información 27/11/09 Pasos
  • 79.
    Data Mining unproceso Administración de las Tecnologías de la Información 27/11/09 Identificar un problema Usar data mining para transformar los datos en información Actuar basándonos en la información Medir los resultados
  • 80.
    27/11/09 Administración delas Tecnologías de la Información OBJETIVO Establecer la secuencia de l ó gica de actividades, responsables e informaci ó n necesaria que permita controlar, recopilar y procesar informaci ó n primaria y secundaria. ALCANCE El presente procedimiento permite la publicaci ó n de informaci ó n clasificada por sector, inici á ndose con la coordinaci ó n de la disponibilidad de informaci ó n y finalizando con el ingreso de informaci ó n al sistema. El presente documento aplica para el Departamento de Informaci ó n y Negocios Electr ó nicos de la Sub Direcci ó n de Inteligencia y Prospectiva Comercial.
  • 81.
    27/11/09 Administración delas Tecnologías de la Información
  • 82.
    27/11/09 Administración delas Tecnologías de la Información
  • 83.
    27/11/09 Administración delas Tecnologías de la Información
  • 84.
    Importante Administración delas Tecnologías de la Información 27/11/09 La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa
  • 85.
    Data Mining resumenAdministración de las Tecnologías de la Información 27/11/09 Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos
  • 86.
    Conclusiones Administración delas Tecnologías de la Información 27/11/09 El concepto de DWH está teniendo una gran aplicación en la actualidad para el desarrollo de las empresas, como almacén de datos. Sus objetivos incluyen la reducción de los costes de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre años, más que sobre meses de información. Para diseñar una buena arquitectura de DWH es necesario como primer paso conocer bien los requerimientos del negocio y hacer un estudio profundo de las fuentes externas que nos van a suministrar los datos. Además, hacer un buen diseño del área de transformación de datos, cuáles son las transformaciones que se van a realizar y cómo se va a implementar el modelo dimensional con sus tablas de hechos y de dimensiones es el segundo paso a seguir.
  • 87.
    Resumiendo los beneficiosde la arquitectura del DWH : Administración de las Tecnologías de la Información 27/11/09 Provee un esquema de organización – cuáles son los componentes que la forman, cómo ellos se interrelacionan, quién es el dueño de cada parte y cuáles son las prioridades. Mejora la flexibilidad – permite que rápidamente se añadan nuevas fuentes de datos. Desarrollo rápido y reuso – los desarrolladores de DWH son más capaces de comprender el proceso de DWH , los contenidos de las bases de datos y las reglas del negocio más rápidamente. Herramientas de comunicaciones – define y comunica la dirección y el alcance de las expectativas , identifica los roles y responsabilidades y comunica los requerimientos al proveedor.
  • 88.
    Que latecnología no te entierre¡¡¡ Administración de las Tecnologías de la Información Thank You ! 27/11/09
  • 89.
    ANEXOS REDES NEURONALES 27/11/09 Administración de las Tecnologías de la Información Fuente: José Ignacio Latorre Universitat de Barcelona http://sophia.ecm.ub.es/latorre /
  • 90.
    ¿Por qué nose emplea el Data Mining? Explotación “bruta” de las bases de datos da resultados sin sentido o no-competitivos Sentido común y buena formación = coste elevado Sí se emplea, pero poca gente es consciente Data Mining 27/11/09 Administración de las Tecnologías de la Información
  • 91.
    Redes Neuronales 27/11/09Administración de las Tecnologías de la Información
  • 92.
    ¿Qué es unared neuronal? Datos Datos históricos variables objetivos Datos nuevos variables ?? Las redes neuronales aprenden a partir de ejemplos Economista/Matemático/Físico/Analista Aproximante universal (Permiten un ajuste a partir de ejemplos en un gran espacio de funciones sin sesgo, robusto, flexible que implementa inferencia bayesiana) Economista/Empresario Herramienta de predicción (objetivo, consolidado, adaptable a problemas complejos, integrable) Modelo del cerebro Redes neuronales 27/11/09 Administración de las Tecnologías de la Información
  • 93.
    Redes neuronales ¿Paraqué sirven una red neuronal? Clasificación Clientes buenos/malos, comprometidos o no, asequibles o no Reconocimiento de patrones Interpolación Adivinar el comportamiento de un nuevo cliente Crear una nueva pintura Predicción Ventas, meteorología, finanzas, control de producción Las redes neuronales pueden ser aplicadas a cualquier problema de inferencia estadística 27/11/09 Administración de las Tecnologías de la Información
  • 94.
    ¿Cómo funciona unared neuronal? capa 1 capa 2 capa l ..... Red neuronal feedforward multicapa Redes neuronales 27/11/09 Administración de las Tecnologías de la Información
  • 95.
    Redes neuronales Lafunción de activación ƒ da flexibilidad para que la respuesta de cada neurona pueda ser no lineal Los pesos w y los umbrales t determinan la forma en que la información es procesada por cada neurona El número de capas y de neuronas por capa definen la arquitectura de la red neuronal El algoritmo de aprendizaje por corrección de errores hacia atrás, “back-propagation” (1985) establece un procedimiento eficiente para ajustar los pesos y umbrales de una red neuronal de forma que aprenda ejemplos. ¡Hemos aprendido a aprender! 27/11/09 Administración de las Tecnologías de la Información
  • 96.
    Redes neuronales T vs C C T c T C T T C Entrenamiento 0. w y t aleatorios 1. Introducir un ejempo (T) Output = T bien Output = C error Propagar un cambio de w and t a través de la red para reducir el error 4. Repetir con todos los ejemplos varias veces Aprendizaje supervisado de T / C T Robusto Universal Sin sesgo 27/11/09 Administración de las Tecnologías de la Información
  • 97.
    Redes neuronales Belgrado19/04/1999 Una red neuronal es entrenada con patrones de aviones La red detecta un avión militar escondido bajo un avión comercial 27/11/09 Administración de las Tecnologías de la Información
  • 98.
    Finanzas Data MiningDivorcios Ciencia Banca Reconocimiento de patrones 27/11/09 Administración de las Tecnologías de la Información
  • 99.
    Tarjetas de crédito50000 clientes reciben la oferta Un red neuronal es entrenada con las respuestas La red predice la respuesta de los 450000 clientes restantes Un banco desea ofrecer una nueva tarjeta a sus clientes Depósitos Salario Edad Sexo Créditos Hipotecas Educación Sí / No Red neuronal Ejemplos 27/11/09 Administración de las Tecnologías de la Información
  • 100.
    Ejemplos Lift Chart% de clientes contactados % de Respuestas positivas retenidas 27/11/09 Administración de las Tecnologías de la Información
  • 101.
    Promedios sobre redesentrenadas a partir de pesos aleatorios Si existe un modelo subyacente, las redes son equivalentes Si no existe un modelo subyacente, las redes producen dispersión Lanzamos 100 redes sobre datos entrenar/validar Para cada dato tenemos un promedio y una dispersión Descartamos 3 sigma Alarmas Arbitraje … . -1 sigma + 1sigma NN Real Ejemplos Series temporales de cotizaciones 27/11/09 Administración de las Tecnologías de la Información
  • 102.
    Ejemplos ¿Estoy divorciado?Una red neuronal ha sido entrenada con área del apartamento ¿es relevante la virginidad? ¿divorciado? salario sí / no visitas de los suegros salud,.. Acierto: 88% Matemáticas / Filosofía 100% 27/11/09 Administración de las Tecnologías de la Información

Notas del editor

  • #51 Data Mining Administración de las Tecnologías de la Información
  • #52 Data Mining Administración de las Tecnologías de la Información
  • #53 Data Mining Administración de las Tecnologías de la Información
  • #65 Administración de las Tecnologías de la Información Data Mining
  • #66 Data Mining Administración de las Tecnologías de la Información
  • #67 Data Mining Administración de las Tecnologías de la Información
  • #68 Data Mining Administración de las Tecnologías de la Información
  • #69 Data Mining Administración de las Tecnologías de la Información
  • #70 Data Mining Administración de las Tecnologías de la Información
  • #71 Data Mining Administración de las Tecnologías de la Información
  • #72 Data Mining Administración de las Tecnologías de la Información
  • #73 Data Mining Administración de las Tecnologías de la Información
  • #74 Data Mining Administración de las Tecnologías de la Información
  • #75 Data Mining Administración de las Tecnologías de la Información
  • #76 Data Mining Administración de las Tecnologías de la Información
  • #77 Data Mining Administración de las Tecnologías de la Información
  • #78 Data Mining Administración de las Tecnologías de la Información
  • #79 Data Mining Administración de las Tecnologías de la Información
  • #80 Data Mining Administración de las Tecnologías de la Información
  • #81 Data Mining Administración de las Tecnologías de la Información
  • #95 Data Mining Administración de las Tecnologías de la Información
  • #103 Data Mining Administración de las Tecnologías de la Información