2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
Unidad2 Bases De Datos Para L Toma De Desiciones
1.
2. 2.1 ALMACÉN DE DATOS (DATA WAREHOUSE) Un Almacén de Datos (o Data Warehouse ) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el análisis de la información- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.
3. Diferencias entre Base de Datos y Almacén de Datos Data Warehousing es el proceso que facilita la creación y explotación de un Almacén de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como: Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.) Ejecución de consultas complejas no predefinidas visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos. Agrupamiento y desagrupamiento de datos en forma interactiva. Análisis del problema en términos de dimensiones. Control de calidad de datos. BASE DE DATOS OPERACIONAL ALMACÉN DE DATOS DATOS OPERACIONALES DATOS DEL NEGOCIO PARA INFORMACIÓN ORIENTADO A APLICACIÓN ORIENTADO AL SUJETO ACTUAL ACTUAL + HISTÓRICO DETALLADA DETALLADA + RESUMIDA CAMBIA CONTINUAMENTE ESTABLE
4. CARACTERÍSTICAS DEL ALMACÉN DE DATOS Organizado en torno a temas . La información se clasifica en base a los aspectos que son de interés para la empresa. Integrado . Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc. Dependiente del tiempo . Esta dependencia aparece de tres formas: La información representa los datos sobre un horizonte largo de tiempo. Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).
5.
6. Los bloques funcionales que se corresponden con un sistema de información completo que utiliza un DW se muestran gráficamente en la Figura
7.
8.
9.
10.
11. La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data mining y KDD.[3] A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones softwar en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.
12.
13. 2.2.2 FASES DE PROYECTOS DE MINERÍA DE DATOS Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.
14. El proceso de minería de datos se compone de las siguientes fases: Selección y preprocesado de datos El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el número de valores posibles (mediante redondeo, clustering...). Extracción de conocimiento Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
15. Interpretación y evaluación Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si desea obtener una descripción más detallada, puede consultar la documentación de CRISP-DM ( CRoss Industry Standard Process for Data Mining ), que es un estándar industrial, utilizado por más de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de estandarización y propone un modelo de proceso general para proyectos de minería de datos: