MAESTRIA EN TECNOLOGIAS DE INFORMACIÓN                    TECNOLOGÍAS DE LA INFORMACIÓN EN LAS ORGANIZACIONES             ...
MTI. ROSY CHITemas de la Unidad 4
MTI. ROSY CHI                  UNIDAD 4. TECNOLOGIA DE BASE DE DATOSConcepto de BASE DE DATOS
MTI. ROSY CHIBASE DE DATOS - ConceptoUna base de datos o banco de datos es unconjunto de datos pertenecientes a un mismoco...
MTI. ROSY CHIBASE DE DATOS - ConceptoActualmente, y debido al desarrollo tecnológico de campos como lainformática y la ele...
MTI. ROSY CHISistemas Gestores de Bases de Datos              Existen programas denominados sistemas                gestor...
MTI. ROSY CHITipos de base de datos
MTI. ROSY CHITipos de base de datos  Las bases • de acuerdo al contexto  de datos    que se esté manejando,   pueden • la ...
MTI. ROSY CHITipos de Base de Datos      Según la     variabilidad         Según el     de los datos        contenido    a...
MTI. ROSY CHISegún la variabilidad de los datos almacenados                     Bases de datos estáticas  Son bases de dat...
MTI. ROSY CHISegún el contenido                   Bases de datos bibliográficas Sólo contienen un subrogante (representant...
MTI. ROSY CHISegún el contenido                                Directorios           Un ejemplo son las guías telefónicas ...
MTI. ROSY CHISegún el contenido            Se pueden considerar en varios subtipos:            Las que almacenan secuencia...
MTI. ROSY CHIModelos de bases de datos
MTI. ROSY CHIModelos de bases de datos  Además de la clasificación por la función de las bases de datos, éstas también se ...
MTI. ROSY CHI….Modelo de Base de Datos Un modelo de datos es básicamente una "descripción" de algo conocido como contenedo...
MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos:           Bases de datos jerárquicas         ...
MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos:                                              ...
MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos:                                              ...
MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos:                                          Base...
MTI. ROSY CHIBASE DE DATOS PERSONALES            TECNOLOGIA DE BASE DE DATOS
MTI. ROSY CHIBASE DE DATOS PERSONALES                    Son colecciones de datos que                       integran infor...
MTI. ROSY CHIBASE DE DATOS CORPORATIVAS            TECNOLOGIA DE BASE DE DATOS
MTI. ROSY CHIBASE DE DATOS CORPORATIVAS                                                                                   ...
MTI. ROSY CHI
MTI. ROSY CHIDATAWAREHOUSE           TECNOLOGIA DE BASE DE DATOS
MTI. ROSY CHI   Datawarehouse o Almacén de DatosEn el contexto de la informática, un almacén de datos (del inglés data war...
MTI. ROSY CHICaracterísticas de un Data Warehouse1. Orientado a temas • Orientado a los temas principales de la organizaci...
MTI. ROSY CHI…Características de un Data Warehouse3. Variante en el tiempo • En los sistemas operacionales, los datos siem...
MTI. ROSY CHI
MTI. ROSY CHIDATAMART           TECNOLOGIA DE BASE DE DATOS
MTI. ROSY CHIData marts       Los Data marts son subconjuntos        de datos de un data warehouse            para áreas e...
MTI. ROSY CHIData marts                                          Tiene una                            Tiene un      funció...
MTI. ROSY CHICUBOS DE INFORMACIÓN                       UNIDAD 4.
MTI. ROSY CHICubos de informaciónLos cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en losjueg...
MTI. ROSY CHICubos de información
MTI. ROSY CHIVARIABLES Y DIMENSIONESA la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" enu...
MTI. ROSY CHIDimensiones                                                    Son catálogos de informaciónLas dimensiones de...
MTI. ROSY CHIVariablesTambién llamadas “indicadores de gestión”, son los datos que están siendo analizados.Forman parte de...
MTI. ROSY CHIEjemplosEjemplos de variables podrían ser: •   Beneficios •   Gastos •   Ventas •   etc.Ejemplos de dimension...
MTI. ROSY CHIDATAMINING             TECNOLOGIA DE BASE DE DATOS
MTI. ROSY CHIData Mining o Minería de Datos es un campo de las ciencias de la computación referido al proceso que intenta ...
MTI. ROSY CHIData Mining o Minería de DatosEl objetivo general del proceso de minería de datos consiste enextraer informac...
MTI. ROSY CHI…Data Mining       El término es una palabra de moda, y es                                                   ...
MTI. ROSY CHIUn proceso típico de minería de datos consta de        los siguientes pasos generales:1.Selección del conjunt...
MTI. ROSY CHI        …proceso típico de minería de datos4.Seleccionar y aplicar la técnica de minería de datos, se constru...
MTI. ROSY CHIPROTOCOLO DE UNPROYECTO DEMINERÍA DE DATOS         Unidad 4. Tecnología de Base de Datos
MTI. ROSY CHIUn proyecto de minería de datos tiene varias fasesnecesarias que son, esencialmente: Comprensión del negocio ...
MTI. ROSY CHITécnicas de minería de datos
MTI. ROSY CHILas técnicas más representativas son:Redes neuronalesRegresión linealÁrboles de decisiónModelos estadísticosA...
MTI. ROSY CHILas técnicas más representativas son:Redes neuronales.- Son un paradigma de aprendizaje yprocesamiento automá...
MTI. ROSY CHILas técnicas más representativas son:Árboles de decisión.- Un árbol de decisión es un modelo de predicciónuti...
MTI. ROSY CHILas técnicas más representativas son:Agrupamiento o Clustering.- Es un procedimiento deagrupación de una seri...
MTI. ROSY CHIEJEMPLOS DE USO DE LA MINERÍADE DATOS
MTI. ROSY CHIEjemplos de uso de la minería de datos                                      Negocios                        A...
Próxima SlideShare
Cargando en…5
×

Unidad 4. tecnología de base de datos

2.317 visualizaciones

Publicado el

unidad 4 de la materia Tecnologías de Información en las Organizaciones de la maestria en TI de la UNI

Publicado en: Educación
0 comentarios
1 recomendación
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
2.317
En SlideShare
0
De insertados
0
Número de insertados
16
Acciones
Compartido
0
Descargas
62
Comentarios
0
Recomendaciones
1
Insertados 0
No insertados

No hay notas en la diapositiva.

Unidad 4. tecnología de base de datos

  1. 1. MAESTRIA EN TECNOLOGIAS DE INFORMACIÓN TECNOLOGÍAS DE LA INFORMACIÓN EN LAS ORGANIZACIONES MTI. ROSA IMELDA GARCÍA CHIUNIDAD 4. TECNOLOGÍA DE BASE DE DATOS
  2. 2. MTI. ROSY CHITemas de la Unidad 4
  3. 3. MTI. ROSY CHI UNIDAD 4. TECNOLOGIA DE BASE DE DATOSConcepto de BASE DE DATOS
  4. 4. MTI. ROSY CHIBASE DE DATOS - ConceptoUna base de datos o banco de datos es unconjunto de datos pertenecientes a un mismocontexto y almacenados sistemáticamentepara su posterior uso.En este sentido, una biblioteca puedeconsiderarse una base de datos compuesta ensu mayoría por documentos y textos impresosen papel e indexados para su consulta.
  5. 5. MTI. ROSY CHIBASE DE DATOS - ConceptoActualmente, y debido al desarrollo tecnológico de campos como lainformática y la electrónica,la mayoría de las bases de datos están en formato digital(electrónico), y por ende se ha desarrollado y se ofrece un amplio rangode soluciones al problema del almacenamiento de datos.
  6. 6. MTI. ROSY CHISistemas Gestores de Bases de Datos Existen programas denominados sistemas gestores de bases de datos, abreviado SGBD, que permiten almacenar y posteriormente acceder a los datos de forma rápida y estructurada. Las propiedades de estos SGBD, así como su utilización y administración, se estudian dentro del ámbito de la informática.
  7. 7. MTI. ROSY CHITipos de base de datos
  8. 8. MTI. ROSY CHITipos de base de datos Las bases • de acuerdo al contexto de datos que se esté manejando, pueden • la utilidad de las mismas clasificarse o de varias • las necesidades que maneras, satisfagan.
  9. 9. MTI. ROSY CHITipos de Base de Datos Según la variabilidad Según el de los datos contenido almacenados
  10. 10. MTI. ROSY CHISegún la variabilidad de los datos almacenados Bases de datos estáticas Son bases de datos de sólo lectura, utilizadas primordialmente para almacenar datos históricos que posteriormente se pueden utilizar para estudiar el comportamiento de un conjunto de datos a través del tiempo, realizar proyecciones, tomar decisiones y realizar análisis de datos para inteligencia empresarial. Bases de datos dinámicas Éstas son bases de datos donde la información almacenada se modifica con el tiempo, permitiendooperaciones como actualización, borrado y adición de datos, además de las operaciones fundamentales de consulta. Un ejemplo de esto puede ser la base de datos utilizada en un sistema de información de un supermercado, una farmacia, un videoclub o una empresa.
  11. 11. MTI. ROSY CHISegún el contenido Bases de datos bibliográficas Sólo contienen un subrogante (representante) de la fuente primaria, que permite localizarla. Un registro típico de una base de datos bibliográfica contiene información sobre el autor, fecha de publicación, editorial, título, edición, de una determinada publicación, etc. Puede contener un resumen o extracto de la publicación original, pero nunca el texto completo, porque sino, estaríamos en presencia de una base de datos a texto completo (o de fuentes primarias —ver más abajo). Como su nombre lo indica, el contenido son cifras o números. Por ejemplo, una colección de resultados de análisis de laboratorio, entre otras. Bases de datos de texto completo Almacenan las fuentes primarias, como por ejemplo, todo el contenido de todas las ediciones de una colección de revistas científicas.
  12. 12. MTI. ROSY CHISegún el contenido Directorios Un ejemplo son las guías telefónicas en formato electrónico. Bases de datos o "bibliotecas" de información química o biológicaSon bases de datos que almacenan diferentes tipos de información proveniente de la química, las ciencias de la vida o médicas
  13. 13. MTI. ROSY CHISegún el contenido Se pueden considerar en varios subtipos: Las que almacenan secuencias de nucleótidos o proteínas. Las bases de datos de rutas metabólicas. Bases de datos de estructura, comprende los registros de datos experimentales sobre estructuras 3D de biomoléculas Bases de datos clínicas. Bases de datos bibliográficas (biológicas, químicas, médicas y de otros campos)
  14. 14. MTI. ROSY CHIModelos de bases de datos
  15. 15. MTI. ROSY CHIModelos de bases de datos Además de la clasificación por la función de las bases de datos, éstas también se pueden clasificarde acuerdo a su modelo de administración de datos.
  16. 16. MTI. ROSY CHI….Modelo de Base de Datos Un modelo de datos es básicamente una "descripción" de algo conocido como contenedor de datos (algo en donde se guarda la información), asícomo de los métodos para almacenar y recuperar información de esos contenedores. Los modelos de datos no son cosas físicas: son abstracciones que permiten la implementación de un sistema eficiente de base de datos; por lo general se refieren a algoritmos, y conceptos matemáticos.
  17. 17. MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos: Bases de datos jerárquicas Base de datos de red• En este modelo los datos se organizan en forma • Éste es un modelo ligeramente distinto del de árbol invertido (algunos dicen raíz), en donde jerárquico; su diferencia fundamental es la un nodo padre de información puede tener modificación del concepto de nodo: se permite varios hijos. El nodo que no tiene padres es que un mismo nodo tenga varios padres llamado raíz, y a los nodos que no tienen hijos (posibilidad no permitida en el modelo se los conoce como hojas. jerárquico).• Las bases de datos jerárquicas son • Fue una gran mejora con respecto al modelo especialmente útiles en el caso de aplicaciones jerárquico, ya que ofrecía una solución eficiente que manejan un gran volumen de información y al problema de redundancia de datos; pero, aún datos muy compartidos permitiendo crear así, la dificultad que significa administrar la estructuras estables y de gran rendimiento. información en una base de datos de red ha• Una de las principales limitaciones de este significado que sea un modelo utilizado en su modelo es su incapacidad de representar mayoría por programadores más que por eficientemente la redundancia de datos. usuarios finales.
  18. 18. MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos: Bases de datos relacionales Bases de datos transaccionales • Éste es el modelo utilizado en la actualidad para modelar• Son bases de datos cuyo único fin es el envío y problemas reales y administrar datos dinámicamente. Tras recepción de datos a grandes velocidades, estas bases ser postulados sus fundamentos en 1970 por Edgar Frank son muy poco comunes y están dirigidas por lo general Codd, de los laboratorios IBM en San José (California), no tardó en consolidarse como un nuevo paradigma en los al entorno de análisis de calidad, datos de producción e modelos de base de datos. Su idea fundamental es el uso de industrial, es importante entender que su fin único es "relaciones". recolectar y recuperar los datos a la mayor velocidad • Estas relaciones podrían considerarse en forma lógica como posible, por lo tanto la redundancia y duplicación de conjuntos de datos llamados "tuplas". Pese a que ésta es la información no es un problema como con las demás teoría de las bases de datos relacionales creadas por bases de datos, por lo general para poderlas aprovechar Codd, la mayoría de las veces se conceptualiza de una al máximo permiten algún tipo de conectividad a bases manera más fácil de imaginar. Esto es pensando en cada de datos relacionales. relación como si fuese una tabla que está compuesta por• Un ejemplo habitual de transacción es el traspaso de registros (las filas de una tabla), que representarían las una cantidad de dinero entre cuentas bancarias. tuplas, y campos (las columnas de una tabla). Normalmente se realiza mediante dos operaciones • En este modelo, el lugar y la forma en que se almacenen los distintas, una en la que se decrementa el saldo de la datos no tienen relevancia (a diferencia de otros modelos cuenta origen y otra en la que incrementamos el saldo como el jerárquico y el de red). Esto tiene la considerable ventaja de que es más fácil de entender y de utilizar para un de la cuenta destino. usuario esporádico de la base de datos. La información• Para garantizar la atomicidad del sistema (es decir, para puede ser recuperada o almacenada mediante "consultas" que no aparezca o desaparezca dinero), las dos que ofrecen una amplia flexibilidad y poder para administrar operaciones deben ser atómicas, es decir, el sistema la información. debe garantizar que, bajo cualquier circunstancia • El lenguaje más habitual para construir las consultas a bases (incluso una caída del sistema), el resultado final es de datos relacionales es SQL, Structured Query Language o que, o bien se han realizado las dos operaciones, o bien Lenguaje Estructurado de Consultas, un estándar no se ha realizado ninguna. implementado por los principales motores o sistemas de gestión de bases de datos relacionales.
  19. 19. MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos: Bases de datos orientadas a objetos Bases de datos multidimensionales • Este modelo, bastante reciente, y propio de los modelos informáticos orientados a objetos, trata de almacenar en la base de datos los objetos completos (estado y• Son bases de datos ideadas para comportamiento). desarrollar aplicaciones muy • Una base de datos orientada a objetos es una base de datos concretas, como creación de Cubos que incorpora todos los conceptos importantes del paradigma de objetos: OLAP. • Encapsulación - Propiedad que permite ocultar la• Básicamente no se diferencian información al resto de los objetos, impidiendo así accesos incorrectos o conflictos. demasiado de las bases de datos • Herencia - Propiedad a través de la cual los objetos heredan relacionales (una tabla en una base de comportamiento dentro de una jerarquía de clases. datos relacional podría serlo también en • Polimorfismo - Propiedad de una operación mediante la cual puede ser aplicada a distintos tipos de objetos. una base de datos multidimensional), la • En bases de datos orientadas a objetos, los usuarios pueden diferencia está más bien a nivel definir operaciones sobre los datos como parte de la conceptual; en las bases de datos definición de la base de datos. Una operación (llamada función) se especifica en dos partes. La interfaz (o signatura) multidimensionales los campos o de una operación incluye el nombre de la operación y los atributos de una tabla pueden ser de dos tipos de datos de sus argumentos (o parámetros). La tipos, o bien representan dimensiones de implementación (o método) de la operación se especifica separadamente y puede modificarse sin afectar la interfaz. la tabla, o bien representan métricas que Los programas de aplicación de los usuarios pueden operar se desean estudiar. sobre los datos invocando a dichas operaciones a través de sus nombres y argumentos, sea cual sea la forma en la que se han implementado. Esto podría denominarse independencia entre programas y operaciones.
  20. 20. MTI. ROSY CHIAlgunos modelos con frecuencia utilizados en lasbases de datos: Bases de datos deductivas Bases de datos documentales • Un sistema de base de datos deductiva, es un sistema de base de datos pero con la diferencia de que permite hacer• Permiten la indexación a deducciones a través de inferencias. • Se basa principalmente en reglas y hechos texto completo, y en que son almacenados en la base de datos. líneas generales realizar • Las bases de datos deductivas son también llamadas bases de datos lógicas, a raíz de búsquedas más potentes. que se basa en lógica matemática. Tesaurus es un sistema de • Este tipo de base de datos surge debido a las limitaciones de la Base de Datos índices optimizado para Relacional de responder a consultas este tipo de bases de recursivas y de deducir relaciones indirectas de los datos almacenados en la base de datos. datos.
  21. 21. MTI. ROSY CHIBASE DE DATOS PERSONALES TECNOLOGIA DE BASE DE DATOS
  22. 22. MTI. ROSY CHIBASE DE DATOS PERSONALES Son colecciones de datos que integran información de personas, tales como su nombre, su RFC, su dirección, su teléfono, su estado civil, su correo, entre otras. Estas Bases de Datos se encuentran y deben estar protegidas por la Ley de Datos Personales para que no se haga mal uso de ellas
  23. 23. MTI. ROSY CHIBASE DE DATOS CORPORATIVAS TECNOLOGIA DE BASE DE DATOS
  24. 24. MTI. ROSY CHIBASE DE DATOS CORPORATIVAS Con estas bases de datos, las Son colecciones de datos que la Estas colecciones involucran a organizaciones pueden construirempresa integra en diferentes bases de clientes, proveedores, productos, entre sistemas de información para la toma de datos. otros. decisiones o ERP
  25. 25. MTI. ROSY CHI
  26. 26. MTI. ROSY CHIDATAWAREHOUSE TECNOLOGIA DE BASE DE DATOS
  27. 27. MTI. ROSY CHI Datawarehouse o Almacén de DatosEn el contexto de la informática, un almacén de datos (del inglés data warehouse) es unacolección de datos orientada a un determinado ámbito(empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la tomade decisiones en la entidad en la que se utiliza.Se trata, sobre todo, de un expediente completo de una organización, más allá de la informacióntransaccional y operacional, almacenado en una base de datos diseñada para favorecer elanálisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico enlínea).El almacenamiento de los datos no debe usarse con datos de uso actual.Los almacenes de datos contienen a menudo grandes cantidades de información que sesubdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidaddel que procedan o para el que sean necesario.
  28. 28. MTI. ROSY CHICaracterísticas de un Data Warehouse1. Orientado a temas • Orientado a los temas principales de la organización. La información se clasifica en función de los aspectos que son de interés para la organización. • Se organizan por temas para facilitar el acceso y el entendimiento por parte de los usuarios finales. • Por ejemplo, tenemos información que proviene de los datos operacionales de distintas áreas como son: prestamos, ahorros, nóminas y créditos. Pues los temas que nos pueden interesar son: clientes, productos, vendedores y actividad.2. Integrado • En un sistema operacional no hay integración, pero en un Data Warehouse todos los datos se encuentran integrados. • Esta integración se muestra de diferentes maneras: consistencia en codificación de estructuras, en unidades de medida de las variables, en múltiples fuentes, en convenciones de nombres, en atributos físicos de los datos etc…
  29. 29. MTI. ROSY CHI…Características de un Data Warehouse3. Variante en el tiempo • En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente, por el contrario, la información almacenada en el Data Warehouse refleja un histórico de los datos en un horizonte de tiempo mucho más amplio (del orden de años). De esta forma podemos detectar tendencias en el tiempo.4. No volátil • El Data Warehouse existe para ser leído y no para ser modificado, la información es por tanto permanente, la actualización del Data Warehouse significa la incorporación de los últimos valores que tomaron las distintas variables contenidas en él, sin ningún tipo de acción sobre lo que ya existía. • Los datos más recientes no sustituyen a los precedentes, sino que suelen mantenerse con un mayor nivel de detalle. Por ejemplo: en el año actual se guardarían las ventas diarias de los diferentes artículos, mientras que los datos anteriores se mantendrían accesibles de manera agregada.
  30. 30. MTI. ROSY CHI
  31. 31. MTI. ROSY CHIDATAMART TECNOLOGIA DE BASE DE DATOS
  32. 32. MTI. ROSY CHIData marts Los Data marts son subconjuntos de datos de un data warehouse para áreas específicas.
  33. 33. MTI. ROSY CHIData marts Tiene una Tiene un función de propósito apoyo. Área específica. específico. Usuarios limitados.
  34. 34. MTI. ROSY CHICUBOS DE INFORMACIÓN UNIDAD 4.
  35. 35. MTI. ROSY CHICubos de informaciónLos cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en losjuegos, en el juego se trata de armar los colores y en el data warehouse se trata deorganizar los datos por tablas o relaciones; los primeros (el juego) tienen 3dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por lacual también reciben el nombre de hipercubos.Un cubo OLAP contendrá datos de una determinada variable que se deseaanalizar, proporcionando una vista lógica de los datos provistos por el sistema deinformación hacia el data warehouse, esta vista estará dispuesta según unas dimensiones ypodrá contener información calculada.El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se tratade un análisis multidimensional.
  36. 36. MTI. ROSY CHICubos de información
  37. 37. MTI. ROSY CHIVARIABLES Y DIMENSIONESA la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" enuna hoja de cálculo o a través de programas personalizados.Las tablas dinámicas le permiten manipular las vistas(cruces, filtrados, organización, totales) de la información con mucha facilidad.Las diferentes operaciones que se pueden realizar con cubos de información se producencon mucha rapidez.Llevando estos conceptos a un data warehouse, éste es una colección de datos que estáformada por «dimensiones» y «variables», entendiendo como dimensiones a aquelloselementos que participan en el análisis y variables a los valores que se desean analizar.
  38. 38. MTI. ROSY CHIDimensiones Son catálogos de informaciónLas dimensiones de un cubo son atributos complementaria necesaria para la Es decir, la información general relativos a las variables, son las presentación de los datos a los complementaria a cada uno de los perspectivas de análisis de las variables usuarios, como por ejemplo: registros de la tabla de hechos.(forman parte de la tabla de dimensiones). descripciones, nombres, zonas, rangos de tiempo, etc.
  39. 39. MTI. ROSY CHIVariablesTambién llamadas “indicadores de gestión”, son los datos que están siendo analizados.Forman parte de la tabla de hechos.Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos aanalizar.Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia delobjeto o evento medido.En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas paraindexar, ordenar, agrupar o abreviar los valores de las mismas.Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor queel de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas), “el tiempo”(medido en días, horas, semanas, etc.), ...
  40. 40. MTI. ROSY CHIEjemplosEjemplos de variables podrían ser: • Beneficios • Gastos • Ventas • etc.Ejemplos de dimensiones podrían ser: • producto (diferentes tipos o denominaciones de productos) • localidades (o provincia, o regiones, o zonas geográficas) • tiempo (medido de diferentes maneras, por horas, por días, por meses, por años, ...) • tipo de cliente (casado/soltero, joven/adulto/anciano, ...) • etc.
  41. 41. MTI. ROSY CHIDATAMINING TECNOLOGIA DE BASE DE DATOS
  42. 42. MTI. ROSY CHIData Mining o Minería de Datos es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.
  43. 43. MTI. ROSY CHIData Mining o Minería de DatosEl objetivo general del proceso de minería de datos consiste enextraer información de un conjunto de datos y transformarla enuna estructura comprensible para su uso posterior.Además de la etapa de análisis en bruto, que involucra aspectosde bases de datos y gestión de datos, procesamiento de datos, elmodelo y las consideraciones de inferencia, métricas deIntereses, consideraciones de la Teoría de la complejidadcomputacional, post-procesamiento de las estructurasdescubiertas, la visualización y actualización en línea.
  44. 44. MTI. ROSY CHI…Data Mining El término es una palabra de moda, y es pero también se ha generalizado a cualquier tipo frecuentemente mal utilizado para referirse a de sistema de apoyo informático cualquier forma de datos a gran escala o decisión, incluyendo la inteligencia artificial procesamiento de la información , aprendizaje automático y la inteligencia (recolección, extracción, almacenamiento, análisis empresarial. y estadísticas),
  45. 45. MTI. ROSY CHIUn proceso típico de minería de datos consta de los siguientes pasos generales:1.Selección del conjunto de datos, tanto en lo que se refiere a las variablesobjetivo (aquellas que se quiere predecir, calcular o inferir), como a las variablesindependientes (las que sirven para hacer el cálculo o proceso), comoposiblemente al muestreo de los registros disponibles.2.Análisis de las propiedades de los datos, en especial los histogramas, diagramasde dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).3.Transformación del conjunto de datos de entrada, se realizará de diversasformas en función del análisis previo, con el objetivo de prepararlo para aplicar latécnica de minería de datos que mejor se adapte a los datos y al problema, a estepaso también se le conoce como preprocesamiento de los datos.
  46. 46. MTI. ROSY CHI …proceso típico de minería de datos4.Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, declasificación o segmentación.5.Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo deconocimiento, que representa patrones de comportamiento observados en los valores de las variablesdel problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicasa la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesadodiferente de los datos.6.Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validacióncomprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el casode haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar losmodelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza losresultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
  47. 47. MTI. ROSY CHIPROTOCOLO DE UNPROYECTO DEMINERÍA DE DATOS Unidad 4. Tecnología de Base de Datos
  48. 48. MTI. ROSY CHIUn proyecto de minería de datos tiene varias fasesnecesarias que son, esencialmente: Comprensión del negocio y del problema que se quiere resolver. Validación, comunicación, etc. de los resultados obtenidos. Determinación, obtención y limpieza de los datos necesarios. Integración, si procede, de los resultados en un sistema Creación de modelos transaccional o similar. matemáticos.
  49. 49. MTI. ROSY CHITécnicas de minería de datos
  50. 50. MTI. ROSY CHILas técnicas más representativas son:Redes neuronalesRegresión linealÁrboles de decisiónModelos estadísticosAgrupamiento o ClusteringReglas de asociación
  51. 51. MTI. ROSY CHILas técnicas más representativas son:Redes neuronales.- Son un paradigma de aprendizaje yprocesamiento automático inspirado en la forma en que funciona elsistema nervioso de los animales. Se trata de un sistema deinterconexión de neuronas en una red que colabora para producir unestímulo de salida. Algunos ejemplos de red neuronal son: • El Perceptrón • El Perceptrón multicapa • Los Mapas Autoorganizados, también conocidos como redes de Kohonen.Regresión lineal.- Es la más utilizada para formar relaciones entredatos. Rápida y eficaz pero insuficiente en espaciosmultidimensionales donde puedan relacionarse más de 2 variables.
  52. 52. MTI. ROSY CHILas técnicas más representativas son:Árboles de decisión.- Un árbol de decisión es un modelo de predicciónutilizado en el ámbito de la inteligencia artificial, dada una base de datos seconstruyen estos diagramas de construcciones lógicas, muy similares a lossistemas de predicción basados en reglas, que sirven para representar ycategorizar una serie de condiciones que suceden de forma sucesiva, para laresolución de un problema. Ejemplos: • Algoritmo ID3 • Algoritmo C4.5Modelos estadísticos.- Es una expresión simbólica en forma de igualdad oecuación que se emplea en todos los diseños experimentales y en laregresión para indicar los diferentes factores que modifican la variable derespuesta.
  53. 53. MTI. ROSY CHILas técnicas más representativas son:Agrupamiento o Clustering.- Es un procedimiento deagrupación de una serie de vectores según criterioshabitualmente de distancia; se tratará de disponer los vectoresde entrada de forma que estén más cercanos aquellos quetengan características comunes. Ejemplos: • Algoritmo K-means • Algoritmo K-medoidsReglas de asociación.- Se utilizan para descubrir hechos queocurren en común dentro de un determinado conjunto dedatos.
  54. 54. MTI. ROSY CHIEJEMPLOS DE USO DE LA MINERÍADE DATOS
  55. 55. MTI. ROSY CHIEjemplos de uso de la minería de datos Negocios Análisis de Hábitos de gases compra en supermercados Ingeniería Patrones de eléctrica fuga Genética Fraudes Ciencia e Recursos Ingeniería humanos Comportamiento Juegos en Internet Terrorismo

×