Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Mineria y modelado de datos

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Cargando en…3
×

Eche un vistazo a continuación

1 de 10 Anuncio

Mineria y modelado de datos

Descargar para leer sin conexión

La toma de decisiones precisa de conocimiento, el cual proviene de la información que el centro decisor posea. Dicha información surge del análisis de datos específicos y necesarios. La minería o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD); es un campo de la estadística y las ciencias de la computación, y se refiere al proceso de detección de patrones en grandes volúmenes de datos.

La toma de decisiones precisa de conocimiento, el cual proviene de la información que el centro decisor posea. Dicha información surge del análisis de datos específicos y necesarios. La minería o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD); es un campo de la estadística y las ciencias de la computación, y se refiere al proceso de detección de patrones en grandes volúmenes de datos.

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a Mineria y modelado de datos (20)

Anuncio

Más de Sergio Salimbeni (20)

Más reciente (20)

Anuncio

Mineria y modelado de datos

  1. 1. Minería y Modelado de Datos Junio 2017 - año 10 Nro. 79 Herramientas para el Análisis de Negocios Minería y Modelado de Datos por Sergio Salimbeni Junio 2017 Basado en el “A GUI D E TO T H E BUS I N ES S A N A LYS I S BODY O F KNOWL EDGE ® v.3”
  2. 2. 2 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 Introducción La toma de decisiones precisa de conocimiento, el cual proviene de la información que el centro decisor posea. Dicha información surge del análisis de datos específicos y necesarios. La minería o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD); es un campo de la estadística y las ciencias de la computación, y se refiere al proceso de detección de patrones en grandes volúmenes de datos. Minería de datos 1. Propósito La minería de datos se utiliza para mejorar la toma de decisiones mediante la búsqueda de patrones útiles y conocimientos a partir de datos. 2. Descripción La minería de datos es un proceso analítico que examina grandes cantidades de datos desde diferentes perspectivas y los resume de tal manera que se descubren patrones y relaciones útiles. Los resultados de las técnicas de minería de datos son generalmente modelos matemáticos o ecuaciones que describen patrones y relaciones subyacentes. Estos modelos se pueden implementar para la toma de decisiones a través de tableros e informes visuales, o para sistemas de toma de decisiones automatizados a través de sistemas de administración de reglas de negocio o despliegues en bases de datos. La minería de datos puede ser utilizada en investigaciones supervisadas o no supervisadas. En una investigación supervisada, los usuarios pueden plantear una pregunta y esperar una respuesta que pueda impulsar su toma de decisión. Una investigación no supervisada, es un ejercicio puro de descubrimiento de patrones en el que se permite que emerjan y luego se los considere para las decisiones empresariales. La minería de datos es un término general que abarca técnicas descriptivas, de diagnóstico y predictivas: • Descriptivas: como el agrupamiento, el que facilita ver los patrones en un conjunto de datos, como por ejemplo las similitudes entre los clientes. • de Diagnóstico: como los árboles de decisión o la segmentación; puede existir un patrón como las
  3. 3. 3 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 características de los clientes más rentables de una organización. • Predictivas: como la regresión o las redes neuronales. que pueden mostrar la probabilidad de que algo sea cierto en el futuro, como predecir que la probabilidad de que una demanda particular sea fraudulenta. En todos los casos es importante considerar el objetivo del ejercicio de minería de datos, y estar preparado para un esfuerzo considerable para asegurar el tipo, volumen, y calidad adecuados de los datos con los que se va a trabajar. 3. Elementos 3.1. Elicitación de los requisitos La meta y el alcance de la minería de datos se establece, ya sea, en términos de requisitos de decisión para una importante decisión empresarial identificada, o en términos de un área funcional, donde se extraerán datos relevantes para el descubrimiento de patrones específicos de dominio. Esta estrategia de minería descendente versus una ascendente, permite a los analistas elegir el conjunto correcto de técnicas de minería de datos. Las técnicas de modelado de decisiones formales (véase a continuación Modelado de Decisiones) se utilizan para definir los requisitos para los ejercicios de minería de datos de arriba hacia abajo. Para los ejercicios de abajo hacia arriba de descubrimiento de patrones, es útil si la visión descubierta puede colocarse en los modelos de decisión existentes, lo que permite un uso rápido y el desarrollo de la visión. Los ejercicios de minería de datos son productivos cuando se administran como un entorno ágil. Ayudan a la iteración rápida, la confirmación, y el despliegue, al tiempo que proporcionan los controles del proyecto. 3.2. Preparación de datos: Conjunto de datos analíticos Las herramientas de minería de datos funcionan en un conjunto de datos analíticos. Esto se forma generalmente mediante la fusión de registros de varias tablas o fuentes en un conjunto de datos único y amplio. Los grupos de repetición suelen incorporarse en varios conjuntos de campos. Los datos pueden extraerse físicamente en un archivo real o puede ser un archivo virtual que se deja en la base de datos o almacén de datos para que pueda ser analizado. Los conjuntos de datos analíticos se dividen en un conjunto que se utiliza para el análisis, un conjunto completamente independiente para confirmar que el modelo desarrollado funciona sobre datos no
  4. 4. 4 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 utilizados para su desarrollo, y un conjunto de validación para la confirmación final. Los volúmenes de datos pueden ser muy grandes, resultando a veces en la necesidad de trabajar con muestras o trabajar en el almacén de datos para que ellos no tengan que moverse. 3. 3. Análisis de datos Una vez que los datos están disponibles se los analiza. Se suele aplicar una amplia variedad de medidas estadísticas y se utilizan herramientas de visualización para ver cómo se distribuyen los valores de los datos, cuáles faltan, y cómo se comportan las diversas características calculadas. Este paso es a menudo el más extenso y más complejo en un trabajo de minería de datos, y es cada vez más el foco de la automatización. Gran parte del trabajo de la minería de datos viene típicamente de la identificación de características útiles en los mismos. Por ejemplo, una característica puede ser el número de veces que un cliente ha visitado un comercio en los últimos 80 días. En este ejemplo, determinar que el recuento de los últimos 80 días es más útil que el recuento de los últimos 70 o 90 es clave. 3.4. Técnicas de Modelado Hay una gran variedad de técnicas de minería de datos. Algunos ejemplos de técnicas de minería de datos son: • árboles de clasificación y regresión (CART), C5 y otros árboles de decisión de técnicas de análisis, • regresión lineal y logística, • redes neuronales, • máquinas del sector de apoyo, y • tablas predictivas de puntuación (aditivas). El conjunto de datos analíticos y las características calculadas se introducen en estos algoritmos que son no supervisados (el usuario no sabe lo que están buscando) o supervisados (el usuario está tratando de encontrar o predecir algo específico). A menudo se utilizan técnicas múltiples para ver cuál es más eficaz. Algunos datos se conservan del modelo y se utilizan para confirmar que el resultado se pueda replicar con datos que no se utilizaron en la creación inicial. 3.5. Implementación Una vez que un modelo ha sido construido, debe ser utilizado y desplegado para ser de utilidad. Los modelos de minería de datos se pueden implementar de varias maneras, ya sea para apoyar
  5. 5. 5 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 a un tomador de decisiones humano o para apoyar los sistemas automatizados de toma de decisiones. Para los usuarios humanos, los resultados de minería de datos pueden presentarse utilizando metáforas visuales o como simples campos de datos. Muchas técnicas de minería de datos identifican las posibles reglas de negocio que se pueden implementar utilizando un sistema de gestión de reglas empresariales. Tales reglas ejecutables de negocios se pueden ajustar en un modelo de decisión junto con reglas de expertos según sea necesario. Algunas técnicas de minería de datos, especialmente las descriptas como técnicas analíticas predictivas, dan como resultado fórmulas matemáticas. Pueden ser también implementadas como reglas de ejecución de negocios, o pueden ser utilizadas para generar SQL o código para la implementación. Una gama cada vez más amplia de opciones de despliegue en la base de datos permite que tales modelos se integren en la infraestructura de datos de una organización. 4. Consideraciones de uso 4.1. Puntos fuertes • Revelar patrones ocultos y crear información útil durante el análisis, ayudando a determinar qué datos pueden ser útiles para capturar o cuántas personas podrían verse afectadas por sugerencias específicas. • Puede integrarse en un diseño de sistema para aumentar la precisión de los datos. • Puede usarse para eliminar o reducir el sesgo humano, usando los datos para determinar los hechos. 4.2. Limitaciones • La aplicación de algunas técnicas, sin una comprensión de cómo funcionan, puede dar lugar a correlaciones erróneas y una conclusión incorrecta. • El acceso a Big Data y a conjuntos de herramientas y software sofisticados de minería de datos, puede conducir a un uso indebido accidental. • Muchas técnicas y herramientas requieren conocimientos especializados para trabajar. • Algunas técnicas utilizan matemáticas avanzadas en el fondo y algunas de las partes interesadas pueden no tener una visión directa de los resultados. Una falta de transparencia percibida puede provocar resistencia de algunas partes interesadas.
  6. 6. 6 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 • Los resultados de la extracción de datos pueden ser difíciles de implementar si la toma de decisiones a la que pretenden influir es poco comprendida. Modelado de datos 1. Finalidad Un modelo de datos describe las entidades, clases u objetos de datos relevantes para un dominio, los atributos que se utilizan para describirlos y las relaciones entre ellos para proporcionar un conjunto común de semántica para el análisis y la implementación. 2. Descripción Un modelo de datos usualmente toma la forma de un diagrama que es apoyado por descripciones textuales. Representa visualmente los elementos que son importantes para el negocio (por ejemplo, personas, lugares, cosas y transacciones comerciales), los atributos asociados a esos elementos y las relaciones significativas entre ellos. Los modelos de datos se usan con frecuencia en la elaboración y análisis de requisitos y diseño, así como para apoyar la implementación y la mejora continua. Hay varios modelos de datos: • Modelo de datos conceptual: es independiente de cualquier solución o tecnología, y se puede utilizar para representar cómo la empresa recibe su información. Se puede utilizar para ayudar a establecer un vocabulario consistente que describe la información del negocio y las relaciones dentro de esa información. • Modelo de datos lógicos: es una abstracción del modelo conceptual de datos que incorpora reglas de normalización para administrar formalmente la integridad de los datos y las relaciones. Se asocia con el diseño de una solución. • Modelo de datos físicos: es utilizado por expertos en la materia de implementación para describir cómo se organiza físicamente una base de datos. Se trata de ocupaciones como rendimiento, concurrencia y seguridad. Los modelos de datos conceptuales, lógicos y físicos, se desarrollan para diferentes propósitos y pueden ser significativamente diferentes, incluso cuando se representa el mismo dominio.
  7. 7. 7 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 En el nivel conceptual, es probable que las diferentes notaciones de modelado de datos produzcan resultados ampliamente similares y puedan considerarse como una sola técnica (tal como se presenta aquí). Los modelos de datos lógicos y físicos, incluyen elementos específicos de las soluciones que soportan y generalmente son desarrollados por partes interesadas con experiencia en la implementación de soluciones técnicas particulares. Por ejemplo, se utilizarían diagramas de entidad y relación físicos y físicos (ERD) para implementar una base de datos relacional, mientras que un diagrama de clase física o lógica sería utilizado para soportar el desarrollo de software orientado a objetos. Los diagramas de objetos se pueden utilizar para ilustrar instancias particulares de entidades de un modelo de datos. Pueden incluir valores reales de muestra para los atributos, haciendo que los diagramas de objetos sean más concretos y más fáciles de entender. 3. Elementos 3.1. Entidad o Clase En un modelo de datos la organización los mantiene sobre entidades (o clases u objetos de datos). Una entidad puede representar algo físico, como un almacén, algo de organización, como por ejemplo una superficie de venta, algo abstracto, como una línea de productos, o un evento, como una cita. Una entidad contiene atributos y tiene relaciones con otras entidades en el modelo. En un diagrama de clases, las entidades se denominan clases. Como una entidad en un modelo de datos, una clase contiene atributos y tiene relaciones con otras clases. Una clase también contiene operaciones o funciones que describen lo que se puede hacer con la clase, como generar una factura o abrir una cuenta bancaria. Cada instancia de una entidad o clase tendrá un identificador único que lo distingue de otras instancias. 3.2. Atributo Un atributo define una determinada pieza de información asociada con una entidad, incluyendo cuánta información puede capturarse en ella, sus valores permitidos y el tipo de información que representa. Los atributos se pueden describir en un diccionario de datos. Los valores permitidos se pueden especificar a través de reglas empresariales. Los atributos pueden incluir valores tales como:
  8. 8. 8 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 • Nombre: un nombre único para el atributo. Otros nombres utilizados por los interesados pueden ser capturados como alias. • Valores / Significados: una lista de valores aceptables para el atributo. Esto puede expresarse como una lista enumerada o como una descripción de los formatos permitidos para los datos (incluyendo información tal como el número de caracteres). Si los valores están abreviados esto incluirá una explicación del significado. • Descripción: definición del atributo en el contexto de la solución. 3.3. Relación o Asociación Las relaciones entre entidades proporcionan una estructura para el modelo de datos, indicando específicamente qué entidades se relacionan con qué otros y cómo. Las especificaciones para una relación indican en general el número de ocurrencias mínimas y máximas permitidas en cada lado de esa relación (por ejemplo, cada cliente está relacionado exactamente con un área de ventas, mientras que un área de ventas puede estar relacionada con cero, uno o muchos clientes). El término “cardinalidad” se usa para referirse al número mínimo y máximo de ocurrencias a las que una entidad puede estar relacionada. Los valores típicos de cardinalidad son cero, uno y muchos. La relación entre dos entidades se puede leer en cualquier dirección, usando este formato: Cada ocurrencia (de esta entidad) está relacionada con (mínimo, máximo) (de esta otra entidad). En un modelo de clase, el término asociación se usa en lugar de relación y la multiplicidad se utiliza en lugar de cardinalidad. Figura 10.15.1: Diagrama Entidad-Relación (Notación de Pie de Cuervo)
  9. 9. 9 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 3.4. Diagramas Tanto los modelos de datos como los modelos de clase pueden tener uno o más diagramas que muestren entidades, atributos y relaciones. El diagrama en un modelo de datos se denomina diagrama entidad-relación (ERD). En un modelo de clase, el diagrama se denomina diagrama de clases. Figura 10.15.2: Diagrama de clases (UML®) 3.5. Metadatos Un modelo de datos contiene opcionalmente metadatos que describen lo que las entidades representan, cuándo y por qué fueron creados o modificados, cómo deben ser utilizados, con qué frecuencia se utilizan, cuándo y por quién. Podrían existir restricciones en su creación o uso, así como restricciones de seguridad, privacidad y auditoría en entidades específicas o grupos enteros de entidades. 4. Consideraciones de uso 4.1. Puntos fuertes • Puede utilizarse para definir y comunicar un vocabulario coherente utilizado por expertos en materia de dominio y expertos en la materia de implementación. • La revisión de un modelo lógico de datos ayuda a garantizar que el diseño lógico de los datos persistentes representa correctamente la necesidad del negocio. • Proporciona un enfoque consistente para analizar y documentar los datos y sus relaciones. • Ofrece la flexibilidad de diferentes niveles de detalle, lo que proporciona suficiente información para el público respectivo.
  10. 10. 10 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 • El modelado formal de la información en poder de la empresa puede exponer nuevos requisitos a medida que se identifican inconsistencias. 4.2. Limitaciones • Siguiendo las normas de modelado de datos con demasiada rigurosidad, puede conducir a modelos que no son familiares a las personas sin experiencia en TI. • Puede extenderse a través de múltiples áreas funcionales de la organización y, por lo tanto, más allá de la base de conocimientos de negocios de las partes interesadas individuales. Sergio Salimbeni sds@activus.com.ar

×