CEIAAIT - Fundamentos y Aplicaciones de Deep Learning.pdf
Unidad 4 clas int datos.pptx
1. UNIDAD 4:
ELEMENTOS PARA
LA CLASIFICACIÓN Y
ANÁLISIS DE DATOS
• Por: Cristina Fernanda Lemus
Cuellar
• 212068891
• Lic. En ingeniería en
informática
• Prof. Juan enrique macias rico
• Clasificación inteligente de
datos
UNIVERSIDAD DE GUADALAJARA
CENTRO UNIVERSITATIO DE LA
CIENEGA
2. DATA BASE TECHNOLOGY
(TECNOLOGIA DE BASE DE DATOS)
Son sistemas de gestión (DBMS) que permiten a los usuarios acceder y
manipular los datos. Hay diversos tipos de software que son eficaces
para almacenar y manejar diferentes tipos de datos y pueden
optimizarse para una gama de cartas de tranajo.
Las bases de datos constituyen los pilares de cualquier estrategia de
análisis.
Las DBMS permiten almacenar y recuperar información en una base de
datos ya que no solo consta de una interfaz de usuario para permitir la
interacción con la base de datos, si no también de optimizaciones que
dan prioridad a ciertas cargas de trabajo y ayudan a que el acceso sea
más rápido.
3. TIPOS DE BASES DE DATOS
BASES DE DATOS
RELACIONALES
• OLTP
Categoría de procesamiento de datos
que se centra en tareas orientadas a
transacciones, suele incluir inserciones,
actualización y/o borrado de pequeños
volúmenes de datos en una BD.
• OLAP
Están diseñadas específicamente para
análisis de datos. Revisan una gran
cantidad de información histórica con
fines analíticos y se utiliza en línea. Sus
consultas utilizan un modelo
multidimensional, aun que otras usan
modelos relaciónales.
BASES DE DATOS NO
RELACIONALES
• BD Clave-valor
Utilizan una tabla para almacenar y recuperar
datos usando una clave identificadora única.
• BD de Datos columnares
Los datos se almacenan en columnas de
información relacionada, una de ellas es
Cassandra.
• BD de Datos documentales
Guardan datos complejos denominados
documentos, que incluyen metadatos o info.
sobre los mismos datos.
• BD Orientada a grafos
Se basan en estructuras de grafos para definir
Se basan en tablas de datos
estandarizadas que expresan relaciones
entre los datos, suelen utilizar lenguaje
de consulta estructurado (SQL).
Se liberan de la estructura en tabla, usan
metadatos para organizarse, son eficaces para
gestionar datos no estructurados y datos
complejos como imágenes y vídeo
4. • BASES DE DATOS ORIENTADA A OBJETOS
En está la orientación se representa como objetos y clases de
objetos. Una forma hibrida de BD orientadas a objetos y
relacionales se denomina una base de datos Objeto-Relación.
5. NEURAL COMPUTING
(REDES NEURONALES)
• Es un método de inteligencia artificial que enseña a las
computadoras a procesar datos de una manera que está inspirada en
la forma en que lo hace el cerebro humano. Se trata de un proceso
machine learning llamado aprendizaje profundo , que utiliza los
nodos o las neuronas interconectados en una estructura de capas
parecidas al cerebro humano.
• Crea un sistemas adaptable que las computadoras utilizan para
aprender de sus errores y mejorar continuamente de esta manera
intentan resolver problemas complicados, como la realización de
resúmenes de documentos o el reconocimiento de rostros, con
mayor precisión.
6. USOS
Están presentes en varios casos de uso en muchos sectores como:
• Diagnóstico médico mediante la clasificación de imágenes médicas.
• Marketing orientado mediante el filtrado de redes sociales y el
análisis de datos de comportamiento.
• Predicciones financieras mediante el procesamiento de datos
históricos de instrumentos financieros.
• Previsión de la carga eléctrica y la demanda de energía.
• Proceso y control de calidad.
• Identificación de compuestos químicos
7. PRINCIPALES APLICACIONES
• VISIÓN ARTIFICIAL: Es la capacidad de las computadoras para
extraer información y conocimientos de imágenes y videos.
• Ejemplo:
*Reconocimiento visual en los vehículos autónomos para reconocer
señales de trafico y otros usuarios del camino.
*Modelación de contenido para eliminar automáticamente
contenidos o archivos inseguros.
*Reconocimiento facial para identificar rostros y reconocer
atributos.
*Etiquetado de imágenes para identificar logotipos de marcas ,
ropa, equipos de seguridad y otros detales de la imagen.
8. • MOTORES DE RECOMENDACIONES: Hacen un seguimiento de la
actividad del usuario para elaborar recomendaciones personalizadas.
Pueden analizar el comportamiento de los usuarios y descubrir
productos o servicios nuevos que interesen a un usuario en especifico.
ARQUITECTURA DE UNA RED NEURONAL SIMPLE
Una red neuronal básica tiene neuronas artificiales interconectadas en tres capas:
• Capa de entrada
La información del mundo exterior entra en la red neuronal artificial desde la capa de entrada. Los
nodos de entrada procesan los datos, los analizan o los clasifican y los pasan a la siguiente capa.
• Capa oculta
Las capas ocultas toman su entrada de la capa de entrada o de otras capas ocultas. Las redes
neuronales artificiales pueden tener una gran cantidad de capas ocultas. Cada capa oculta analiza la
salida de la capa anterior, la procesa aún más y la pasa a la siguiente capa.
• Capa de salida
La capa de salida proporciona el resultado final de todo el procesamiento de datos que realiza la red
neuronal artificial. Puede tener uno o varios nodos. Por ejemplo, si tenemos un problema de
clasificación binaria (sí/no), la capa de salida tendrá un nodo de salida que dará como resultado 1 o 0.
Sin embargo, si tenemos un problema de clasificación multiclase, la capa de salida puede estar
formada por más de un nodo de salida.
9. • RECONOCIMIENTO DE VOZ: Analizan el habla humana a pesar de los
diferentes patrones de habla, tono, idioma y el acento, los asistentes
vituales como Amazon, Alexa y el software de transcripción automática
utilizan el reconocimiento de voz para realizar tareas como las siguientes:
*Asistir a los agentes de los centros de llamadas y clasificar las llamadas de forma
automática.
*Convertir conversaciones clínicas en documentación en tiempo real.
*Subtitular con precisión videos y grabaciones de reuniones.
• PROCESAMIENTO DE LENGUAJE NATURAL (PNL): Es la capacidad de procesar
el texto natural por humanos. Obtiene información y significado a partir de
datos y los documentos de texto. Ejemplo:
*Chatbots y agentes virtuales automatizados
*Organización y clasificación automáticas de datos escritos
*Analisis de inteligencia empresarial de emails y formularios
*Indexación de fraces clave que indican sentimientos como comentarios positivos y negativos
de las redes sociales .
10.
11. TIPOS DE REDES
• REDES PREALIMENTADAS
Las redes neuronales prealimentadas procesan los datos en una dirección, desde el
nodo de entrada hasta el nodo de salida. Todos los nodos de una capa están
conectados a todos los nodos de la capa siguiente. Una red prealimentada utiliza
un proceso de retroalimentación para mejorar las predicciones a lo largo del
tiempo.
Algoritmo de retropropagación: Las redes neuronales artificiales aprenden de forma
continua mediante el uso de bucles de retroalimentación correctivos para mejorar
su análisis predictivo. En pocas palabras, puede pensar en los datos que fluyen
desde el nodo de entrada hasta el nodo de salida a través de muchos caminos
diferentes en la red neuronal.
• REDES CONVOLUCIONALES
Las capas ocultas de las redes neuronales convolucionales realizan funciones matemáticas
específicas, como la síntesis o el filtrado, denominadas convoluciones. Son muy útiles para la
clasificación de imágenes porque pueden extraer características relevantes de las imágenes que son
12. MACHINE LEARNING
(MAQUINAS DE APRENDIZAJE)
Es una rama de la inteligencia artificial que permite que las máquinas aprendan sin ser
expresamente programadas para ello. Una habilidad indispensable para hacer sistemas
capaces de identificar patrones entre los datos para hacer predicciones. Esta
tecnología está presente en un sinfín de aplicaciones como las recomendaciones de
Netflix o Spotify, las respuestas inteligentes de Gmail o el habla de Siri y Alexa.
El ‘machine learning’ es un maestro del reconocimiento de patrones, y es capaz de convertir
una muestra de datos en un programa informático capaz de extraer inferencias de nuevos
conjuntos de datos para los que no ha sido entrenado previamente.
La estadística es sin duda la base fundamental del aprendizaje automático, que básicamente
consiste en una serie de algoritmos capaces de analizar grandes cantidades de datos para
deducir cuál es el resultado más óptimo para un determinado problema.
13.
14.
15. PATTERN RECOGNITION
(PATRONES DE RECONOCIMIENTO)
• Son los medios por los cuales se puede interpretar el mundo.
• Es la ciencia que se ocupa de los procesos sobre ingeniería,
computación y matemáticas relacionados con objetos físicos y/o
abstractos, con el propósito de extraer información que permita
establecer propiedades de o entre conjuntos de dichos objetos.
16. ENFOQUE DEL RECONOCIMIENTO DE
PATRONES
• Reconocimiento Estadístico de Patrones.
Este enfoque se basa en la teoría de probabilidad y estadística y supone que se tiene un conjunto de medidas
numéricas con distribuciones de probabilidad conocidas y a partir de ellas se hace el reconocimiento.
• Reconocimiento Sintáctico de Patrones
Este enfoque se basa en encontrar las relaciones estructurales que guardan los objetos de estudio, utilizando la
teoría de lenguajes formales. El objetivo es construir una gramática que describa la estructura del universo de
objetos.
• Redes Neuronales
Este enfoque supone que tiene una estructura de neuronas interconectadas que se estimulan unas a otras, las
cuales pueden ser “entrenadas” para dar una cierta respuesta cuando se le presentan determinados valores.
• Reconocimiento Lógico Combinatorio de Patrones
Este enfoque se basa en la idea de que la modelación del problema debe ser lo más cercana posible a la
realidad del mismo, sin hacer suposiciones que no estén fundamentadas. Uno de los aspectos esenciales del
enfoque es que las características utilizadas para describir a los objetos de estudio deben ser tratadas
cuidadosamente.
17.
18. ETAPAS DEL PROCESO DE
RECONOCIMIENTO DE PATRONES
• Sistema Físico (Realidad).
• Modelación por el especialista no
Matemático.
• Sistemas de medición.
• Datos obtenidos.
• Validación de los datos.
• Definición del modelo de
Reconocimiento que más conviene
seguir.
• Modelación matemática.
• Selección de variables.
• Diseño del clasificador.
• Pruebas y validación del clasificador.
• Aplicación del modelo.
• Interpretación de resultados.
• Retroalimentación.
19. APLICACIONES
• Identificación de rostros (Redes Neuronales)(ALVOT ).
• Predicción de magnitudes máximas de terremotos (ALVOT)
• Búsqueda de petróleo (CR+)
• Pronóstico postoperatorio en niños con paladar hendido (ALVOT)
• Determinación de factores que inciden en la lactancia materna (Teoría de
Testores)
• Clasificación de atmósfera estelares (K vecinos más cercanos)
20. ARTIFICIAL INTELLIGENCE
(INTELIGENCIA ARTIFICIAL)
La Inteligencia Artificial (IA) es la combinación de algoritmos planteados con el propósito de
crear máquinas que presenten las mismas capacidades que el ser humano. Una tecnología
que todavía nos resulta lejana y misteriosa, pero que desde hace unos años está presente en
nuestro día a día a todas horas.
21. TIPOS DE INTELIGENCIA ARTIFICIAL
• Sistemas que piensan como humanos
Automatizan actividades como la toma de decisiones, la resolución de problemas
y el aprendizaje. Un ejemplo son las redes neuronales artificiales.
• Sistemas que actúan como humanos
Se trata de computadoras que realizan tareas de forma similar a como lo hacen
las personas. Es el caso de los robots
• Sistemas que piensan relacionalmente
Intentan emular el pensamiento lógico racional de los humanos, es decir, se
investiga cómo lograr que las máquinas puedan percibir, razonar y actuar en
consecuencia. Los sistemas expertos se engloban en este grupo.
• Sistemas que actúan racionalmente
idealmente, son aquellos que tratan de imitar de manera racional el
comportamiento humano, como los agentes inteligentes
22. PRINCIPALES APLICACIONES
• Asistentes personales virtuales
Conviviremos con chatbots interactivos que podrán
sugerirnos productos, restaurantes, hoteles,
servicios, espectáculos, según nuestro historial de
búsquedas
• Finanzaz
Las tecnologías inteligentes pueden ayudar a los
bancos a detectar el fraude, predecir patrones del
mercado y aconsejar operaciones a sus clientes
• Educacion
Permite saber si un estudiante está a punto de
cancelar su registro, sugerir nuevos cursos o crear
ofertas personalizadas para optimizar el
aprendizaje.
• Comercial
Posibilita hacer pronósticos de ventas y elegir el
producto adecuado para recomendárselo al
cliente. Empresas como Amazon utilizan robots
• Climáticas
Flotas de drones capaces de plantar mil millones de
árboles al año para combatir la
deforestación, vehículos submarinos no tripulados
para detectar fugas en oleoductos, edificios
inteligentes diseñados para reducir el consumo
energético, etc.
• Agrícolas
Plataformas específicas que, por medio de análisis
predictivos, mejoran los rendimientos agrícolas y
advierten de impactos ambientales adversos.
• Logística y transporte
Será útil a la hora de evitar colisiones o atascos y
también para optimizar el tráfico
• Sanidad
Ya existen chatbots que nos preguntan por
nuestros síntomas para realizar un diagnóstico. La
recolección de datos genera patrones que ayudan
23.
24. COMPUTATIONAL STATISTICS
(ESTADÍSTICAS COMPUTACIONALES)
Es en una disciplina, que está en la frontera de dos
disciplinas; la Ciencia de la Computación y la Estadística.
Desde hace un par de décadas la Estadística y la Ciencia de
Computación proporcionan herramientas complementarias,
para explorar otras Ciencias; entre las que se destacan las
Ciencias de la Tierra, las Ciencias de la Ingeniería, la
Economía, y la Medicina entre otras. Es destacable, y no
siempre obvio a primera vista, la universalidad de estas dos
disciplinas (Ciencias de la Información), dado que ambas
disciplinas tienen raíces comunes y la discusión de sus
fronteras, es tema abierto.
25.
26.
27. VIZUALIZATION
(VISUALUZACION)
• La visualización de datos es el proceso de utilizar
elementos visuales como gráficos o mapas para
representar datos. De esta manera, se trasladan datos
complejos, de alto volumen o numéricos a una
representación visual más fácil de procesar. Las
herramientas de visualización de datos mejoran y
automatizan el proceso de comunicación visual para
lograr precisión y detalle. Puede utilizar las
representaciones visuales para extraer información
práctica a partir de datos sin procesar.
28. COMPONENTES DE LA VISUALIZACIÓN DE
DATOS
La historia representa el propósito de las visualizaciones de datos. El científico de datos se
comunica con varias partes interesadas de acuerdo a lo que quieren conseguir mediante el
análisis de datos. Por ejemplo, pueden querer medir los indicadores clave de rendimiento o
predecir el volumen de ventas. Los científicos de datos y los usuarios empresariales
colaboran para identificar el tipo de historia que quieren que los datos les cuenten.
• Datos
A continuación, los analistas de datos identifican los conjuntos de datos adecuados que les
permitirán narrar la historia de los datos. Modifican los formatos de datos existentes,
limpian los datos, eliminan los valores atípicos y llevan a cabo otros análisis. Tras la
preparación de los datos, planifican los diferentes métodos de exploración visual.
• Visuales
A continuación, los científicos de datos seleccionan los métodos de visualización más
adecuados para compartir los nuevos conocimientos. Crean cuadros y gráficos que destacan
los puntos de datos clave y simplifican los conjuntos de datos complejos. Piensan en formas
eficientes de presentar sistemáticamente los datos para la inteligencia empresarial.
29. PASOS DEL PROCESO PARA LA
VISUALIZACIÓN
• Defina la meta
Para definir una meta de visualización de datos, es preciso identificar qué preguntas
puede responder potencialmente el conjunto de datos existente. Una meta clara ayuda a
determinar los siguientes aspectos:
El tipo de datos que se utilizan
El tipo de análisis que se realiza
Tipo de elementos visuales que se utilizan para comunicar los hallazgos de forma
eficaz de datos existentes que se pueden utilizar para realizar análisis
• Recopile los datos
Para recopilar los datos, es necesario identificar los orígenes de datos internos y
externos. En Internet hay una oferta masiva de conjuntos de datos que se pueden
adquirir y utilizar. Probablemente la empresa también disponga de archivos.
• Limpie los datos
Para limpiar los datos, es necesario eliminar los datos redundantes, realizar operaciones
matemáticas para su posterior análisis o filtrar y convertir los datos de modo que se
ajusten a los criterios de la pregunta.
30. • Seleccione los elementos visuales de los datos
Puede elegir entre varios tipos de gráficos para lograr un
descubrimiento visual eficaz. Las relaciones entre los puntos de datos
y la información que desea comunicar determinarán qué
representaciones gráficas son las mejores.
• Visualización estática
Una visualización estática únicamente aporta una sola visión de una
historia de datos específica. Una infografía es un ejemplo de
visualización estática.
• Visualización interactiva
• La visualización interactiva permite a los usuarios interactuar con los
gráficos y diagramas. Los espectadores pueden cambiar las variables
de los parámetros de visualización para encontrar nuevas
perspectivas o acceder a información profunda. El software de
31. • Cree los elementos visuales de los datos
Se pueden utilizar herramientas de visualización de datos para crear los elementos
visuales que se necesitan. La mayoría de las herramientas importan el conjunto de
datos final y generan automáticamente los informes necesarios. A continuación, se
exponen algunos principios de diseño para conseguir una visualización efectiva de los
datos:
Logre que el público centre su atención en los detalles importantes por medio de
tamaños, colores, tipos de letra y gráficos
Contextualice los datos mediante señales visuales
Elija las combinaciones de colores adecuadas
Utilice títulos explicativos para brindar información clave al público y lograr que se
concentre en las preguntas correctas
• Agregue etiquetas y números claros
32. TÉCNICAS DE VISUALIZACIÓN DE DATOS
• Visualización temporal de datos
Se utilizan para representar objetos lineales unidimensionales, como un gráfico de
líneas, una tabla de líneas o una línea de tiempo. Visualización jerárquica de datos. La
visualización jerárquica de datos se refiere a un grupo o conjunto de elementos que
tienen vínculos comunes con un elemento principal. Puede utilizar estos árboles de
datos para mostrar clústeres de información.
• Visualización de datos de la red
Es útil para representar la compleja relación entre diferentes tipos de datos
correlacionados. Por ejemplo: Gráficos de dispersión que representan los datos como
puntos en un gráfico, gráficos de burbujas que añaden un tercer factor de datos al
gráfico de dispersión, nubes de palabras que representan la frecuencia de las palabras
al utilizar palabras de diferentes tamaños.
• Visualización de datos multidimensionales
• Representa dos o más variables de datos como una sola imagen 2D o 3D. Los
gráficos de barras, los gráficos circulares y los gráficos de barras apilados son
ejemplos populares de estas visualizaciones.
• Visualización de datos geoespaciales
33. PUNTOS A TOMAR EN CUENTA PARA UN
SOFTWARE
Hay varias herramientas de visualización de datos, gratuitas y de pago, y la selección de la mejor
depende de sus necesidades.
• Soporte de infraestructura
El software de visualización de datos debe integrarse con la infraestructura de TI y las bases de datos
existentes. También debe ser compatible con varios orígenes de datos de terceros para poder
importar directamente datos externos cuando sea necesario.
• Informes interactivos
Los informes interactivos mejoran el análisis de los macrodatos y ayudan a los usuarios no técnicos a
descubrir patrones. Pueden filtrar, ordenar o mover las variables de datos en un gráfico interactivo
mientras trazan los valores de los datos. No tienen que depender de un equipo técnico cada vez que
se sugieran o se requieran cambios.
• Seguridad
Las herramientas de visualización de datos pueden crear una vulnerabilidad adicional en su sistema de
inteligencia empresarial. Deben tener fuertes características de seguridad que limiten el acceso a
usuarios y roles no autorizados.
• Escalabilidad
Recomendamos herramientas de visualización de macrodatos que puedan gestionar conjuntos de
datos masivos con facilidad. También deben tener capacidades de machine learning (ML) e inteligencia
artificial (IA) para automatizar las tareas de visualización de datos a escala.