Este documento presenta un caso práctico de aprendizaje automático utilizando el conjunto de datos Iris. Se divide la base de datos en conjuntos de entrenamiento y prueba. Se entrena un modelo kNN y se evalúa su precisión en predecir las especies de nuevas flores basadas en sus características. El modelo logra una precisión del 97% en la clasificación, lo que demuestra su efectividad en este problema.
Inteligencia artificial, conceptos básicos, explicación de algoritmos, cálculos matemáticos para ID3 de Shannin y ejemplos de programación en el lenguaje R.
Inteligencia artificial, conceptos básicos, explicación de algoritmos, cálculos matemáticos para ID3 de Shannin y ejemplos de programación en el lenguaje R.
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup
Los algoritmos de Machine Learning juegan hoy en día un papel fundamental en el funcionamiento de todo tipo de aplicaciones, desde reconocimiento de imágenes o voz en un teléfono celular hasta los autos autónomos. En esta charla intentaremos explicar qué es Machine Learning, cuáles son los algoritmos de ML mas importantes y cuál es el proceso típico para la construcción y puesta en producción de dichos algoritmos.
Conocer las diferencias entre los distintos algoritmos de aprendizaje automático.Utilizar una herramienta para minería de datos y comparar varios algoritmos de aprendizaje automático. Para ello vamos a trabajar con la herramienta RapidMiner.
Objetivo: Diseñar los datos de manera organizada a través de los tipos de datos estructurados y punteros para la representación de la información en los sistemas del mundo real.
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup
Los algoritmos de Machine Learning juegan hoy en día un papel fundamental en el funcionamiento de todo tipo de aplicaciones, desde reconocimiento de imágenes o voz en un teléfono celular hasta los autos autónomos. En esta charla intentaremos explicar qué es Machine Learning, cuáles son los algoritmos de ML mas importantes y cuál es el proceso típico para la construcción y puesta en producción de dichos algoritmos.
Conocer las diferencias entre los distintos algoritmos de aprendizaje automático.Utilizar una herramienta para minería de datos y comparar varios algoritmos de aprendizaje automático. Para ello vamos a trabajar con la herramienta RapidMiner.
Objetivo: Diseñar los datos de manera organizada a través de los tipos de datos estructurados y punteros para la representación de la información en los sistemas del mundo real.
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
3. Aprendizaje automático
3
• En este apartado, vamos a ver un primer ejemplo sencillo de aprendizaje automático o machine learning.
Introduciremos los conceptos básicos y crearemos un primer modelo
• Un botánico quiere identificar la especie de flor de iris entre una muestra de flores que ha recogido. Dispone
de medidas que ha tomado de cada flor a analizar: la longitud y ancho de los pétalos y los sépalos
• Además, tenemos también una base de datos de varias flores de iris, con sus medidas, y la especie concreta a
la que pertenecen: setosa, versicolor y virginica
• El objetivo es construir un primer modelo de machine learning que pueda aprender de la muestra de flores ya
identificadas de la base de datos, y que luego nos permita predecir la especie correspondiente de una nueva
flor de iris encontrada
Pétalo
Sépalo
4. Base de Datos Iris
4
• Tenemos una base de datos de varias flores de iris, con sus medidas, y la especie concreta a la que pertenecen: setosa,
versicolor y virginica. En los siguientes enlaces podéis encontrar información añadida sobre este dataset
https://en.wikipedia.org/wiki/Iris_flower_data_set
https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html#
5. Bases de Datos
5
• Existen bases de datos abiertas para realizar prácticas de algoritmos de aprendizaje automático en muchos ámbitos de aplicación
http://archive.ics.uci.edu/ml/datasets.php
6. Base de Datos Iris: muestra con características
6
• La función load_iris()
devuelve un objeto bunch
con los datos: claves y
atributos
• Un objeto o estructura de
datos bunch es similar a un
diccionario (claves y
atributos para los
elementos). Añade la
posibilidad de acceder a los
valores con las claves
• Utilizaremos la base de datos Iris dataset, que se encuentra en la librería scikit-learn, en el módulo de bases de datos
• Podemos ver las claves de la base de datos, los nombres de las especies a clasificar, las características de cada muestra de flor, y
ejemplos númericos de valores de estas características para cinco flores de la base de datos
• La base de datos, en el array data contiene las medidas de 150 flores iris. Cada observación o flor individual se llama una muestra
en machine learning, y las propiedades son las características
7. Base de Datos Iris: etiquetas
7
• Las etiquetas (o target) con el nombre de la especie de cada flor son un array de la base de datos
• Las especies de flores están codificadas con los números 0 (setosa), 1 (versicolor) y 2 (virginica)
8. Base de Datos Iris: datos de training y testing
8
• Nuestro objetivo es ahora construir un modelo de aprendizaje automático o machine learning que nos permita predecir o
clasificar una flor nueva recogida, a partir de las medidas observadas (sus características)
• En todos los problemas de aprendizaje automático,
dividiremos primero la base de datos conocidos en dos: los
datos de entrenamiento o training, y los datos de verificación
o testing
• Construiremos (entrenaremos) el modelo a partir de la parte
de datos de training
• Utilizaremos el restos de datos, los datos de testing, para
comprobar que nuestro modelo realmente funciona, tiene
capacidad de predecir en nuevos casos
• Queremos que los modelos no consistan sólo en memorizar
los casos conocidos y repetirlos, sinó que sean capaces de
generalizar con nuevos datos
• Por esta razón, dividimos los datos en estos dos grupos en el
proceso de construir el modelo
Pétalo
Sépalo
Muestras
(observaciones,
instancias)
Características (atributos, medidas,
dimensiones)
Etiquetas
9. Base de Datos Iris: datos de training y testing
9
• Podemos separar los datos en dos partes de training y testing de manera aleatoria utilizando la función de scikit-learn
• Es habitual, por ejemplo, dedicar un 75% de los datos al entrenamiento o aprendizaje del modelo, y el 25% restante al
testing o verificación
• Los datos con las medidas los denotaremos con la letra X (en mayúsculas), mientras que las etiquetas las denotamos
con y (minúscula). Es la formulación matemática habitual de y=f(x)
• Utilizamos X en mayúscula por ser una matriz (array de varias dimensiones), como también es habitual en matemáticas
• Observar que la variable random_state=0 asigna el una semilla constante 0 a la partición aleatoria. Es decir, garantiza
en este caso la misma partición si ejecutamos el programa varias veces
10. Base de Datos Iris: visualización
10
• En los proyectos de aprendizaje automático, es buena práctica analizar los datos antes de utilizar los modelos,
con el objetivo de tener mejor comprensión de éstos
• Vamos a visualizar los datos con funciones gráficas
• Utilizaremos gráficos de dispersión, con dos características representadas en cada punto. Y una matriz con cada
gráfico resultante de combinar las distintas características a pares. Y un color distinto para cada una de las tres
especies
• Rellenamos la diagonal con información añadida correspondiente al histograma de frecuencias en la muestra
de datos de cada característica
11. Base de Datos Iris: visualización
11
• Observando los datos, parece que las características
(las medidas almacenadas) pueden servir para
determinar o clasificar las flores en cada especie
12. Modelo de aprendizaje automático: algoritmo kNN
12
• A continuación, vamos a construir un modelo de machine learning para este problema. Existen muchos
algoritmos de clasificación en la librería scikit-learn y que veremos a lo largo del curso
• Para este caso práctico, podemos escoger el algoritmo kNN o k-Nearest Neighbor
• La idea del modelo kNN es muy sencilla: para clasificar una nueva muestra u observación (una flor), el
algoritmo encuentra el elemento más cercano en la base de datos. Y asigna la etiqueta (la clasificación) de
éste al nuevo elemento
• Más adelante en el curso, revisitaremos este modelo con más detalle. kNN utiliza k puntos vecinos en el
entrenamiento (por ejemplo, tres o cinco puntos vecinos). A partir de estos, hacemos la predicción para el
nuevo punto considerando la clase o etiqueta mayoritaria entre este grupo de puntos vecinos
Ejemplos en Finanzas: el algoritmo kNN también se ha utilizado en una variedad de casos de uso económico
y financiero. A continuación podéis encontrar dos casos prácticos relacionados con el riesgo crediticio o de
solvencia de empresas, para profundizar:
https://iopscience.iop.org/article/10.1088/1742-6596/1025/1/012114/pdf
https://www.ijera.com/papers/Vol3_issue5/DI35605610.pdf
13. Modelo de aprendizaje automático: entrenamiento algoritmo
13
• Utilizamos pues el algoritmo kNN en scikit-learn
• Está implementado como una clase de objeto KNeighborsClassifier
• Cuando utilizamos estos objetos, el algoritmos encapsula en sus atributos y métodos (funciones) toda la
información que necesitamos. Por ejemplo, el método fit del objeto kNN nos permite construir el modelo
a partir de los datos de entrenamiento (X_train, y_train)
• Ahora ya tenemos el modelo de aprendizaje automático entrenado. Está listo para ser utilizado para
realizar predicciones como siguiente paso
14. Modelo de aprendizaje automático: predicción kNN
14
• Vamos ahora a realizar predicciones para nuevos datos observados (nuevas flores) de los cuales no
tenemos la etiqueta (la especie de la flor)
• Supongamos que hemos encontrado una nueva flor de iris, con un sépalo con medidas: longitud 5cm, y
ancho 2,9cm, y pétalo: longitud 1cm y ancho 0,2cm
• ¿A qué especie pertenece la flor?
• El modelo predice que la nueva flor es de la clase 0, que corresponde a la especie setosa
15. Modelo de aprendizaje automático: evaluación
15
• El último paso en nuestro modelo de aprendizaje automático es verificar o evaluar el buen funcionamiento
del modelo construido. Nos preguntamos: ¿Ha clasificado correctamente la nueva flor?
• En general, para evaluar un modelo entrenado, utilizaremos los datos de test, comparando la predicción
con estos del modelo con su etiqueta (conocida en estos datos de test)
• Podemos calcular el porcentaje de acierto o precisión
• Observamos que en este ejemplo la precisión del modelo de aprendizaje es del 97%!!
16. Resumen de las fases del proyecto de ML
16
• Recapitulando, podemos resumir gráficamente un proyecto de aprendizaje automático en estas fases:
17. Tema 2: Ejercicios
• Ejercicio: consideramos el código siguiente. Comentar los pasos del modelo de aprendizaje automático
utilizando los conceptos estudiados en el Tema 2
• Podéis también repasar el funcionamiento del modelo kNN en el siguiente enlace:
https://youtu.be/FpAu0q2eSHo
18. Sede Universitat Carlemany
Av. Verge de Canòlich, 47
AD600 Sant Julià de Lòria
Principat d’Andorra
Linkedin Facebook
+376 878 300