Introducción al
Machine Learning o
Aprendizaje Automático
Contenidos
• Introducción
• Técnicas
– Clasificación
– Clustering
– Regresión
• Casos de Uso y Herramientas
2
Introducción al Machine Learning
Introducción
• Es un campo de la Inteligencia Artificial
• Su nombre está derivado del concepto que trata
con la construcción y estudio de sistemas que
aprenden de los datos.
• Es un concepto teórico en el que existen varias
técnicas con múltiples implementaciones.
• http://es.wikipedia.org/wiki/Machine_learning
En otras palabras…
“Un programa de ordenador se dice que es
capaz de aprender de la experiencia (E) con
una serie de tareas (T) y una medida del
rendimiento (P) si su desempeño en las
tareas T mejora con E”
Terminología
• Características/Rasgos
– Nº de características o rasgos distintos que se pueden utilizar para
describir cada elemento de una manera cuantitativa
• Muestras/Ejemplos
– Una muestra es un elemento a procesar (por ejemplo clasificar).
Puede ser un documento, una foto, un vídeo, una fila en una base de
datos o cualquier cosa que podamos describir con un número fijo de
rasgos cuantitativos
• Vector de características
– Vector n-dimensional con características numéricas que representan
un objeto
• Extracción de Características
– Preparación del vector de características
– Transforma los datos en un espacio con alta dimensionalidad a un
espacio con menos dimensiones
• Conjunto de Entrenamiento/Evolución
– Conjunto de datos destinado a descubrir relaciones predictivas.
Manzana
Qué quieres decir con…
Vamos a profundizar un poco…
Aprendizaje (Training)
Características (Features):
1. Color: Rojo
2. Tipo: Fruta
3. Forma: Redonda
4. Comestible: Si
etc…
Características:
1. Azul cielo
2. Logotipo
3. Redondo
4. No
etc…
Características:
1. Verde
2. Fruta
3. Redonda
4. Si
etc…
Flujo
a) Entrenamiento: Conjunto de entrenamiento con datos
etiquetados (variable objetivo conocida/etiquetada)
b) Predicción: Conjunto de test con variable objetivo desconocida
Categorías
• Aprendizaje Supervisado
• Aprendizaje No Supervisado
• Aprendizaje Semisupervisado
• Aprendizaje por refuerzo
Aprendizaje Supervisado
• Las clases correctas del conjunto de datos de
entrenamiento son conocidas
Aprendizaje Supervisado
• Secuencias de ADN con etiquetas binarias que indican si cada
secuencia se centra en una zona de inicio de transcripción (TSS) o no.
Aprendizaje No Supervisado
• Las clases correctas del conjunto de datos de
entrenamiento no son conocidas
Aprendizaje Semisupervisado
• Mezcla de aprendizaje Supervisado y No Supervisado
Aprendizaje por Refuerzo
• Permite al programa o agente software aprender su
comportamiento basado en la información que recibe del entorno.
• Este comportamiento se puede aprender de una sola vez, o ir
adaptándose con el paso del tiempo.
Técnicas de Machine Learning
Técnicas
• Clasificación: predecir una clase con las
observaciones
• Clustering: agrupar las observaciones en
grupos significativos
• Regresión (predicción): predecir un valor con
las observaciones
Clasificación
• Clasificar un documento en una categoría predefinida
• Los documentos pueden ser texto, imágenes
Ejemplo: Clasificador Bayesiano Ingenuo.
• Pasos:
– Paso 1: Entrenar el programa (construir un modelo) usando el
conjunto de entrenamiento con una categoría conocida por
ejemplo : deportes, política, economía, sucesos …
• El clasificador calculara la probabilidad de cada palabra, la probabilidad
es lo que hará a un documento pertenecer a una de las categorías
consideradas.
– Paso 2: Probar el modelo construido con el conjunto de datos de
test.
• https://es.wikipedia.org/wiki/Clasificador_bayesiano_ingenuo
Clustering
• Clustering es la tarea de agrupar un conjunto de
objetos de tal manera que los objetos en el mismo
grupo (llamado clúster) son más similares entre sí.
• Por ejemplo con estas palabras clave
– “zapatos de hombre”
– “zapatos de mujer”
– “camisetas de mujer”
– “camisetas de hombre”
– Pueden ser agrupadas en 2 categorías “zapatos” y
“camisetas” o “hombre” y “mujer”
• Los métodos más populares son clustering K-medias y
clustering Jerárquico.
Clustering K-medias
https://es.wikipedia.org/wiki/K-means
• Tiene como objetivo la partición de un conjunto de n observaciones
en k clusters en el que cada observación pertenece al grupo más
cercano a la media.
Clustering Jerárquico
• Método de análisis de grupos el cual busca construir
una jerarquía de grupos.
• Existen 2 estrategias:
– Aglomerativas:
• Enfoque ascendente: cada observación comienza en su propio
grupo, y los pares de grupos son mezclados mientras uno sube en
la jerarquía
• Su complejidad temporal es de O(n^3)
– Divisivas:
• Aproximación descendente: todas las observaciones comienzan en
un grupo, y se realizan particiones a medida que bajamos en la
jerarquía.
• Su complejidad temporal es de O(2^n)
https://es.wikipedia.org/wiki/Agrupamiento_jerárquico
Regresión
• Es una medida de la relación entre
una variable dependiente (por
ejemplo la salida) y los valores de una
serie de variables independientes
(por ejemplo: tiempo y coste)
• El analisis de la regresión es un
proceso estadístico para estimar las
relaciones entre las variables.
• Regresión significa predecir la salida
o resultado usando los datos de
entrenamiento.
• Es popular la regresión logística
(regresión binaria)
• https://es.wikipedia.org/wiki/Regresión_logística
Clasificación vs Regresión
• Clasificar significa agrupar
la resultados de salida en
una clase.
• Usar clasificación para
predecir el tipo de un
tumor (maligno o
benigno) a partir de los
datos de entrenamiento
• Si la variable es
discreta/categórica,
entonces estamos ante un
problema de clasificación
• Regresión significa
predecir el valor de salida
utilizando los datos de
entrenamiento.
• Usar regresión para
predecir el precio de la
vivienda a partir de los
datos de entrenamiento
• Si nuestra objetivo es un
nº real/continuo, estamos
ante un problema de
regresión.
Clasificación vs Regresión
Casos de Uso y Herramientas
Casos de Uso
• Detección de Spam: Hotmail, Yahoo, Gmail
• Traducción Automática: Google Translate
• Búsqueda de Imágenes Similares: Google
Reverse image search
• Clustering (KMeans) : Recomendaciones de
Amazon
• Clasificación: Google News
Continúa..
Casos de Uso (continuación)
• Resumen de textos- Google News
• Puntuación de una crítica/comentario: Yelp
• Detección de Fraude: Visa/MasterCard
• Toma de decisiones: Banca/Seguros
• Análisis de sentimientos: Twitter, Facebook
• Reconocimiento de voz: Siri en iPhone
• Reconocimiento Facial: Etiquetado en fotos
de Facebook
Clasificación en Acción
¿No es fácil?
No, no es fácil (Carpeta de Correo no deseado)
No es
Spam
No es
Spam
Reconocimiento de nombres de entidades
Idiomas soportados por herramienta:
• NLTK: Inglés.
• Stanford: Inglés, Español, Chino y Árabe.
• OpenNLP: Inglés, Español, Alemán y Holandés.
• Polyglot-NER: 40 principales idiomas (Inglés, Español, Francés, Ruso,
Polaco, Portugués, Italiano, Holandés. Árabe, Hebreo, Japonés,
Vietnamita, …)
Reconocimiento de nombres de entidades
Imágenes Similares/Duplicadas
Recuerda
¿Características?
Extracción de características:
• Anchura
• Altura
• Contraste
• Brillo
• Posición
• Matiz
• Colores
Información Extra:
Librería LIRE (Lucene Image
REtrieval)
http://www.lire-project.net/
Recomendaciones
Gestión de Inventario
• Serie temporal con las unidades vendidas de un
determinado artículo.
• Información disponible: 38 meses desde Junio
2012 – Agosto 2015
Gestión de Inventario
• Descomponemos la serie original en componentes Y[t] = T[t] + S[t] + e[t]
– Componente estacional (S[t])  Oscilaciones con periodicidad anual o
submúltiplos del año
– Componente Tendencial (T[t])  Recoge la parte de la variable vinculada
principalmente con factores de largo plazo.
– Componente de Irregular/Error (e[t])  Se determina al quitar los
componentes estacional y el tendencial de la serie original
Gestión de Inventario
• Predicción utilizando el método ARIMA .
• ARIMA es un modelo estadístico que utiliza
variaciones y regresiones de datos estadísticos con
el fin de encontrar patrones para una predicción
hacia el futuro.
Gestión de Inventario
• Holt-Winters es un método de alisado exponencial que
tiene en cuenta el componente de tendencia (método de
Holt, extensión del método de alisado exponencial simple)
y el componente estacional (extensión por Winters del
método de Holt)
Gestión de Inventario
La predicción de Holt-Winters incluye 3 series
temporales:
• Ajustada
• Superior
• Inferior
Diagnóstico del cáncer de pecho
Redes Neuronales para el diagnóstico de tumores
malignos o benignos.
Herramientas y Frameworks
• Scikit-learn, Pandas, TensorFlow - Python
• Weka – Herramienta con una colección de algoritmos
• OpenNLP – Procesamiento del Lenguaje natural Java
• LingPipe – Procesamiento de texto con lingüística
computacional
• Stanford NLP – Procesamiento del Lenguaje Natural
• Mallet – Modelado de Temas
• Gensim – Modelado de Temas - Python
• LIBSVM : Máquinas de vectores de soporte - Python
Herramientas y Frameworks
• Apache Mahout – Librerías ML Big Data
designadas para ser escalables
• MLib , Spark ML – ML Big Data con Apache Spark
• forecast : Predicción con series temporales – R
• nnet : Redes neuronales – R
• arules – Reglas de asociación – R
• randomForest – Clasificación y regresión
utilizando bosques aleatorios – R
• Carrot2 – Clustering de resultados de búsquedas
Machine Learning - Big Data
Machine Learning aplicado al Big Data
Conceptos Avanzados
• Modelado de Temas
• Búsqueda Semántica
• Descomposición en valores singulares (SVD)
• Resumen/Recapitulación
Sector Privado
Referencias y Datos de Contacto
Sector Público
Referencias y Datos de Contacto
www.TodoBI.com
info@stratebi.com
www.stratebi.com
Mas información
Tfno: 91.788.34.10
Madrid: Avenida de Brasil, 17, Planta 16
Barcelona: C/ Valencia, 63
Brasil: Av. Paulista, 37 4 andar

Introduccion a Machine Learning

  • 1.
    Introducción al Machine Learningo Aprendizaje Automático
  • 2.
    Contenidos • Introducción • Técnicas –Clasificación – Clustering – Regresión • Casos de Uso y Herramientas 2
  • 3.
  • 4.
    Introducción • Es uncampo de la Inteligencia Artificial • Su nombre está derivado del concepto que trata con la construcción y estudio de sistemas que aprenden de los datos. • Es un concepto teórico en el que existen varias técnicas con múltiples implementaciones. • http://es.wikipedia.org/wiki/Machine_learning
  • 5.
    En otras palabras… “Unprograma de ordenador se dice que es capaz de aprender de la experiencia (E) con una serie de tareas (T) y una medida del rendimiento (P) si su desempeño en las tareas T mejora con E”
  • 6.
    Terminología • Características/Rasgos – Nºde características o rasgos distintos que se pueden utilizar para describir cada elemento de una manera cuantitativa • Muestras/Ejemplos – Una muestra es un elemento a procesar (por ejemplo clasificar). Puede ser un documento, una foto, un vídeo, una fila en una base de datos o cualquier cosa que podamos describir con un número fijo de rasgos cuantitativos • Vector de características – Vector n-dimensional con características numéricas que representan un objeto • Extracción de Características – Preparación del vector de características – Transforma los datos en un espacio con alta dimensionalidad a un espacio con menos dimensiones • Conjunto de Entrenamiento/Evolución – Conjunto de datos destinado a descubrir relaciones predictivas.
  • 7.
    Manzana Qué quieres decircon… Vamos a profundizar un poco…
  • 8.
    Aprendizaje (Training) Características (Features): 1.Color: Rojo 2. Tipo: Fruta 3. Forma: Redonda 4. Comestible: Si etc… Características: 1. Azul cielo 2. Logotipo 3. Redondo 4. No etc… Características: 1. Verde 2. Fruta 3. Redonda 4. Si etc…
  • 9.
    Flujo a) Entrenamiento: Conjuntode entrenamiento con datos etiquetados (variable objetivo conocida/etiquetada) b) Predicción: Conjunto de test con variable objetivo desconocida
  • 10.
    Categorías • Aprendizaje Supervisado •Aprendizaje No Supervisado • Aprendizaje Semisupervisado • Aprendizaje por refuerzo
  • 11.
    Aprendizaje Supervisado • Lasclases correctas del conjunto de datos de entrenamiento son conocidas
  • 12.
    Aprendizaje Supervisado • Secuenciasde ADN con etiquetas binarias que indican si cada secuencia se centra en una zona de inicio de transcripción (TSS) o no.
  • 13.
    Aprendizaje No Supervisado •Las clases correctas del conjunto de datos de entrenamiento no son conocidas
  • 14.
    Aprendizaje Semisupervisado • Mezclade aprendizaje Supervisado y No Supervisado
  • 15.
    Aprendizaje por Refuerzo •Permite al programa o agente software aprender su comportamiento basado en la información que recibe del entorno. • Este comportamiento se puede aprender de una sola vez, o ir adaptándose con el paso del tiempo.
  • 16.
  • 17.
    Técnicas • Clasificación: predeciruna clase con las observaciones • Clustering: agrupar las observaciones en grupos significativos • Regresión (predicción): predecir un valor con las observaciones
  • 18.
    Clasificación • Clasificar undocumento en una categoría predefinida • Los documentos pueden ser texto, imágenes Ejemplo: Clasificador Bayesiano Ingenuo. • Pasos: – Paso 1: Entrenar el programa (construir un modelo) usando el conjunto de entrenamiento con una categoría conocida por ejemplo : deportes, política, economía, sucesos … • El clasificador calculara la probabilidad de cada palabra, la probabilidad es lo que hará a un documento pertenecer a una de las categorías consideradas. – Paso 2: Probar el modelo construido con el conjunto de datos de test. • https://es.wikipedia.org/wiki/Clasificador_bayesiano_ingenuo
  • 19.
    Clustering • Clustering esla tarea de agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo (llamado clúster) son más similares entre sí. • Por ejemplo con estas palabras clave – “zapatos de hombre” – “zapatos de mujer” – “camisetas de mujer” – “camisetas de hombre” – Pueden ser agrupadas en 2 categorías “zapatos” y “camisetas” o “hombre” y “mujer” • Los métodos más populares son clustering K-medias y clustering Jerárquico.
  • 20.
    Clustering K-medias https://es.wikipedia.org/wiki/K-means • Tienecomo objetivo la partición de un conjunto de n observaciones en k clusters en el que cada observación pertenece al grupo más cercano a la media.
  • 21.
    Clustering Jerárquico • Métodode análisis de grupos el cual busca construir una jerarquía de grupos. • Existen 2 estrategias: – Aglomerativas: • Enfoque ascendente: cada observación comienza en su propio grupo, y los pares de grupos son mezclados mientras uno sube en la jerarquía • Su complejidad temporal es de O(n^3) – Divisivas: • Aproximación descendente: todas las observaciones comienzan en un grupo, y se realizan particiones a medida que bajamos en la jerarquía. • Su complejidad temporal es de O(2^n) https://es.wikipedia.org/wiki/Agrupamiento_jerárquico
  • 22.
    Regresión • Es unamedida de la relación entre una variable dependiente (por ejemplo la salida) y los valores de una serie de variables independientes (por ejemplo: tiempo y coste) • El analisis de la regresión es un proceso estadístico para estimar las relaciones entre las variables. • Regresión significa predecir la salida o resultado usando los datos de entrenamiento. • Es popular la regresión logística (regresión binaria) • https://es.wikipedia.org/wiki/Regresión_logística
  • 23.
    Clasificación vs Regresión •Clasificar significa agrupar la resultados de salida en una clase. • Usar clasificación para predecir el tipo de un tumor (maligno o benigno) a partir de los datos de entrenamiento • Si la variable es discreta/categórica, entonces estamos ante un problema de clasificación • Regresión significa predecir el valor de salida utilizando los datos de entrenamiento. • Usar regresión para predecir el precio de la vivienda a partir de los datos de entrenamiento • Si nuestra objetivo es un nº real/continuo, estamos ante un problema de regresión.
  • 24.
  • 25.
    Casos de Usoy Herramientas
  • 26.
    Casos de Uso •Detección de Spam: Hotmail, Yahoo, Gmail • Traducción Automática: Google Translate • Búsqueda de Imágenes Similares: Google Reverse image search • Clustering (KMeans) : Recomendaciones de Amazon • Clasificación: Google News Continúa..
  • 27.
    Casos de Uso(continuación) • Resumen de textos- Google News • Puntuación de una crítica/comentario: Yelp • Detección de Fraude: Visa/MasterCard • Toma de decisiones: Banca/Seguros • Análisis de sentimientos: Twitter, Facebook • Reconocimiento de voz: Siri en iPhone • Reconocimiento Facial: Etiquetado en fotos de Facebook
  • 28.
  • 29.
    No, no esfácil (Carpeta de Correo no deseado) No es Spam No es Spam
  • 30.
    Reconocimiento de nombresde entidades Idiomas soportados por herramienta: • NLTK: Inglés. • Stanford: Inglés, Español, Chino y Árabe. • OpenNLP: Inglés, Español, Alemán y Holandés. • Polyglot-NER: 40 principales idiomas (Inglés, Español, Francés, Ruso, Polaco, Portugués, Italiano, Holandés. Árabe, Hebreo, Japonés, Vietnamita, …)
  • 31.
  • 32.
    Imágenes Similares/Duplicadas Recuerda ¿Características? Extracción decaracterísticas: • Anchura • Altura • Contraste • Brillo • Posición • Matiz • Colores Información Extra: Librería LIRE (Lucene Image REtrieval) http://www.lire-project.net/
  • 33.
  • 34.
    Gestión de Inventario •Serie temporal con las unidades vendidas de un determinado artículo. • Información disponible: 38 meses desde Junio 2012 – Agosto 2015
  • 35.
    Gestión de Inventario •Descomponemos la serie original en componentes Y[t] = T[t] + S[t] + e[t] – Componente estacional (S[t])  Oscilaciones con periodicidad anual o submúltiplos del año – Componente Tendencial (T[t])  Recoge la parte de la variable vinculada principalmente con factores de largo plazo. – Componente de Irregular/Error (e[t])  Se determina al quitar los componentes estacional y el tendencial de la serie original
  • 36.
    Gestión de Inventario •Predicción utilizando el método ARIMA . • ARIMA es un modelo estadístico que utiliza variaciones y regresiones de datos estadísticos con el fin de encontrar patrones para una predicción hacia el futuro.
  • 37.
    Gestión de Inventario •Holt-Winters es un método de alisado exponencial que tiene en cuenta el componente de tendencia (método de Holt, extensión del método de alisado exponencial simple) y el componente estacional (extensión por Winters del método de Holt)
  • 38.
    Gestión de Inventario Lapredicción de Holt-Winters incluye 3 series temporales: • Ajustada • Superior • Inferior
  • 39.
    Diagnóstico del cáncerde pecho Redes Neuronales para el diagnóstico de tumores malignos o benignos.
  • 40.
    Herramientas y Frameworks •Scikit-learn, Pandas, TensorFlow - Python • Weka – Herramienta con una colección de algoritmos • OpenNLP – Procesamiento del Lenguaje natural Java • LingPipe – Procesamiento de texto con lingüística computacional • Stanford NLP – Procesamiento del Lenguaje Natural • Mallet – Modelado de Temas • Gensim – Modelado de Temas - Python • LIBSVM : Máquinas de vectores de soporte - Python
  • 41.
    Herramientas y Frameworks •Apache Mahout – Librerías ML Big Data designadas para ser escalables • MLib , Spark ML – ML Big Data con Apache Spark • forecast : Predicción con series temporales – R • nnet : Redes neuronales – R • arules – Reglas de asociación – R • randomForest – Clasificación y regresión utilizando bosques aleatorios – R • Carrot2 – Clustering de resultados de búsquedas
  • 42.
  • 43.
  • 44.
    Conceptos Avanzados • Modeladode Temas • Búsqueda Semántica • Descomposición en valores singulares (SVD) • Resumen/Recapitulación
  • 45.
  • 46.
  • 47.
    www.TodoBI.com info@stratebi.com www.stratebi.com Mas información Tfno: 91.788.34.10 Madrid:Avenida de Brasil, 17, Planta 16 Barcelona: C/ Valencia, 63 Brasil: Av. Paulista, 37 4 andar