Digital Strategist / Data Strategist / Business Consultant en Freelance
3 de Oct de 2016•0 recomendaciones•1,907 vistas
1 de 109
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
3 de Oct de 2016•0 recomendaciones•1,907 vistas
Descargar para leer sin conexión
Denunciar
Datos y análisis
Slides de la charla "Machine learning a lo berserker". Una charla que consiste en explicar Machine Learning a lo bruto y con un poco de irresponsabilidad :P Nada de mates y un poco de sentido práctico.
Más información: http://berserker.science
2. AVISO A LAS EXPECTATIVAS
Esta charla es una charla de INTRODUCCIÓN al Machine Learning.
Es una charla de INTRODUCCIÓN.
Nivel BÁSICO.
Craftsmanship Barcelona
4. DISCLAIMERS
Esta charla puede herir la sensibilidad de estadísticos
y matemáticos. También de data scientist expertos. Lo básico, a
veces, necesita reducir la dimensionalidad del contenido, así que esta charla
contiene muchas simplificaciones.
No se habla apenas de tecnologías: ni Hadoop, ni Spark,...
Los ejemplos están en R, lo siento por los amantes
del Python. Hay mezcla de idiomas. La charla requiere actos de Fe!
Craftsmanship Barcelona
5. PLAN
1- CONTEXTO: De dónde venimos, dónde estamos, a dónde vamos,... y qué pinta
Machine Learning en todo esto. TRENDS, MERCADO, PALABROS, ROLES
2- MACHINE LEARNING. DEFINICIÓN Y PROCESO. + CONTEXTO
3- ALGUNOS ALGORITMOS.
4- CONCLUSIONES.
5- RONDA DE COMENTARIOS.
Craftsmanship Barcelona
11. Craftsmanship BarcelonaContexto
Sources: Gartner 2013, Gartner 2014, Gartner 2015, Gartner 2016
EMERGING TECHNOLOGIES
2016
The perceptual smart machine age:
Smart machine technologies will be the most disruptive class of
technologies over the next 10 years due to radical computational
power, near-endless amounts of data, and unprecedented advances
in deep neural networks that will allow organizations with smart
machine technologies to harness data in order to adapt to new
situations and solve problems that no one has encountered
previously. Enterprises that are seeking leverage in this theme should
consider the following technologies: Smart Dust, Machine Learning,
Virtual Personal Assistants, Cognitive Expert Advisors, Smart Data
Discovery, Smart Workspace, Conversational User Interfaces, Smart
Robots, Commercial UAVs (Drones), Autonomous Vehicles,
Natural-Language Question Answering, Personal Analytics, Enterprise
Taxonomy and Ontology Management, Data Broker PaaS (dbrPaaS),
and Context Brokering.
13. Todos los experimentos de tiradas de objetos
son los datos con lo que la máquina
va a poder aprender para luego predecir,
dado dos objetos nuevos y sus características,
cuál de ellos va a llegar antes al suelo.
Analogía original de la consultora polaca Algolytics
Imagen tio+ordenador:https://pixabay.com
18. Machine Learning
“Field of study that gives computers the ability to learn
without being explicitly programmed.” Arthur Samuel, 1959
“A computer program is said to learn from experience E with
respect to some class of tasks T if its performance, as
measured by P, improves with experience E.”
Tom M Mitchell, 1997
28. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
29. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
30. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
OBTENER
DATOS
31. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
OBTENER
DATOS
32. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
33. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
¡¡NUNCA SE HACE
UN MODELADO SIN
MIRAR ANTES LOS
DATOS!!
EL TRABAJO DE
PREPROCESO SE LLEVA
EL MAYOR
TIEMPO DEL PROCESO!!
34. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
35. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
36. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
DIVIDIR
DATOS
37. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
DIVIDIR
DATOS
38. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
39. ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
Proceso proyecto data science
ENTENDER
PROBLEMA
Definir objetivos
PREPARAR Y
LIMPIAR DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
Proceso Machine Learning
ELEGIR MEJOR
MODELO
42. Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
ELEGIR MEJOR
MODELO
PREPARAR Y
LIMPIAR DATOS
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
ENTENDER
PROBLEMA
Definir objetivos
ENTENDER
PROBLEMA
Definir objetivos
43. Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
ELEGIR MEJOR
MODELO
PREPARAR Y
LIMPIAR DATOS
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
ALGORITMO
MACHINE
LEARNING
DATOS
ENTENDER
PROBLEMA
Definir objetivos
ENTENDER
PROBLEMA
Definir objetivos
DATASET
NEW DATA
PREDICCIÓN!!
NUEVOS
DATOS
DATASET
TRAIN
DATASET
VAL
MODELO
CLASIFICACIÓN
44. Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
ELEGIR MEJOR
MODELO
PREPARAR Y
LIMPIAR DATOS
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
ENTENDER
PROBLEMA
Definir objetivos
ENTENDER
PROBLEMA
Definir objetivos
45. Proceso Machine Learning
ENTENDER LOS DATOS
PREPROCESO DE LOS DATOS
¿Qué algoritmo
uso?
CONSTRUIR MODELO
DATA PRODUCT
VISUALIZACIÓN
TOMA DE
DECISIONES
ELEGIR MEJOR
MODELO
PREPARAR Y
LIMPIAR DATOS
EVALUAR MODELO
EXPLORAR
Y ANALIZAR
ENTENDER
PROBLEMA
Definir objetivos
ENTENDER
PROBLEMA
Definir objetivos
MODELO
CLASIFICACIÓN
54. PELIGRO: Overfitting!!
La mayoría de métodos estadísticos y de Machine
Learning usan alguna forma de REGULARIZACIÓN para
que se pueda limitar el SOBREAJUSTE.
62. Supervisado No supervisado
Regresión
Regresión Lineal
Árboles de Decisión
Random Forest
SVM
Regresión Logística
SVM
Árboles de Decisión
Random Forest
KNN
Clasificación
K-Means
Clustering
PCA
Reducción de
variablesA
B
82. Las SVM se basan en aplicar funciones (llamadas de kernel) que
transforman el espacio de puntos original en un espacio de mayor
dimensión.
83. Las SVM se basan en aplicar funciones (llamadas de Kernel) que
transforman el espacio de puntos original en un espacio de mayor
dimensión, donde encontrar un hyperplano que separe los datos.
104. Resumen
El dato no habla por nosotros, nosotros hablamos por el dato.
Machine Learning consiste en que las máquinas aprendan sin programación explícita.
Las máquinas aprenden de la experiencia.
Hay que saber: algoritmos, mates, estadística, programación y análisis, y… sensores,
IoT, data storage, data management, y… conocer los contextos de aplicación.
Machine Learning nos rodea ahora y cada vez más.
Esto ha sido una explicación berserker y hay todo un mundo ahí fuera.