SlideShare una empresa de Scribd logo
1 de 15
Descargar para leer sin conexión
1
MACHINE LEARNING
• Las personas son eficientes buscando patrones, pero muy ineficientes en el
procesamiento rápido
• La idea es usar técnicas que permitan computacionalmente realizar esto.
• Pero se debe conocer el comportamiento de lo que se busca (una clasificación, un
dato atípico?, un clustering?)
Es diferente a DATA MINING: ésta se ocupa de desenterrar en sí las relaciones entre
datos; MachineLearning requiere conocer la tarea que se va a llevar a cabo.
REFERENCIAS>
• https://dzone.com/articles/understanding-machine-learning
2
CLASIFICACION ALGORITMOS (SEGÚN ATRIBUTOS)
• SUPERVISED LEARNING: inferir una función de salida dados unos datos de
entrenamiento que tienen la señal de salida esperada (“labeled”) 
CLASSIFICATION
• UNSUPERVISED LEARNING: no se dan datos de entrada; sólo se quiere realizar una
organización en diferentes grupos llamados clusters. La data en cada grupo
comparte propiedades similares  CLUSTERING
• SEMISUPERVISED LEARNING: dada una falencia de pocos datos con “label” para
entrenamiento, se usa aprendizaje no supervisado para incluir nuevas muestras a
cada clase preexistente y posteriormente se usa aprendizaje supervisado para
clasificar.
• REINFORCEMENT: Aprender a reaccionar de determinado ambiente
CLASIFICACION ALGORITMOS (SEGÚN OBJETIVO DEL PROBLEMA)
• CLASIFICACIÓN
• CLUSTERING
• OUTLIER DETECTION: Permiten identificar datos significativamente diferentes o
inconsistentes con los demás del dataset.
• FILTERING: buscar ítems relevantes de un pool de ítems. Normalmente se usa el
3
histórico del comportamiento de un usuario para ello.
3
CLASSIFICATION-EJEMPLOS
• Si un aplicante a crédito debe ser aceptado o rechazado
• Si una huella pertenece o no a un sospechoso
• Si una persona tiene una enfermedad o no dadosdeterminados registros
fotográficos.
4
CLUSTERING-EJEMPLOS
• El banco que quiere vender unos nuevos productos financieros a clientes basados
en su perfil.
• Clasificación de documentos automática al radicar
5
OUTLIER DETECTION-EJEMPLOS
• Detección de fraude
• Diagnóstico médico (virus que no responden a medicamentos)
• Jugadores con drogas
6
FILTERING / COLLABORATIVE,
Es el mecanismo de filtrado más aplicado. Viene de la idea que si alguien ha visto que
otro compra determinado producto de alguien similar, estará más inclinado a
comprar ese otro producto. Se usa para sistemas de recomendación (cross-selling
opportunities)
EJEMPLOS
Netflix
Amazon
7
8
LINEAR REGRESSION
• Busca la relación entre variables independientes y una dependiente dentro del
dataset.
• Asume una relación lineal pero se puede extrapolar
• Asume un grado de causación.
• Normalmente se hace primero la correlación y posteriormente una regresión.
• Usa el método de mínimos cuadrados para establecer la línea de mejor ajuste
OTROS EJEMPLoS
• Edx-mit: Moneyball para la MBA
• Cuánto stock de helados necesito según la temperatura
• Ver el comportamiento del consumo de combustible según los autos para buscar
relaciones de causalidad o probar hipotesis
• https://github.com/andhdo/coursera_dsc_07_regmods_project/blob/mast
er/RegressionModels_MotorTrendCars.pdf [ejemplo prueba de hipotesis]
• Hay otra pagina de carros más actual; la referencian en un dataset llamado
mpg, que se traen de la pagina http://fueleconomy.gov/
9
DECISION TREES
• La idea es construir una estructura de clasificación de forma tal que cada nodo
indique una decisión y mediante una estrategia greedy (voráz), se vaya
seleccionando aquel o aquellos atributos que permiten dividir el dataset completo
en una categoría de clasificación.
• La idea es balancear el tamaño del árbol de forma tal que no quede atado solo a
los datos que aprendió sino que pueda inferir. Esto es relacionado con lo que se
denomina overfitting (se alusta mucho a los samples dados pero después le queda
difícil predecir nuevos samples). También lo denominan el principio OCCAM’s
RAZOR (entre hipótesis que compiten, la que menos asume cosas es la que se
debe elegir: la más simple explicación – William Occam, siglo 13.)
• Por esto es común usar algoritmos de poda de arboles dentro del método de
aprendizaje o usando parámetros para que el árbol no crezca más allá de
determinado límite.
• La estructura es diciente para un usuario de negocio, por lo cual se pueden explicar
algunos pasos de decisión y validar con el negocio su lógica.
LAB
• Hay un ejemplo interesante en la pagina de kaggle, se llama sobreviviente del
10
titanic, en el cual dejan un dataset de personas del titanic, y hay que predecir si
determinada persona se salbava o no de morir (http://trevorstephens.com/kaggle-
titanic-tutorial/r-part-1-booting-up/)
• p0303_tree_titanic.r
OTROS EJEMPLOS
• Hay un dataset de actividades medidas con un Smartphone y la idea es detectar el
tipo de actividad que se hace (https://www.r-bloggers.com/samsung-phone-data-
analysis-project/).
• Edx-mit: Se pueden predecir rangos de precios de inmuebles dados determinados
factores hedónicos (Boston Housing Data).
• Se pueden dictar algunos atributos de referencia para otorgar o no créditos a
determinado perfil de usuarios.
• Se puede predecir el nivel de perdida de clientes con un árbol de decisión (
http://apuntes-r.blogspot.com.co/2014/09/predecir-perdida-de-clientes-con-
arbol.html )
10
Aunque es una vieja técnica sigue siendo aplicable para algunos casos de clustering.
La idea es agrupar elementos de forma tal que sean similares unos con otros.
Para que el algoritmo funcione se requiere una nocion de distancia y una forma de
agrupar elementos unos con otros.
El algoritmo comienza con una asignación a un cluster. Posteriormetne hay un paso
de reasignación. La reasignación se hace calculando la distancia al centroide de cada
uno de sus miembros.
REFERENCIAS
• [Ref0: el mas clarito](https://www.youtube.com/watch?v=_aWzGGNrcic)
• [Ref1: a lo ultimo tiene las ilustraciones de los
pasos](https://www.youtube.com/watch?v=_aWzGGNrcic)
• [Ref2: uno con cartas](https://www.youtube.com/watch?v=zHbxbb2ye3E)
Hoy en día para clustering se usan también lso dendogramas.
11
A PRIORI
Es un algoritmo de algo denominado pattern identification; la idea es identificar
patrones frecuentes con el fin de recomendarlos a determinados usuarios. Tambien
esta técnica se denomina marketBasket. No sólo se usa en retail para ver productos
asociados sino que también puede aplicarse por ejemplo a condiciones medicas entre
síntomas del paciete y la respectiva droga a usar en el caso.
El resultado de este algoritmo es producir reglas que relacionen ítems, por ejemplo
{milk,eggs}  {bread:pan}
Sin embargo este conjunto de reglas debe ser pasado hacia un experto porque no
necesariamente todas sirven.
El algoritmo basa su construcción en que para que un ítem sea frecuente, los ítems
que la componen también deben ser frecuentes en la regla, y es lo que se conoce
como “soporte”.
REFERENCIAS
• Una buena introducción se encuentra en kdnuggets:
http://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm-
12
tutorial.html
12

Más contenido relacionado

Destacado

VALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALESVALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALEScgarmit952
 
Wareg assembly alberto biancardi, wareg
Wareg assembly   alberto biancardi, waregWareg assembly   alberto biancardi, wareg
Wareg assembly alberto biancardi, waregOECD Governance
 
Album cover conventions
Album cover conventionsAlbum cover conventions
Album cover conventionslatymermedia
 
Win experience on online database teun bastemeijer, win
Win experience on online database   teun bastemeijer, winWin experience on online database   teun bastemeijer, win
Win experience on online database teun bastemeijer, winOECD Governance
 
Doc thu ren ky nang lam bai trac nghiem mon tieng anh
Doc thu   ren ky nang lam bai trac nghiem mon tieng anhDoc thu   ren ky nang lam bai trac nghiem mon tieng anh
Doc thu ren ky nang lam bai trac nghiem mon tieng anhmcbooksjsc
 
Tabulacion de-datos (1)
Tabulacion de-datos (1)Tabulacion de-datos (1)
Tabulacion de-datos (1)DanyLopez29
 
Diagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguezDiagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguezDanyLopez29
 

Destacado (8)

Communication practice on board
Communication practice on boardCommunication practice on board
Communication practice on board
 
VALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALESVALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALES
 
Wareg assembly alberto biancardi, wareg
Wareg assembly   alberto biancardi, waregWareg assembly   alberto biancardi, wareg
Wareg assembly alberto biancardi, wareg
 
Album cover conventions
Album cover conventionsAlbum cover conventions
Album cover conventions
 
Win experience on online database teun bastemeijer, win
Win experience on online database   teun bastemeijer, winWin experience on online database   teun bastemeijer, win
Win experience on online database teun bastemeijer, win
 
Doc thu ren ky nang lam bai trac nghiem mon tieng anh
Doc thu   ren ky nang lam bai trac nghiem mon tieng anhDoc thu   ren ky nang lam bai trac nghiem mon tieng anh
Doc thu ren ky nang lam bai trac nghiem mon tieng anh
 
Tabulacion de-datos (1)
Tabulacion de-datos (1)Tabulacion de-datos (1)
Tabulacion de-datos (1)
 
Diagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguezDiagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguez
 

Similar a BigData 101 / Cursillo (Parte3)

BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)andres hurtado
 
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdfAprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdfGerard Alba
 
CIITEC Fundamentos de Deep Learning.pptx
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptxicebeam7
 
Clean code 10-11
Clean code 10-11Clean code 10-11
Clean code 10-11540deg
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdfhenry913654
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosDavidAcurio2
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosValeria Gavilanes
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOsystemprisoners
 
Unidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxfernandalemus15
 
Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Eduardo Castro
 
¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfato¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfatoRubén Bernárdez
 
Manual análisis de algoritmos
Manual análisis de algoritmosManual análisis de algoritmos
Manual análisis de algoritmosBeat Winehouse
 

Similar a BigData 101 / Cursillo (Parte3) (20)

BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)
 
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdfAprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
 
Clase 2
Clase 2Clase 2
Clase 2
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Ejemplo de presentacion
Ejemplo de presentacionEjemplo de presentacion
Ejemplo de presentacion
 
CIITEC Fundamentos de Deep Learning.pptx
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptx
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
Clean code 10-11
Clean code 10-11Clean code 10-11
Clean code 10-11
 
Para el producto final de curso
Para el producto final de cursoPara el producto final de curso
Para el producto final de curso
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datos
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
 
Unidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptx
 
Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfato¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfato
 
Manual analisis-de-algoritmos
Manual analisis-de-algoritmosManual analisis-de-algoritmos
Manual analisis-de-algoritmos
 
Manual análisis de algoritmos
Manual análisis de algoritmosManual análisis de algoritmos
Manual análisis de algoritmos
 

Más de andres hurtado

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_courseraandres hurtado
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aiandres hurtado
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoandres hurtado
 
BigData 101 / Cursillo (Parte5)
 BigData 101 / Cursillo (Parte5) BigData 101 / Cursillo (Parte5)
BigData 101 / Cursillo (Parte5)andres hurtado
 
BigData 101 / Cursillo (Parte4)
 BigData 101 / Cursillo (Parte4) BigData 101 / Cursillo (Parte4)
BigData 101 / Cursillo (Parte4)andres hurtado
 
BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)andres hurtado
 
BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)andres hurtado
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystemsandres hurtado
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)andres hurtado
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introductionandres hurtado
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06andres hurtado
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05andres hurtado
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04andres hurtado
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02andres hurtado
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01andres hurtado
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agendaandres hurtado
 

Más de andres hurtado (20)

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_coursera
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware ai
 
estimacion
estimacionestimacion
estimacion
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologico
 
Docker 101
Docker 101Docker 101
Docker 101
 
DevOps 101
DevOps 101DevOps 101
DevOps 101
 
Git 101
Git 101Git 101
Git 101
 
BigData 101 / Cursillo (Parte5)
 BigData 101 / Cursillo (Parte5) BigData 101 / Cursillo (Parte5)
BigData 101 / Cursillo (Parte5)
 
BigData 101 / Cursillo (Parte4)
 BigData 101 / Cursillo (Parte4) BigData 101 / Cursillo (Parte4)
BigData 101 / Cursillo (Parte4)
 
BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)
 
BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystems
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agenda
 

Último

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 

Último (10)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 

BigData 101 / Cursillo (Parte3)

  • 1. 1
  • 2. MACHINE LEARNING • Las personas son eficientes buscando patrones, pero muy ineficientes en el procesamiento rápido • La idea es usar técnicas que permitan computacionalmente realizar esto. • Pero se debe conocer el comportamiento de lo que se busca (una clasificación, un dato atípico?, un clustering?) Es diferente a DATA MINING: ésta se ocupa de desenterrar en sí las relaciones entre datos; MachineLearning requiere conocer la tarea que se va a llevar a cabo. REFERENCIAS> • https://dzone.com/articles/understanding-machine-learning 2
  • 3. CLASIFICACION ALGORITMOS (SEGÚN ATRIBUTOS) • SUPERVISED LEARNING: inferir una función de salida dados unos datos de entrenamiento que tienen la señal de salida esperada (“labeled”)  CLASSIFICATION • UNSUPERVISED LEARNING: no se dan datos de entrada; sólo se quiere realizar una organización en diferentes grupos llamados clusters. La data en cada grupo comparte propiedades similares  CLUSTERING • SEMISUPERVISED LEARNING: dada una falencia de pocos datos con “label” para entrenamiento, se usa aprendizaje no supervisado para incluir nuevas muestras a cada clase preexistente y posteriormente se usa aprendizaje supervisado para clasificar. • REINFORCEMENT: Aprender a reaccionar de determinado ambiente CLASIFICACION ALGORITMOS (SEGÚN OBJETIVO DEL PROBLEMA) • CLASIFICACIÓN • CLUSTERING • OUTLIER DETECTION: Permiten identificar datos significativamente diferentes o inconsistentes con los demás del dataset. • FILTERING: buscar ítems relevantes de un pool de ítems. Normalmente se usa el 3
  • 4. histórico del comportamiento de un usuario para ello. 3
  • 5. CLASSIFICATION-EJEMPLOS • Si un aplicante a crédito debe ser aceptado o rechazado • Si una huella pertenece o no a un sospechoso • Si una persona tiene una enfermedad o no dadosdeterminados registros fotográficos. 4
  • 6. CLUSTERING-EJEMPLOS • El banco que quiere vender unos nuevos productos financieros a clientes basados en su perfil. • Clasificación de documentos automática al radicar 5
  • 7. OUTLIER DETECTION-EJEMPLOS • Detección de fraude • Diagnóstico médico (virus que no responden a medicamentos) • Jugadores con drogas 6
  • 8. FILTERING / COLLABORATIVE, Es el mecanismo de filtrado más aplicado. Viene de la idea que si alguien ha visto que otro compra determinado producto de alguien similar, estará más inclinado a comprar ese otro producto. Se usa para sistemas de recomendación (cross-selling opportunities) EJEMPLOS Netflix Amazon 7
  • 9. 8
  • 10. LINEAR REGRESSION • Busca la relación entre variables independientes y una dependiente dentro del dataset. • Asume una relación lineal pero se puede extrapolar • Asume un grado de causación. • Normalmente se hace primero la correlación y posteriormente una regresión. • Usa el método de mínimos cuadrados para establecer la línea de mejor ajuste OTROS EJEMPLoS • Edx-mit: Moneyball para la MBA • Cuánto stock de helados necesito según la temperatura • Ver el comportamiento del consumo de combustible según los autos para buscar relaciones de causalidad o probar hipotesis • https://github.com/andhdo/coursera_dsc_07_regmods_project/blob/mast er/RegressionModels_MotorTrendCars.pdf [ejemplo prueba de hipotesis] • Hay otra pagina de carros más actual; la referencian en un dataset llamado mpg, que se traen de la pagina http://fueleconomy.gov/ 9
  • 11. DECISION TREES • La idea es construir una estructura de clasificación de forma tal que cada nodo indique una decisión y mediante una estrategia greedy (voráz), se vaya seleccionando aquel o aquellos atributos que permiten dividir el dataset completo en una categoría de clasificación. • La idea es balancear el tamaño del árbol de forma tal que no quede atado solo a los datos que aprendió sino que pueda inferir. Esto es relacionado con lo que se denomina overfitting (se alusta mucho a los samples dados pero después le queda difícil predecir nuevos samples). También lo denominan el principio OCCAM’s RAZOR (entre hipótesis que compiten, la que menos asume cosas es la que se debe elegir: la más simple explicación – William Occam, siglo 13.) • Por esto es común usar algoritmos de poda de arboles dentro del método de aprendizaje o usando parámetros para que el árbol no crezca más allá de determinado límite. • La estructura es diciente para un usuario de negocio, por lo cual se pueden explicar algunos pasos de decisión y validar con el negocio su lógica. LAB • Hay un ejemplo interesante en la pagina de kaggle, se llama sobreviviente del 10
  • 12. titanic, en el cual dejan un dataset de personas del titanic, y hay que predecir si determinada persona se salbava o no de morir (http://trevorstephens.com/kaggle- titanic-tutorial/r-part-1-booting-up/) • p0303_tree_titanic.r OTROS EJEMPLOS • Hay un dataset de actividades medidas con un Smartphone y la idea es detectar el tipo de actividad que se hace (https://www.r-bloggers.com/samsung-phone-data- analysis-project/). • Edx-mit: Se pueden predecir rangos de precios de inmuebles dados determinados factores hedónicos (Boston Housing Data). • Se pueden dictar algunos atributos de referencia para otorgar o no créditos a determinado perfil de usuarios. • Se puede predecir el nivel de perdida de clientes con un árbol de decisión ( http://apuntes-r.blogspot.com.co/2014/09/predecir-perdida-de-clientes-con- arbol.html ) 10
  • 13. Aunque es una vieja técnica sigue siendo aplicable para algunos casos de clustering. La idea es agrupar elementos de forma tal que sean similares unos con otros. Para que el algoritmo funcione se requiere una nocion de distancia y una forma de agrupar elementos unos con otros. El algoritmo comienza con una asignación a un cluster. Posteriormetne hay un paso de reasignación. La reasignación se hace calculando la distancia al centroide de cada uno de sus miembros. REFERENCIAS • [Ref0: el mas clarito](https://www.youtube.com/watch?v=_aWzGGNrcic) • [Ref1: a lo ultimo tiene las ilustraciones de los pasos](https://www.youtube.com/watch?v=_aWzGGNrcic) • [Ref2: uno con cartas](https://www.youtube.com/watch?v=zHbxbb2ye3E) Hoy en día para clustering se usan también lso dendogramas. 11
  • 14. A PRIORI Es un algoritmo de algo denominado pattern identification; la idea es identificar patrones frecuentes con el fin de recomendarlos a determinados usuarios. Tambien esta técnica se denomina marketBasket. No sólo se usa en retail para ver productos asociados sino que también puede aplicarse por ejemplo a condiciones medicas entre síntomas del paciete y la respectiva droga a usar en el caso. El resultado de este algoritmo es producir reglas que relacionen ítems, por ejemplo {milk,eggs}  {bread:pan} Sin embargo este conjunto de reglas debe ser pasado hacia un experto porque no necesariamente todas sirven. El algoritmo basa su construcción en que para que un ítem sea frecuente, los ítems que la componen también deben ser frecuentes en la regla, y es lo que se conoce como “soporte”. REFERENCIAS • Una buena introducción se encuentra en kdnuggets: http://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm- 12