SlideShare una empresa de Scribd logo
1 de 15
Descargar para leer sin conexión
1
MACHINE LEARNING
• Las personas son eficientes buscando patrones, pero muy ineficientes en el
procesamiento rápido
• La idea es usar técnicas que permitan computacionalmente realizar esto.
• Pero se debe conocer el comportamiento de lo que se busca (una clasificación, un
dato atípico?, un clustering?)
Es diferente a DATA MINING: ésta se ocupa de desenterrar en sí las relaciones entre
datos; MachineLearning requiere conocer la tarea que se va a llevar a cabo.
REFERENCIAS>
• https://dzone.com/articles/understanding-machine-learning
2
CLASIFICACION ALGORITMOS (SEGÚN ATRIBUTOS)
• SUPERVISED LEARNING: inferir una función de salida dados unos datos de
entrenamiento que tienen la señal de salida esperada (“labeled”) 
CLASSIFICATION
• UNSUPERVISED LEARNING: no se dan datos de entrada; sólo se quiere realizar una
organización en diferentes grupos llamados clusters. La data en cada grupo
comparte propiedades similares  CLUSTERING
• SEMISUPERVISED LEARNING: dada una falencia de pocos datos con “label” para
entrenamiento, se usa aprendizaje no supervisado para incluir nuevas muestras a
cada clase preexistente y posteriormente se usa aprendizaje supervisado para
clasificar.
• REINFORCEMENT: Aprender a reaccionar de determinado ambiente
CLASIFICACION ALGORITMOS (SEGÚN OBJETIVO DEL PROBLEMA)
• CLASIFICACIÓN
• CLUSTERING
• OUTLIER DETECTION: Permiten identificar datos significativamente diferentes o
inconsistentes con los demás del dataset.
• FILTERING: buscar ítems relevantes de un pool de ítems. Normalmente se usa el
3
histórico del comportamiento de un usuario para ello.
3
CLASSIFICATION-EJEMPLOS
• Si un aplicante a crédito debe ser aceptado o rechazado
• Si una huella pertenece o no a un sospechoso
• Si una persona tiene una enfermedad o no dadosdeterminados registros
fotográficos.
4
CLUSTERING-EJEMPLOS
• El banco que quiere vender unos nuevos productos financieros a clientes basados
en su perfil.
• Clasificación de documentos automática al radicar
5
OUTLIER DETECTION-EJEMPLOS
• Detección de fraude
• Diagnóstico médico (virus que no responden a medicamentos)
• Jugadores con drogas
6
FILTERING / COLLABORATIVE,
Es el mecanismo de filtrado más aplicado. Viene de la idea que si alguien ha visto que
otro compra determinado producto de alguien similar, estará más inclinado a
comprar ese otro producto. Se usa para sistemas de recomendación (cross-selling
opportunities)
EJEMPLOS
Netflix
Amazon
7
8
LINEAR REGRESSION
• Busca la relación entre variables independientes y una dependiente dentro del
dataset.
• Asume una relación lineal pero se puede extrapolar
• Asume un grado de causación.
• Normalmente se hace primero la correlación y posteriormente una regresión.
• Usa el método de mínimos cuadrados para establecer la línea de mejor ajuste
OTROS EJEMPLoS
• Edx-mit: Moneyball para la MBA
• Cuánto stock de helados necesito según la temperatura
• Ver el comportamiento del consumo de combustible según los autos para buscar
relaciones de causalidad o probar hipotesis
• https://github.com/andhdo/coursera_dsc_07_regmods_project/blob/mast
er/RegressionModels_MotorTrendCars.pdf [ejemplo prueba de hipotesis]
• Hay otra pagina de carros más actual; la referencian en un dataset llamado
mpg, que se traen de la pagina http://fueleconomy.gov/
9
DECISION TREES
• La idea es construir una estructura de clasificación de forma tal que cada nodo
indique una decisión y mediante una estrategia greedy (voráz), se vaya
seleccionando aquel o aquellos atributos que permiten dividir el dataset completo
en una categoría de clasificación.
• La idea es balancear el tamaño del árbol de forma tal que no quede atado solo a
los datos que aprendió sino que pueda inferir. Esto es relacionado con lo que se
denomina overfitting (se alusta mucho a los samples dados pero después le queda
difícil predecir nuevos samples). También lo denominan el principio OCCAM’s
RAZOR (entre hipótesis que compiten, la que menos asume cosas es la que se
debe elegir: la más simple explicación – William Occam, siglo 13.)
• Por esto es común usar algoritmos de poda de arboles dentro del método de
aprendizaje o usando parámetros para que el árbol no crezca más allá de
determinado límite.
• La estructura es diciente para un usuario de negocio, por lo cual se pueden explicar
algunos pasos de decisión y validar con el negocio su lógica.
LAB
• Hay un ejemplo interesante en la pagina de kaggle, se llama sobreviviente del
10
titanic, en el cual dejan un dataset de personas del titanic, y hay que predecir si
determinada persona se salbava o no de morir (http://trevorstephens.com/kaggle-
titanic-tutorial/r-part-1-booting-up/)
• p0303_tree_titanic.r
OTROS EJEMPLOS
• Hay un dataset de actividades medidas con un Smartphone y la idea es detectar el
tipo de actividad que se hace (https://www.r-bloggers.com/samsung-phone-data-
analysis-project/).
• Edx-mit: Se pueden predecir rangos de precios de inmuebles dados determinados
factores hedónicos (Boston Housing Data).
• Se pueden dictar algunos atributos de referencia para otorgar o no créditos a
determinado perfil de usuarios.
• Se puede predecir el nivel de perdida de clientes con un árbol de decisión (
http://apuntes-r.blogspot.com.co/2014/09/predecir-perdida-de-clientes-con-
arbol.html )
10
Aunque es una vieja técnica sigue siendo aplicable para algunos casos de clustering.
La idea es agrupar elementos de forma tal que sean similares unos con otros.
Para que el algoritmo funcione se requiere una nocion de distancia y una forma de
agrupar elementos unos con otros.
El algoritmo comienza con una asignación a un cluster. Posteriormetne hay un paso
de reasignación. La reasignación se hace calculando la distancia al centroide de cada
uno de sus miembros.
REFERENCIAS
• [Ref0: el mas clarito](https://www.youtube.com/watch?v=_aWzGGNrcic)
• [Ref1: a lo ultimo tiene las ilustraciones de los
pasos](https://www.youtube.com/watch?v=_aWzGGNrcic)
• [Ref2: uno con cartas](https://www.youtube.com/watch?v=zHbxbb2ye3E)
Hoy en día para clustering se usan también lso dendogramas.
11
A PRIORI
Es un algoritmo de algo denominado pattern identification; la idea es identificar
patrones frecuentes con el fin de recomendarlos a determinados usuarios. Tambien
esta técnica se denomina marketBasket. No sólo se usa en retail para ver productos
asociados sino que también puede aplicarse por ejemplo a condiciones medicas entre
síntomas del paciete y la respectiva droga a usar en el caso.
El resultado de este algoritmo es producir reglas que relacionen ítems, por ejemplo
{milk,eggs}  {bread:pan}
Sin embargo este conjunto de reglas debe ser pasado hacia un experto porque no
necesariamente todas sirven.
El algoritmo basa su construcción en que para que un ítem sea frecuente, los ítems
que la componen también deben ser frecuentes en la regla, y es lo que se conoce
como “soporte”.
REFERENCIAS
• Una buena introducción se encuentra en kdnuggets:
http://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm-
12
tutorial.html
12

Más contenido relacionado

Destacado

VALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALESVALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALEScgarmit952
 
Wareg assembly alberto biancardi, wareg
Wareg assembly   alberto biancardi, waregWareg assembly   alberto biancardi, wareg
Wareg assembly alberto biancardi, waregOECD Governance
 
Album cover conventions
Album cover conventionsAlbum cover conventions
Album cover conventionslatymermedia
 
Win experience on online database teun bastemeijer, win
Win experience on online database   teun bastemeijer, winWin experience on online database   teun bastemeijer, win
Win experience on online database teun bastemeijer, winOECD Governance
 
Doc thu ren ky nang lam bai trac nghiem mon tieng anh
Doc thu   ren ky nang lam bai trac nghiem mon tieng anhDoc thu   ren ky nang lam bai trac nghiem mon tieng anh
Doc thu ren ky nang lam bai trac nghiem mon tieng anhmcbooksjsc
 
Tabulacion de-datos (1)
Tabulacion de-datos (1)Tabulacion de-datos (1)
Tabulacion de-datos (1)DanyLopez29
 
Diagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguezDiagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguezDanyLopez29
 

Destacado (8)

Communication practice on board
Communication practice on boardCommunication practice on board
Communication practice on board
 
VALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALESVALORES CÍVICOS Y SOCIALES
VALORES CÍVICOS Y SOCIALES
 
Wareg assembly alberto biancardi, wareg
Wareg assembly   alberto biancardi, waregWareg assembly   alberto biancardi, wareg
Wareg assembly alberto biancardi, wareg
 
Album cover conventions
Album cover conventionsAlbum cover conventions
Album cover conventions
 
Win experience on online database teun bastemeijer, win
Win experience on online database   teun bastemeijer, winWin experience on online database   teun bastemeijer, win
Win experience on online database teun bastemeijer, win
 
Doc thu ren ky nang lam bai trac nghiem mon tieng anh
Doc thu   ren ky nang lam bai trac nghiem mon tieng anhDoc thu   ren ky nang lam bai trac nghiem mon tieng anh
Doc thu ren ky nang lam bai trac nghiem mon tieng anh
 
Tabulacion de-datos (1)
Tabulacion de-datos (1)Tabulacion de-datos (1)
Tabulacion de-datos (1)
 
Diagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguezDiagnostic by-fancisco-rodriguez
Diagnostic by-fancisco-rodriguez
 

Similar a BigData 101 / Cursillo (Parte3)

BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)andres hurtado
 
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdfAprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdfGerard Alba
 
CIITEC Fundamentos de Deep Learning.pptx
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptxicebeam7
 
Clean code 10-11
Clean code 10-11Clean code 10-11
Clean code 10-11540deg
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdfhenry913654
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosDavidAcurio2
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosValeria Gavilanes
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOsystemprisoners
 
Unidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxfernandalemus15
 
Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Eduardo Castro
 
¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfato¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfatoRubén Bernárdez
 
Manual análisis de algoritmos
Manual análisis de algoritmosManual análisis de algoritmos
Manual análisis de algoritmosBeat Winehouse
 

Similar a BigData 101 / Cursillo (Parte3) (20)

BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)BigData 101 / Cursillo (Parte2)
BigData 101 / Cursillo (Parte2)
 
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdfAprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
Aprendizaje automático I - Tema 5 Aprendizaje Automático No-Supervisado.pdf
 
Clase 2
Clase 2Clase 2
Clase 2
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Ejemplo de presentacion
Ejemplo de presentacionEjemplo de presentacion
Ejemplo de presentacion
 
CIITEC Fundamentos de Deep Learning.pptx
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptx
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
Clean code 10-11
Clean code 10-11Clean code 10-11
Clean code 10-11
 
Para el producto final de curso
Para el producto final de cursoPara el producto final de curso
Para el producto final de curso
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datos
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
 
Unidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptx
 
Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfato¿A qué huele tu código? Afinando nuestro olfato
¿A qué huele tu código? Afinando nuestro olfato
 
Manual analisis-de-algoritmos
Manual analisis-de-algoritmosManual analisis-de-algoritmos
Manual analisis-de-algoritmos
 
Manual análisis de algoritmos
Manual análisis de algoritmosManual análisis de algoritmos
Manual análisis de algoritmos
 

Más de andres hurtado

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_courseraandres hurtado
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aiandres hurtado
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoandres hurtado
 
BigData 101 / Cursillo (Parte5)
 BigData 101 / Cursillo (Parte5) BigData 101 / Cursillo (Parte5)
BigData 101 / Cursillo (Parte5)andres hurtado
 
BigData 101 / Cursillo (Parte4)
 BigData 101 / Cursillo (Parte4) BigData 101 / Cursillo (Parte4)
BigData 101 / Cursillo (Parte4)andres hurtado
 
BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)andres hurtado
 
BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)andres hurtado
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystemsandres hurtado
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)andres hurtado
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introductionandres hurtado
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06andres hurtado
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05andres hurtado
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04andres hurtado
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02andres hurtado
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01andres hurtado
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agendaandres hurtado
 

Más de andres hurtado (20)

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_coursera
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware ai
 
estimacion
estimacionestimacion
estimacion
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologico
 
Docker 101
Docker 101Docker 101
Docker 101
 
DevOps 101
DevOps 101DevOps 101
DevOps 101
 
Git 101
Git 101Git 101
Git 101
 
BigData 101 / Cursillo (Parte5)
 BigData 101 / Cursillo (Parte5) BigData 101 / Cursillo (Parte5)
BigData 101 / Cursillo (Parte5)
 
BigData 101 / Cursillo (Parte4)
 BigData 101 / Cursillo (Parte4) BigData 101 / Cursillo (Parte4)
BigData 101 / Cursillo (Parte4)
 
BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)
 
BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystems
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agenda
 

Último

Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 

Último (10)

Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 

BigData 101 / Cursillo (Parte3)

  • 1. 1
  • 2. MACHINE LEARNING • Las personas son eficientes buscando patrones, pero muy ineficientes en el procesamiento rápido • La idea es usar técnicas que permitan computacionalmente realizar esto. • Pero se debe conocer el comportamiento de lo que se busca (una clasificación, un dato atípico?, un clustering?) Es diferente a DATA MINING: ésta se ocupa de desenterrar en sí las relaciones entre datos; MachineLearning requiere conocer la tarea que se va a llevar a cabo. REFERENCIAS> • https://dzone.com/articles/understanding-machine-learning 2
  • 3. CLASIFICACION ALGORITMOS (SEGÚN ATRIBUTOS) • SUPERVISED LEARNING: inferir una función de salida dados unos datos de entrenamiento que tienen la señal de salida esperada (“labeled”)  CLASSIFICATION • UNSUPERVISED LEARNING: no se dan datos de entrada; sólo se quiere realizar una organización en diferentes grupos llamados clusters. La data en cada grupo comparte propiedades similares  CLUSTERING • SEMISUPERVISED LEARNING: dada una falencia de pocos datos con “label” para entrenamiento, se usa aprendizaje no supervisado para incluir nuevas muestras a cada clase preexistente y posteriormente se usa aprendizaje supervisado para clasificar. • REINFORCEMENT: Aprender a reaccionar de determinado ambiente CLASIFICACION ALGORITMOS (SEGÚN OBJETIVO DEL PROBLEMA) • CLASIFICACIÓN • CLUSTERING • OUTLIER DETECTION: Permiten identificar datos significativamente diferentes o inconsistentes con los demás del dataset. • FILTERING: buscar ítems relevantes de un pool de ítems. Normalmente se usa el 3
  • 4. histórico del comportamiento de un usuario para ello. 3
  • 5. CLASSIFICATION-EJEMPLOS • Si un aplicante a crédito debe ser aceptado o rechazado • Si una huella pertenece o no a un sospechoso • Si una persona tiene una enfermedad o no dadosdeterminados registros fotográficos. 4
  • 6. CLUSTERING-EJEMPLOS • El banco que quiere vender unos nuevos productos financieros a clientes basados en su perfil. • Clasificación de documentos automática al radicar 5
  • 7. OUTLIER DETECTION-EJEMPLOS • Detección de fraude • Diagnóstico médico (virus que no responden a medicamentos) • Jugadores con drogas 6
  • 8. FILTERING / COLLABORATIVE, Es el mecanismo de filtrado más aplicado. Viene de la idea que si alguien ha visto que otro compra determinado producto de alguien similar, estará más inclinado a comprar ese otro producto. Se usa para sistemas de recomendación (cross-selling opportunities) EJEMPLOS Netflix Amazon 7
  • 9. 8
  • 10. LINEAR REGRESSION • Busca la relación entre variables independientes y una dependiente dentro del dataset. • Asume una relación lineal pero se puede extrapolar • Asume un grado de causación. • Normalmente se hace primero la correlación y posteriormente una regresión. • Usa el método de mínimos cuadrados para establecer la línea de mejor ajuste OTROS EJEMPLoS • Edx-mit: Moneyball para la MBA • Cuánto stock de helados necesito según la temperatura • Ver el comportamiento del consumo de combustible según los autos para buscar relaciones de causalidad o probar hipotesis • https://github.com/andhdo/coursera_dsc_07_regmods_project/blob/mast er/RegressionModels_MotorTrendCars.pdf [ejemplo prueba de hipotesis] • Hay otra pagina de carros más actual; la referencian en un dataset llamado mpg, que se traen de la pagina http://fueleconomy.gov/ 9
  • 11. DECISION TREES • La idea es construir una estructura de clasificación de forma tal que cada nodo indique una decisión y mediante una estrategia greedy (voráz), se vaya seleccionando aquel o aquellos atributos que permiten dividir el dataset completo en una categoría de clasificación. • La idea es balancear el tamaño del árbol de forma tal que no quede atado solo a los datos que aprendió sino que pueda inferir. Esto es relacionado con lo que se denomina overfitting (se alusta mucho a los samples dados pero después le queda difícil predecir nuevos samples). También lo denominan el principio OCCAM’s RAZOR (entre hipótesis que compiten, la que menos asume cosas es la que se debe elegir: la más simple explicación – William Occam, siglo 13.) • Por esto es común usar algoritmos de poda de arboles dentro del método de aprendizaje o usando parámetros para que el árbol no crezca más allá de determinado límite. • La estructura es diciente para un usuario de negocio, por lo cual se pueden explicar algunos pasos de decisión y validar con el negocio su lógica. LAB • Hay un ejemplo interesante en la pagina de kaggle, se llama sobreviviente del 10
  • 12. titanic, en el cual dejan un dataset de personas del titanic, y hay que predecir si determinada persona se salbava o no de morir (http://trevorstephens.com/kaggle- titanic-tutorial/r-part-1-booting-up/) • p0303_tree_titanic.r OTROS EJEMPLOS • Hay un dataset de actividades medidas con un Smartphone y la idea es detectar el tipo de actividad que se hace (https://www.r-bloggers.com/samsung-phone-data- analysis-project/). • Edx-mit: Se pueden predecir rangos de precios de inmuebles dados determinados factores hedónicos (Boston Housing Data). • Se pueden dictar algunos atributos de referencia para otorgar o no créditos a determinado perfil de usuarios. • Se puede predecir el nivel de perdida de clientes con un árbol de decisión ( http://apuntes-r.blogspot.com.co/2014/09/predecir-perdida-de-clientes-con- arbol.html ) 10
  • 13. Aunque es una vieja técnica sigue siendo aplicable para algunos casos de clustering. La idea es agrupar elementos de forma tal que sean similares unos con otros. Para que el algoritmo funcione se requiere una nocion de distancia y una forma de agrupar elementos unos con otros. El algoritmo comienza con una asignación a un cluster. Posteriormetne hay un paso de reasignación. La reasignación se hace calculando la distancia al centroide de cada uno de sus miembros. REFERENCIAS • [Ref0: el mas clarito](https://www.youtube.com/watch?v=_aWzGGNrcic) • [Ref1: a lo ultimo tiene las ilustraciones de los pasos](https://www.youtube.com/watch?v=_aWzGGNrcic) • [Ref2: uno con cartas](https://www.youtube.com/watch?v=zHbxbb2ye3E) Hoy en día para clustering se usan también lso dendogramas. 11
  • 14. A PRIORI Es un algoritmo de algo denominado pattern identification; la idea es identificar patrones frecuentes con el fin de recomendarlos a determinados usuarios. Tambien esta técnica se denomina marketBasket. No sólo se usa en retail para ver productos asociados sino que también puede aplicarse por ejemplo a condiciones medicas entre síntomas del paciete y la respectiva droga a usar en el caso. El resultado de este algoritmo es producir reglas que relacionen ítems, por ejemplo {milk,eggs}  {bread:pan} Sin embargo este conjunto de reglas debe ser pasado hacia un experto porque no necesariamente todas sirven. El algoritmo basa su construcción en que para que un ítem sea frecuente, los ítems que la componen también deben ser frecuentes en la regla, y es lo que se conoce como “soporte”. REFERENCIAS • Una buena introducción se encuentra en kdnuggets: http://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm- 12