SlideShare una empresa de Scribd logo
1 de 20
Descargar para leer sin conexión
TÉCNICAS DE ANÁLISIS: CLUSTERING
raineropenschool.com
Rainer Open School – Big Data
INTRODUCCIÓN
El clustering, o agrupamiento, es un conjunto
de técnicas de análisis no supervisado que
intenta identificar correlaciones entre
subconjuntos de datos.
raineropenschool.com
Agrupaciones de elementos
Fuente: W. Grabie
APLICACIONES
El análisis de subconjuntos es de gran utilidad
en diversos campos, como la economía, la
biología o el marketing. ¿Cuál es, por ejemplo,
la segmentación adecuada de un mercado?
Consumer Electronic Show 2010
Fuente: LG
raineropenschool.com
CARACTERÍSTICAS
 Son técnicas de análisis exploratorio, sirven
para acotar los intervalos de análisis posterior
 No hay predicciones; el analista no sabe cuál
va a ser el resultado ni puede forzarlo
 Tampoco hay intervención del analista, o ésta
se reduce a lo mínimo
 Las conclusiones se basan en las propiedades
del conjunto de datos
raineropenschool.com
K-MEANS
Dada una colección de objetos con atributos
mensurables, k-means es una técnica que,
para un valor de k, identifica los elementos
más próximos a los k subconjuntos.
Ejemplo de análisis de k-means
Fuente: Wikipedia
raineropenschool.com
CENTROIDE
Un centroide es el punto que corresponde al
valor medio de todos los elementos de un
conjunto, semejante al centro de masas de un
sólido. No tiene que ser un punto real.
Centroide de un triángulo
Fuente: Lfahlberg
raineropenschool.com
CÁLCULO DEL CENTROIDE
𝑥 𝑐, 𝑦𝑐 =
𝑥𝑖
𝑚
𝑖=1
𝑚
,
𝑦𝑖
𝑚
𝑖=1
𝑚
El centro de masas, o centroide, es el valor
medio de todos los valores de las coordenadas
x e y de los puntos que forman el conjunto
analizado.
raineropenschool.com
ESQUEMA DE APLICACIÓN DEL MÉTODO
1. Elige un valor de k y elige “k” centroides
arbitrarios
2. Calcula la distancia de cada punto al
centroide y asígnalo al más cercano.
3. Calcula el centroide, o centro de masas, de los
subconjuntos así definidos.
4. Repetir los puntos 2 y 3 hasta que las
soluciones converjan.
raineropenschool.com
1. ELIJE “K” CENTROIDES ARBITRARIOS
Hagamos un ejemplo en dos dimensiones. Los
puntos del conjunto inicial están marcados en
gris y elegimos tres centroides arbitrarios, que
no tienen que pertenecer al conjunto.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
2. CALCULA LA DISTANCIA DE CADA PUNTO
Calculamos la distancia de todos los puntos a
todos los centroides en el eje cartesiano, con
d= (𝑥1 − 𝑥2)2+(𝑦1 − 𝑦2)2, y asignamos cada
elemento al centroide más cercano.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
3. CALCULAR LOS CENTROIDES
Cada conjunto así definido tiene su propio
centroide. En el paso anterior no lo hemos
calculado, sólo hemos identificado puntos
cercanos a los arbitrarios.
raineropenschool.com
4. REPETIR LOS PASOS 2 Y 3
Llegará un momento en que la distancia al
centroide actual y el del conjunto serán la
misma, u oscilarán en torno a un valor similar.
En ese momento, tenemos la respuesta.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
GENERALIZACIÓN A N DIMENSIONES
Cálculo de distancias:
d(𝑝𝑖, 𝑞)= (𝑝𝑖𝑗 − 𝑞 𝑗)2𝑛
𝑗=1
Cálculo de centroides:
𝑞1, 𝑞2 … 𝑞 𝑛 =
𝑝𝑖1
𝑚
𝑖=1
𝑚
,
𝑝𝑖2
𝑚
𝑖=1
𝑚
, …
𝑝𝑖𝑛
𝑚
𝑖=1
𝑚
raineropenschool.com
MÉTODO ELBOW PARA DETERMINAR K
0
10
20
30
40
k=1 k=2 k=3 k=4 k=5 k=6
¿Cómo sabemos que un número mayor de
agrupaciones no supondría una mejor
segmentación? Cuando alcanzamos un valor
de k en el que la reducción de distancia al
centroide ya no es significativa.
Evolución de la distancia media al centroide en
función del número de agrupaciones
Fuente: El autor
raineropenschool.com
DEBILIDADES DEL MÉTODO
 Computacionalmente muy intensivo (NP-Hard).
 Aunque el resultado es analítico (objetivo), la
elección de parámetros es arbitraria (subjetiva)
 ¿Qué número k de agrupaciones elegimos?
 ¿Qué propiedades de cada objeto elegimos?
 ¿Qué escala aplicamos a los parámetros?
 ¿Cuántos parámetros se utilizan en el análisis?
raineropenschool.com
CONCLUSIONES
 El agrupamiento de objetos, o clustering, es una
técnica de análisis exploratorio, no supervisada,
para la segmentación e identificación de patrones
en conjuntos de datos.
 K-Means es un método computacionalmente
intensivo de clustering.
 Se basa en el cálculo iterativo de centroides en
“k” subconjuntos de elementos.
 Aunque se basa en cálculos objetivos, depende
mucho de los parámetros subjetivo de inicio.
raineropenschool.com
SI QUIERES APRENDER MÁS…
Sitio Curso Enlace
coursera.com Stanford – Machine Learning (78) http://bit.ly/1VlufiS
ocw.mit.edu Introduction to CS (05) http://bit.ly/1VlusCK
Ojo, éste es “durillo”, pero interesante
raineropenschool.com
LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 4, por lo que se
refiere a esta presenta-
ción
raineropenschool.com
SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
 Sistemas de información (IT).
 Gestión de proyectos (PM).
 Aseguramiento de la calidad (QA).
 Gestión de inmuebles (FM).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com
OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras del
mismo autor en la colección
“Conceptos”, disponible en
Amazon:
http://amzn.to/1Rp8yM9
También puedes seguir las
novedades y convocatorias de
nuevos seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com

Más contenido relacionado

La actualidad más candente

capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodosDiskCom - Negocios
 
Modelo matematico
Modelo matematicoModelo matematico
Modelo matematicoIvanMora35
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Jose
 
Inteligencia artificial unidad iii
Inteligencia artificial unidad iiiInteligencia artificial unidad iii
Inteligencia artificial unidad iiiGuadalupe Lopez
 
Reglas de producción
Reglas de producciónReglas de producción
Reglas de producciónsolesito1237
 
Introducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos MatemáticosIntroducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos MatemáticosEdwood Ocasio
 
Informe Pronósticos en los negocios
Informe Pronósticos en los negociosInforme Pronósticos en los negocios
Informe Pronósticos en los negociosWilliam Ochoa
 
Introducción a la econometría
Introducción a la econometríaIntroducción a la econometría
Introducción a la econometríaoscarvb
 
Simulacion de sistemas
Simulacion de sistemasSimulacion de sistemas
Simulacion de sistemasCristofer QC
 
Resumen de simulacion y modelaje
Resumen de simulacion y modelajeResumen de simulacion y modelaje
Resumen de simulacion y modelajealberto vallejos
 
Unidad i simulacion
Unidad i simulacionUnidad i simulacion
Unidad i simulacionneferh22
 
Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.Roberto Dominguez
 
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimicaUso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimicaYazmin Mendoza
 

La actualidad más candente (20)

Presentacion mod. mate.
Presentacion mod. mate.Presentacion mod. mate.
Presentacion mod. mate.
 
capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodos
 
Metodo d inferencia estadistica
Metodo d inferencia estadisticaMetodo d inferencia estadistica
Metodo d inferencia estadistica
 
Modelo matematico
Modelo matematicoModelo matematico
Modelo matematico
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación
 
Inteligencia artificial unidad iii
Inteligencia artificial unidad iiiInteligencia artificial unidad iii
Inteligencia artificial unidad iii
 
Reglas de producción
Reglas de producciónReglas de producción
Reglas de producción
 
Introducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos MatemáticosIntroducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos Matemáticos
 
Informe Pronósticos en los negocios
Informe Pronósticos en los negociosInforme Pronósticos en los negocios
Informe Pronósticos en los negocios
 
Unidad III
Unidad IIIUnidad III
Unidad III
 
Estadística: Regresiones Lineales Múltiples
Estadística: Regresiones Lineales MúltiplesEstadística: Regresiones Lineales Múltiples
Estadística: Regresiones Lineales Múltiples
 
Introducción a la econometría
Introducción a la econometríaIntroducción a la econometría
Introducción a la econometría
 
Simulacion de sistemas
Simulacion de sistemasSimulacion de sistemas
Simulacion de sistemas
 
Resumen de simulacion y modelaje
Resumen de simulacion y modelajeResumen de simulacion y modelaje
Resumen de simulacion y modelaje
 
Modelamiento openc 2015
Modelamiento openc 2015Modelamiento openc 2015
Modelamiento openc 2015
 
Unidad i simulacion
Unidad i simulacionUnidad i simulacion
Unidad i simulacion
 
Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.
 
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimicaUso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimica
 
Trabajo de factorial
Trabajo de factorialTrabajo de factorial
Trabajo de factorial
 
Etapas simulacion
Etapas simulacionEtapas simulacion
Etapas simulacion
 

Destacado

El ciclo de proyecto en Big Data
El ciclo de proyecto en Big DataEl ciclo de proyecto en Big Data
El ciclo de proyecto en Big DataRafael Morales
 
Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología clusterRafael Morales
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataRafael Morales
 
Implantación del Sprint zero
Implantación del Sprint zeroImplantación del Sprint zero
Implantación del Sprint zeroRafael Morales
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideSharePedro Bermudez Talavera
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShareSlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShareSlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShareSlideShare
 

Destacado (9)

El ciclo de proyecto en Big Data
El ciclo de proyecto en Big DataEl ciclo de proyecto en Big Data
El ciclo de proyecto en Big Data
 
Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología cluster
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Personal Kanban
Personal KanbanPersonal Kanban
Personal Kanban
 
Implantación del Sprint zero
Implantación del Sprint zeroImplantación del Sprint zero
Implantación del Sprint zero
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShare
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 

Similar a Técnicas de análisis: Clustering

Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdfAprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdfGerard Alba
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquicoguest265dfe86
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquicoguest83cad74
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1vinod
 
estadistica inferencial actividad 1
estadistica inferencial actividad 1 estadistica inferencial actividad 1
estadistica inferencial actividad 1 ArielMartnez22
 
Trabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptxTrabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptxleifalopezcastillo21
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experienciasDiego Gomez
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicionStanley Arias
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-centralCarlos Franco
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicionJuanita A A
 
Clustering K-Means
Clustering K-MeansClustering K-Means
Clustering K-MeansRocio Chavez
 
Métodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptxMétodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptxLaalpacaARoxhzeeraFl
 
primera sesión- bases-estadística descriptiva-estadística inferencial.ppt
primera sesión- bases-estadística descriptiva-estadística inferencial.pptprimera sesión- bases-estadística descriptiva-estadística inferencial.ppt
primera sesión- bases-estadística descriptiva-estadística inferencial.ppttonyREZCOBRoOke
 

Similar a Técnicas de análisis: Clustering (20)

Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdfAprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Modulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomiaModulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomia
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
 
estadistica inferencial actividad 1
estadistica inferencial actividad 1 estadistica inferencial actividad 1
estadistica inferencial actividad 1
 
Trabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptxTrabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptx
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experiencias
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicion
 
El algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datosEl algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datos
 
El algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datosEl algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datos
 
Muestreo.ppt
Muestreo.pptMuestreo.ppt
Muestreo.ppt
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-central
 
Taller de derive
Taller de deriveTaller de derive
Taller de derive
 
Medidas descriptivas sesion 6
Medidas descriptivas sesion 6Medidas descriptivas sesion 6
Medidas descriptivas sesion 6
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicion
 
Clustering K-Means
Clustering K-MeansClustering K-Means
Clustering K-Means
 
Métodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptxMétodos cuantitativos_2020_2 (2).pptx
Métodos cuantitativos_2020_2 (2).pptx
 
primera sesión- bases-estadística descriptiva-estadística inferencial.ppt
primera sesión- bases-estadística descriptiva-estadística inferencial.pptprimera sesión- bases-estadística descriptiva-estadística inferencial.ppt
primera sesión- bases-estadística descriptiva-estadística inferencial.ppt
 

Último

Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 

Último (20)

Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 

Técnicas de análisis: Clustering

  • 1. TÉCNICAS DE ANÁLISIS: CLUSTERING raineropenschool.com Rainer Open School – Big Data
  • 2. INTRODUCCIÓN El clustering, o agrupamiento, es un conjunto de técnicas de análisis no supervisado que intenta identificar correlaciones entre subconjuntos de datos. raineropenschool.com Agrupaciones de elementos Fuente: W. Grabie
  • 3. APLICACIONES El análisis de subconjuntos es de gran utilidad en diversos campos, como la economía, la biología o el marketing. ¿Cuál es, por ejemplo, la segmentación adecuada de un mercado? Consumer Electronic Show 2010 Fuente: LG raineropenschool.com
  • 4. CARACTERÍSTICAS  Son técnicas de análisis exploratorio, sirven para acotar los intervalos de análisis posterior  No hay predicciones; el analista no sabe cuál va a ser el resultado ni puede forzarlo  Tampoco hay intervención del analista, o ésta se reduce a lo mínimo  Las conclusiones se basan en las propiedades del conjunto de datos raineropenschool.com
  • 5. K-MEANS Dada una colección de objetos con atributos mensurables, k-means es una técnica que, para un valor de k, identifica los elementos más próximos a los k subconjuntos. Ejemplo de análisis de k-means Fuente: Wikipedia raineropenschool.com
  • 6. CENTROIDE Un centroide es el punto que corresponde al valor medio de todos los elementos de un conjunto, semejante al centro de masas de un sólido. No tiene que ser un punto real. Centroide de un triángulo Fuente: Lfahlberg raineropenschool.com
  • 7. CÁLCULO DEL CENTROIDE 𝑥 𝑐, 𝑦𝑐 = 𝑥𝑖 𝑚 𝑖=1 𝑚 , 𝑦𝑖 𝑚 𝑖=1 𝑚 El centro de masas, o centroide, es el valor medio de todos los valores de las coordenadas x e y de los puntos que forman el conjunto analizado. raineropenschool.com
  • 8. ESQUEMA DE APLICACIÓN DEL MÉTODO 1. Elige un valor de k y elige “k” centroides arbitrarios 2. Calcula la distancia de cada punto al centroide y asígnalo al más cercano. 3. Calcula el centroide, o centro de masas, de los subconjuntos así definidos. 4. Repetir los puntos 2 y 3 hasta que las soluciones converjan. raineropenschool.com
  • 9. 1. ELIJE “K” CENTROIDES ARBITRARIOS Hagamos un ejemplo en dos dimensiones. Los puntos del conjunto inicial están marcados en gris y elegimos tres centroides arbitrarios, que no tienen que pertenecer al conjunto. Secuencia de resolución de K-Means Fuente: Weston Pace raineropenschool.com
  • 10. 2. CALCULA LA DISTANCIA DE CADA PUNTO Calculamos la distancia de todos los puntos a todos los centroides en el eje cartesiano, con d= (𝑥1 − 𝑥2)2+(𝑦1 − 𝑦2)2, y asignamos cada elemento al centroide más cercano. Secuencia de resolución de K-Means Fuente: Weston Pace raineropenschool.com
  • 11. 3. CALCULAR LOS CENTROIDES Cada conjunto así definido tiene su propio centroide. En el paso anterior no lo hemos calculado, sólo hemos identificado puntos cercanos a los arbitrarios. raineropenschool.com
  • 12. 4. REPETIR LOS PASOS 2 Y 3 Llegará un momento en que la distancia al centroide actual y el del conjunto serán la misma, u oscilarán en torno a un valor similar. En ese momento, tenemos la respuesta. Secuencia de resolución de K-Means Fuente: Weston Pace raineropenschool.com
  • 13. GENERALIZACIÓN A N DIMENSIONES Cálculo de distancias: d(𝑝𝑖, 𝑞)= (𝑝𝑖𝑗 − 𝑞 𝑗)2𝑛 𝑗=1 Cálculo de centroides: 𝑞1, 𝑞2 … 𝑞 𝑛 = 𝑝𝑖1 𝑚 𝑖=1 𝑚 , 𝑝𝑖2 𝑚 𝑖=1 𝑚 , … 𝑝𝑖𝑛 𝑚 𝑖=1 𝑚 raineropenschool.com
  • 14. MÉTODO ELBOW PARA DETERMINAR K 0 10 20 30 40 k=1 k=2 k=3 k=4 k=5 k=6 ¿Cómo sabemos que un número mayor de agrupaciones no supondría una mejor segmentación? Cuando alcanzamos un valor de k en el que la reducción de distancia al centroide ya no es significativa. Evolución de la distancia media al centroide en función del número de agrupaciones Fuente: El autor raineropenschool.com
  • 15. DEBILIDADES DEL MÉTODO  Computacionalmente muy intensivo (NP-Hard).  Aunque el resultado es analítico (objetivo), la elección de parámetros es arbitraria (subjetiva)  ¿Qué número k de agrupaciones elegimos?  ¿Qué propiedades de cada objeto elegimos?  ¿Qué escala aplicamos a los parámetros?  ¿Cuántos parámetros se utilizan en el análisis? raineropenschool.com
  • 16. CONCLUSIONES  El agrupamiento de objetos, o clustering, es una técnica de análisis exploratorio, no supervisada, para la segmentación e identificación de patrones en conjuntos de datos.  K-Means es un método computacionalmente intensivo de clustering.  Se basa en el cálculo iterativo de centroides en “k” subconjuntos de elementos.  Aunque se basa en cálculos objetivos, depende mucho de los parámetros subjetivo de inicio. raineropenschool.com
  • 17. SI QUIERES APRENDER MÁS… Sitio Curso Enlace coursera.com Stanford – Machine Learning (78) http://bit.ly/1VlufiS ocw.mit.edu Introduction to CS (05) http://bit.ly/1VlusCK Ojo, éste es “durillo”, pero interesante raineropenschool.com
  • 18. LECTURAS RECOMENDADAS Data Science & Big Data Statistics EMC Education Services ISBN: 978-1118876138 http://amzn.to/1QTNWH7 Capítulo 4, por lo que se refiere a esta presenta- ción raineropenschool.com
  • 19. SOBRE EL AUTOR Rafael Morales Consultor y formador en  Sistemas de información (IT).  Gestión de proyectos (PM).  Aseguramiento de la calidad (QA).  Gestión de inmuebles (FM). En LinkedIn: http://bit.ly/20Qh0oZ Email: contacto@rafael-morales.com raineropenschool.com
  • 20. OTROS CONTENIDOS Puedes encontrar las notas de esta conferencia y otras del mismo autor en la colección “Conceptos”, disponible en Amazon: http://amzn.to/1Rp8yM9 También puedes seguir las novedades y convocatorias de nuevos seminarios, cursillos y presentaciones en raineropenschool.com raineropenschool.com