SlideShare una empresa de Scribd logo
TÉCNICAS DE ANÁLISIS: CLUSTERING
raineropenschool.com
Rainer Open School – Big Data
INTRODUCCIÓN
El clustering, o agrupamiento, es un conjunto
de técnicas de análisis no supervisado que
intenta identificar correlaciones entre
subconjuntos de datos.
raineropenschool.com
Agrupaciones de elementos
Fuente: W. Grabie
APLICACIONES
El análisis de subconjuntos es de gran utilidad
en diversos campos, como la economía, la
biología o el marketing. ¿Cuál es, por ejemplo,
la segmentación adecuada de un mercado?
Consumer Electronic Show 2010
Fuente: LG
raineropenschool.com
CARACTERÍSTICAS
 Son técnicas de análisis exploratorio, sirven
para acotar los intervalos de análisis posterior
 No hay predicciones; el analista no sabe cuál
va a ser el resultado ni puede forzarlo
 Tampoco hay intervención del analista, o ésta
se reduce a lo mínimo
 Las conclusiones se basan en las propiedades
del conjunto de datos
raineropenschool.com
K-MEANS
Dada una colección de objetos con atributos
mensurables, k-means es una técnica que,
para un valor de k, identifica los elementos
más próximos a los k subconjuntos.
Ejemplo de análisis de k-means
Fuente: Wikipedia
raineropenschool.com
CENTROIDE
Un centroide es el punto que corresponde al
valor medio de todos los elementos de un
conjunto, semejante al centro de masas de un
sólido. No tiene que ser un punto real.
Centroide de un triángulo
Fuente: Lfahlberg
raineropenschool.com
CÁLCULO DEL CENTROIDE
𝑥 𝑐, 𝑦𝑐 =
𝑥𝑖
𝑚
𝑖=1
𝑚
,
𝑦𝑖
𝑚
𝑖=1
𝑚
El centro de masas, o centroide, es el valor
medio de todos los valores de las coordenadas
x e y de los puntos que forman el conjunto
analizado.
raineropenschool.com
ESQUEMA DE APLICACIÓN DEL MÉTODO
1. Elige un valor de k y elige “k” centroides
arbitrarios
2. Calcula la distancia de cada punto al
centroide y asígnalo al más cercano.
3. Calcula el centroide, o centro de masas, de los
subconjuntos así definidos.
4. Repetir los puntos 2 y 3 hasta que las
soluciones converjan.
raineropenschool.com
1. ELIJE “K” CENTROIDES ARBITRARIOS
Hagamos un ejemplo en dos dimensiones. Los
puntos del conjunto inicial están marcados en
gris y elegimos tres centroides arbitrarios, que
no tienen que pertenecer al conjunto.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
2. CALCULA LA DISTANCIA DE CADA PUNTO
Calculamos la distancia de todos los puntos a
todos los centroides en el eje cartesiano, con
d= (𝑥1 − 𝑥2)2+(𝑦1 − 𝑦2)2, y asignamos cada
elemento al centroide más cercano.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
3. CALCULAR LOS CENTROIDES
Cada conjunto así definido tiene su propio
centroide. En el paso anterior no lo hemos
calculado, sólo hemos identificado puntos
cercanos a los arbitrarios.
raineropenschool.com
4. REPETIR LOS PASOS 2 Y 3
Llegará un momento en que la distancia al
centroide actual y el del conjunto serán la
misma, u oscilarán en torno a un valor similar.
En ese momento, tenemos la respuesta.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
GENERALIZACIÓN A N DIMENSIONES
Cálculo de distancias:
d(𝑝𝑖, 𝑞)= (𝑝𝑖𝑗 − 𝑞 𝑗)2𝑛
𝑗=1
Cálculo de centroides:
𝑞1, 𝑞2 … 𝑞 𝑛 =
𝑝𝑖1
𝑚
𝑖=1
𝑚
,
𝑝𝑖2
𝑚
𝑖=1
𝑚
, …
𝑝𝑖𝑛
𝑚
𝑖=1
𝑚
raineropenschool.com
MÉTODO ELBOW PARA DETERMINAR K
0
10
20
30
40
k=1 k=2 k=3 k=4 k=5 k=6
¿Cómo sabemos que un número mayor de
agrupaciones no supondría una mejor
segmentación? Cuando alcanzamos un valor
de k en el que la reducción de distancia al
centroide ya no es significativa.
Evolución de la distancia media al centroide en
función del número de agrupaciones
Fuente: El autor
raineropenschool.com
DEBILIDADES DEL MÉTODO
 Computacionalmente muy intensivo (NP-Hard).
 Aunque el resultado es analítico (objetivo), la
elección de parámetros es arbitraria (subjetiva)
 ¿Qué número k de agrupaciones elegimos?
 ¿Qué propiedades de cada objeto elegimos?
 ¿Qué escala aplicamos a los parámetros?
 ¿Cuántos parámetros se utilizan en el análisis?
raineropenschool.com
CONCLUSIONES
 El agrupamiento de objetos, o clustering, es una
técnica de análisis exploratorio, no supervisada,
para la segmentación e identificación de patrones
en conjuntos de datos.
 K-Means es un método computacionalmente
intensivo de clustering.
 Se basa en el cálculo iterativo de centroides en
“k” subconjuntos de elementos.
 Aunque se basa en cálculos objetivos, depende
mucho de los parámetros subjetivo de inicio.
raineropenschool.com
SI QUIERES APRENDER MÁS…
Sitio Curso Enlace
coursera.com Stanford – Machine Learning (78) http://bit.ly/1VlufiS
ocw.mit.edu Introduction to CS (05) http://bit.ly/1VlusCK
Ojo, éste es “durillo”, pero interesante
raineropenschool.com
LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 4, por lo que se
refiere a esta presenta-
ción
raineropenschool.com
SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
 Sistemas de información (IT).
 Gestión de proyectos (PM).
 Aseguramiento de la calidad (QA).
 Gestión de inmuebles (FM).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com
OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras del
mismo autor en la colección
“Conceptos”, disponible en
Amazon:
http://amzn.to/1Rp8yM9
También puedes seguir las
novedades y convocatorias de
nuevos seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com

Más contenido relacionado

La actualidad más candente

Presentacion mod. mate.
Presentacion mod. mate.Presentacion mod. mate.
Presentacion mod. mate.
ARACELILUSITANDEPIAG
 
capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodos
DiskCom - Negocios
 
Metodo d inferencia estadistica
Metodo d inferencia estadisticaMetodo d inferencia estadistica
Metodo d inferencia estadistica
Carlos fernando Mena Bonilla
 
Modelo matematico
Modelo matematicoModelo matematico
Modelo matematico
IvanMora35
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación
Jose
 
Inteligencia artificial unidad iii
Inteligencia artificial unidad iiiInteligencia artificial unidad iii
Inteligencia artificial unidad iii
Guadalupe Lopez
 
Reglas de producción
Reglas de producciónReglas de producción
Reglas de producción
solesito1237
 
Introducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos MatemáticosIntroducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos Matemáticos
Edwood Ocasio
 
Informe Pronósticos en los negocios
Informe Pronósticos en los negociosInforme Pronósticos en los negocios
Informe Pronósticos en los negocios
William Ochoa
 
Unidad III
Unidad IIIUnidad III
Unidad III
Enid030453
 
Estadística: Regresiones Lineales Múltiples
Estadística: Regresiones Lineales MúltiplesEstadística: Regresiones Lineales Múltiples
Estadística: Regresiones Lineales Múltiples
Luis Fernando Aguas Bucheli
 
Introducción a la econometría
Introducción a la econometríaIntroducción a la econometría
Introducción a la econometría
oscarvb
 
Simulacion de sistemas
Simulacion de sistemasSimulacion de sistemas
Simulacion de sistemas
Cristofer QC
 
Resumen de simulacion y modelaje
Resumen de simulacion y modelajeResumen de simulacion y modelaje
Resumen de simulacion y modelaje
alberto vallejos
 
Modelamiento openc 2015
Modelamiento openc 2015Modelamiento openc 2015
Modelamiento openc 2015
Mis Classes Fastclasses
 
Unidad i simulacion
Unidad i simulacionUnidad i simulacion
Unidad i simulacion
neferh22
 
Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.
Roberto Dominguez
 
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimicaUso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Yazmin Mendoza
 
Trabajo de factorial
Trabajo de factorialTrabajo de factorial
Etapas simulacion
Etapas simulacionEtapas simulacion
Etapas simulacion
Alba Lissette Peguero
 

La actualidad más candente (20)

Presentacion mod. mate.
Presentacion mod. mate.Presentacion mod. mate.
Presentacion mod. mate.
 
capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodos
 
Metodo d inferencia estadistica
Metodo d inferencia estadisticaMetodo d inferencia estadistica
Metodo d inferencia estadistica
 
Modelo matematico
Modelo matematicoModelo matematico
Modelo matematico
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación
 
Inteligencia artificial unidad iii
Inteligencia artificial unidad iiiInteligencia artificial unidad iii
Inteligencia artificial unidad iii
 
Reglas de producción
Reglas de producciónReglas de producción
Reglas de producción
 
Introducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos MatemáticosIntroducción Conceptos Modelos Matemáticos
Introducción Conceptos Modelos Matemáticos
 
Informe Pronósticos en los negocios
Informe Pronósticos en los negociosInforme Pronósticos en los negocios
Informe Pronósticos en los negocios
 
Unidad III
Unidad IIIUnidad III
Unidad III
 
Estadística: Regresiones Lineales Múltiples
Estadística: Regresiones Lineales MúltiplesEstadística: Regresiones Lineales Múltiples
Estadística: Regresiones Lineales Múltiples
 
Introducción a la econometría
Introducción a la econometríaIntroducción a la econometría
Introducción a la econometría
 
Simulacion de sistemas
Simulacion de sistemasSimulacion de sistemas
Simulacion de sistemas
 
Resumen de simulacion y modelaje
Resumen de simulacion y modelajeResumen de simulacion y modelaje
Resumen de simulacion y modelaje
 
Modelamiento openc 2015
Modelamiento openc 2015Modelamiento openc 2015
Modelamiento openc 2015
 
Unidad i simulacion
Unidad i simulacionUnidad i simulacion
Unidad i simulacion
 
Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.Fases de diseño del modelo de simulación.
Fases de diseño del modelo de simulación.
 
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimicaUso de un similudaor de procesos en solucion de problemas de ingenieria quimica
Uso de un similudaor de procesos en solucion de problemas de ingenieria quimica
 
Trabajo de factorial
Trabajo de factorialTrabajo de factorial
Trabajo de factorial
 
Etapas simulacion
Etapas simulacionEtapas simulacion
Etapas simulacion
 

Destacado

El ciclo de proyecto en Big Data
El ciclo de proyecto en Big DataEl ciclo de proyecto en Big Data
El ciclo de proyecto en Big Data
Rafael Morales
 
Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología cluster
Rafael Morales
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
Rafael Morales
 
Personal Kanban
Personal KanbanPersonal Kanban
Personal Kanban
Rafael Morales
 
Implantación del Sprint zero
Implantación del Sprint zeroImplantación del Sprint zero
Implantación del Sprint zero
Rafael Morales
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShare
Pedro Bermudez Talavera
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
SlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShare
SlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
SlideShare
 

Destacado (9)

El ciclo de proyecto en Big Data
El ciclo de proyecto en Big DataEl ciclo de proyecto en Big Data
El ciclo de proyecto en Big Data
 
Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología cluster
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Personal Kanban
Personal KanbanPersonal Kanban
Personal Kanban
 
Implantación del Sprint zero
Implantación del Sprint zeroImplantación del Sprint zero
Implantación del Sprint zero
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShare
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 

Similar a Técnicas de análisis: Clustering

Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdfAprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Gerard Alba
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
guest265dfe86
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
guest83cad74
 
Modulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomiaModulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomia
Escuela Militar de Ingeniería (EMI)
 
01_Método No Supervisado y Aprendizaje K-Means.pptx
01_Método No Supervisado y Aprendizaje K-Means.pptx01_Método No Supervisado y Aprendizaje K-Means.pptx
01_Método No Supervisado y Aprendizaje K-Means.pptx
RafexoMamani
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
vinod
 
estadistica inferencial actividad 1
estadistica inferencial actividad 1 estadistica inferencial actividad 1
estadistica inferencial actividad 1
ArielMartnez22
 
Trabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptxTrabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptx
leifalopezcastillo21
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
Jairo Acosta Solano
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experiencias
Diego Gomez
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicion
Stanley Arias
 
El algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datosEl algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datos
Facultad de Ciencias Económicas - Universidad Nacional de Cuyo
 
El algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datosEl algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datos
Facultad de Ciencias Económicas - Universidad Nacional de Cuyo
 
Muestreo.ppt
Muestreo.pptMuestreo.ppt
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptxMETODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
franciscocuevas2190
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-central
Carlos Franco
 
Taller de derive
Taller de deriveTaller de derive
Taller de derive
ALONSOJESUSpadillafe
 
Medidas descriptivas sesion 6
Medidas descriptivas sesion 6Medidas descriptivas sesion 6
Medidas descriptivas sesion 6
Omar Baltierrez Mendez
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicion
Juanita A A
 
Clustering K-Means
Clustering K-MeansClustering K-Means
Clustering K-Means
Rocio Chavez
 

Similar a Técnicas de análisis: Clustering (20)

Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdfAprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
Aprendizaje automático I - Tema 6 Aprendizaje Automático K-Means.pdf
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Modulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomiaModulo de metodologia y estadistica agronomia
Modulo de metodologia y estadistica agronomia
 
01_Método No Supervisado y Aprendizaje K-Means.pptx
01_Método No Supervisado y Aprendizaje K-Means.pptx01_Método No Supervisado y Aprendizaje K-Means.pptx
01_Método No Supervisado y Aprendizaje K-Means.pptx
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
 
estadistica inferencial actividad 1
estadistica inferencial actividad 1 estadistica inferencial actividad 1
estadistica inferencial actividad 1
 
Trabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptxTrabajo de estadistica 2 prueba de suma de rango.pptx
Trabajo de estadistica 2 prueba de suma de rango.pptx
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Diseño de experiencias
Diseño de experienciasDiseño de experiencias
Diseño de experiencias
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicion
 
El algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datosEl algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datos
 
El algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datosEl algoritmo k nn y su importancia en el modelado de datos
El algoritmo k nn y su importancia en el modelado de datos
 
Muestreo.ppt
Muestreo.pptMuestreo.ppt
Muestreo.ppt
 
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptxMETODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
METODOS ESTADÍSTICOS I, SEGUNDA Y TERCERA clase.pptx
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-central
 
Taller de derive
Taller de deriveTaller de derive
Taller de derive
 
Medidas descriptivas sesion 6
Medidas descriptivas sesion 6Medidas descriptivas sesion 6
Medidas descriptivas sesion 6
 
Nm4 medidas de_posicion
Nm4 medidas de_posicionNm4 medidas de_posicion
Nm4 medidas de_posicion
 
Clustering K-Means
Clustering K-MeansClustering K-Means
Clustering K-Means
 

Último

UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
Mayra798665
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
darkskills2011
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
eliassalascolonia43
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
eleandroth
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
riveroarlett5b
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
YulEz1
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
agustincarranza11
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
mirimerlos5
 
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
hugowagner811
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
IrapuatoCmovamos
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 

Último (15)

UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
 
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 

Técnicas de análisis: Clustering

  • 1. TÉCNICAS DE ANÁLISIS: CLUSTERING raineropenschool.com Rainer Open School – Big Data
  • 2. INTRODUCCIÓN El clustering, o agrupamiento, es un conjunto de técnicas de análisis no supervisado que intenta identificar correlaciones entre subconjuntos de datos. raineropenschool.com Agrupaciones de elementos Fuente: W. Grabie
  • 3. APLICACIONES El análisis de subconjuntos es de gran utilidad en diversos campos, como la economía, la biología o el marketing. ¿Cuál es, por ejemplo, la segmentación adecuada de un mercado? Consumer Electronic Show 2010 Fuente: LG raineropenschool.com
  • 4. CARACTERÍSTICAS  Son técnicas de análisis exploratorio, sirven para acotar los intervalos de análisis posterior  No hay predicciones; el analista no sabe cuál va a ser el resultado ni puede forzarlo  Tampoco hay intervención del analista, o ésta se reduce a lo mínimo  Las conclusiones se basan en las propiedades del conjunto de datos raineropenschool.com
  • 5. K-MEANS Dada una colección de objetos con atributos mensurables, k-means es una técnica que, para un valor de k, identifica los elementos más próximos a los k subconjuntos. Ejemplo de análisis de k-means Fuente: Wikipedia raineropenschool.com
  • 6. CENTROIDE Un centroide es el punto que corresponde al valor medio de todos los elementos de un conjunto, semejante al centro de masas de un sólido. No tiene que ser un punto real. Centroide de un triángulo Fuente: Lfahlberg raineropenschool.com
  • 7. CÁLCULO DEL CENTROIDE 𝑥 𝑐, 𝑦𝑐 = 𝑥𝑖 𝑚 𝑖=1 𝑚 , 𝑦𝑖 𝑚 𝑖=1 𝑚 El centro de masas, o centroide, es el valor medio de todos los valores de las coordenadas x e y de los puntos que forman el conjunto analizado. raineropenschool.com
  • 8. ESQUEMA DE APLICACIÓN DEL MÉTODO 1. Elige un valor de k y elige “k” centroides arbitrarios 2. Calcula la distancia de cada punto al centroide y asígnalo al más cercano. 3. Calcula el centroide, o centro de masas, de los subconjuntos así definidos. 4. Repetir los puntos 2 y 3 hasta que las soluciones converjan. raineropenschool.com
  • 9. 1. ELIJE “K” CENTROIDES ARBITRARIOS Hagamos un ejemplo en dos dimensiones. Los puntos del conjunto inicial están marcados en gris y elegimos tres centroides arbitrarios, que no tienen que pertenecer al conjunto. Secuencia de resolución de K-Means Fuente: Weston Pace raineropenschool.com
  • 10. 2. CALCULA LA DISTANCIA DE CADA PUNTO Calculamos la distancia de todos los puntos a todos los centroides en el eje cartesiano, con d= (𝑥1 − 𝑥2)2+(𝑦1 − 𝑦2)2, y asignamos cada elemento al centroide más cercano. Secuencia de resolución de K-Means Fuente: Weston Pace raineropenschool.com
  • 11. 3. CALCULAR LOS CENTROIDES Cada conjunto así definido tiene su propio centroide. En el paso anterior no lo hemos calculado, sólo hemos identificado puntos cercanos a los arbitrarios. raineropenschool.com
  • 12. 4. REPETIR LOS PASOS 2 Y 3 Llegará un momento en que la distancia al centroide actual y el del conjunto serán la misma, u oscilarán en torno a un valor similar. En ese momento, tenemos la respuesta. Secuencia de resolución de K-Means Fuente: Weston Pace raineropenschool.com
  • 13. GENERALIZACIÓN A N DIMENSIONES Cálculo de distancias: d(𝑝𝑖, 𝑞)= (𝑝𝑖𝑗 − 𝑞 𝑗)2𝑛 𝑗=1 Cálculo de centroides: 𝑞1, 𝑞2 … 𝑞 𝑛 = 𝑝𝑖1 𝑚 𝑖=1 𝑚 , 𝑝𝑖2 𝑚 𝑖=1 𝑚 , … 𝑝𝑖𝑛 𝑚 𝑖=1 𝑚 raineropenschool.com
  • 14. MÉTODO ELBOW PARA DETERMINAR K 0 10 20 30 40 k=1 k=2 k=3 k=4 k=5 k=6 ¿Cómo sabemos que un número mayor de agrupaciones no supondría una mejor segmentación? Cuando alcanzamos un valor de k en el que la reducción de distancia al centroide ya no es significativa. Evolución de la distancia media al centroide en función del número de agrupaciones Fuente: El autor raineropenschool.com
  • 15. DEBILIDADES DEL MÉTODO  Computacionalmente muy intensivo (NP-Hard).  Aunque el resultado es analítico (objetivo), la elección de parámetros es arbitraria (subjetiva)  ¿Qué número k de agrupaciones elegimos?  ¿Qué propiedades de cada objeto elegimos?  ¿Qué escala aplicamos a los parámetros?  ¿Cuántos parámetros se utilizan en el análisis? raineropenschool.com
  • 16. CONCLUSIONES  El agrupamiento de objetos, o clustering, es una técnica de análisis exploratorio, no supervisada, para la segmentación e identificación de patrones en conjuntos de datos.  K-Means es un método computacionalmente intensivo de clustering.  Se basa en el cálculo iterativo de centroides en “k” subconjuntos de elementos.  Aunque se basa en cálculos objetivos, depende mucho de los parámetros subjetivo de inicio. raineropenschool.com
  • 17. SI QUIERES APRENDER MÁS… Sitio Curso Enlace coursera.com Stanford – Machine Learning (78) http://bit.ly/1VlufiS ocw.mit.edu Introduction to CS (05) http://bit.ly/1VlusCK Ojo, éste es “durillo”, pero interesante raineropenschool.com
  • 18. LECTURAS RECOMENDADAS Data Science & Big Data Statistics EMC Education Services ISBN: 978-1118876138 http://amzn.to/1QTNWH7 Capítulo 4, por lo que se refiere a esta presenta- ción raineropenschool.com
  • 19. SOBRE EL AUTOR Rafael Morales Consultor y formador en  Sistemas de información (IT).  Gestión de proyectos (PM).  Aseguramiento de la calidad (QA).  Gestión de inmuebles (FM). En LinkedIn: http://bit.ly/20Qh0oZ Email: contacto@rafael-morales.com raineropenschool.com
  • 20. OTROS CONTENIDOS Puedes encontrar las notas de esta conferencia y otras del mismo autor en la colección “Conceptos”, disponible en Amazon: http://amzn.to/1Rp8yM9 También puedes seguir las novedades y convocatorias de nuevos seminarios, cursillos y presentaciones en raineropenschool.com raineropenschool.com