Técnicas de análisis: Clustering

TÉCNICAS DE ANÁLISIS: CLUSTERING
raineropenschool.com
Rainer Open School – Big Data

INTRODUCCIÓN
El clustering, o agrupamiento, es un conjunto
de técnicas de análisis no supervisado que
intenta identificar correlaciones entre
subconjuntos de datos.
Agrupaciones de elementos
Fuente: W. Grabie

APLICACIONES
El análisis de subconjuntos es de gran utilidad
en diversos campos, como la economía, la
biología o el marketing. ¿Cuál es, por ejemplo,
la segmentación adecuada de un mercado?
Consumer Electronic Show 2010
Fuente: LG

CARACTERÍSTICAS
 Son técnicas de análisis exploratorio, sirven
para acotar los intervalos de análisis posterior
 No hay predicciones; el analista no sabe cuál
va a ser el resultado ni puede forzarlo
 Tampoco hay intervención del analista, o ésta
se reduce a lo mínimo
 Las conclusiones se basan en las propiedades
del conjunto de datos

K-MEANS
Dada una colección de objetos con atributos
mensurables, k-means es una técnica que,
para un valor de k, identifica los elementos
más próximos a los k subconjuntos.
Ejemplo de análisis de k-means
Fuente: Wikipedia

CENTROIDE
Un centroide es el punto que corresponde al
valor medio de todos los elementos de un
conjunto, semejante al centro de masas de un
sólido. No tiene que ser un punto real.
Centroide de un triángulo
Fuente: Lfahlberg

CÁLCULO DEL CENTROIDE
𝑥 𝑐, 𝑦𝑐 =
𝑥𝑖
𝑚
𝑖=1
𝑚
,
𝑦𝑖
𝑚
𝑖=1
𝑚
El centro de masas, o centroide, es el valor
medio de todos los valores de las coordenadas
x e y de los puntos que forman el conjunto
analizado.

ESQUEMA DE APLICACIÓN DEL MÉTODO
1. Elige un valor de k y elige “k” centroides
arbitrarios
2. Calcula la distancia de cada punto al
centroide y asígnalo al más cercano.
3. Calcula el centroide, o centro de masas, de los
subconjuntos así definidos.
4. Repetir los puntos 2 y 3 hasta que las
soluciones converjan.

1. ELIJE “K” CENTROIDES ARBITRARIOS
Hagamos un ejemplo en dos dimensiones. Los
puntos del conjunto inicial están marcados en
gris y elegimos tres centroides arbitrarios, que
no tienen que pertenecer al conjunto.
Secuencia de resolución de K-Means
Fuente: Weston Pace

2. CALCULA LA DISTANCIA DE CADA PUNTO
Calculamos la distancia de todos los puntos a
todos los centroides en el eje cartesiano, con
d= (𝑥1 − 𝑥2)2+(𝑦1 − 𝑦2)2, y asignamos cada
elemento al centroide más cercano.
Fuente: Weston Pace

3. CALCULAR LOS CENTROIDES
Cada conjunto así definido tiene su propio
centroide. En el paso anterior no lo hemos
calculado, sólo hemos identificado puntos
cercanos a los arbitrarios.

4. REPETIR LOS PASOS 2 Y 3
Llegará un momento en que la distancia al
centroide actual y el del conjunto serán la
misma, u oscilarán en torno a un valor similar.
En ese momento, tenemos la respuesta.
Fuente: Weston Pace

GENERALIZACIÓN A N DIMENSIONES
Cálculo de distancias:
d(𝑝𝑖, 𝑞)= (𝑝𝑖𝑗 − 𝑞 𝑗)2𝑛
𝑗=1
Cálculo de centroides:
𝑞1, 𝑞2 … 𝑞 𝑛 =
𝑝𝑖1
𝑚
𝑖=1
𝑚
,
𝑝𝑖2
𝑚
𝑖=1
𝑚
, …
𝑝𝑖𝑛
𝑚
𝑖=1
𝑚

MÉTODO ELBOW PARA DETERMINAR K
0
10
20
30
40
k=1 k=2 k=3 k=4 k=5 k=6
¿Cómo sabemos que un número mayor de
agrupaciones no supondría una mejor
segmentación? Cuando alcanzamos un valor
de k en el que la reducción de distancia al
centroide ya no es significativa.
Evolución de la distancia media al centroide en
función del número de agrupaciones
Fuente: El autor

DEBILIDADES DEL MÉTODO
 Computacionalmente muy intensivo (NP-Hard).
 Aunque el resultado es analítico (objetivo), la
elección de parámetros es arbitraria (subjetiva)
 ¿Qué número k de agrupaciones elegimos?
 ¿Qué propiedades de cada objeto elegimos?
 ¿Qué escala aplicamos a los parámetros?
 ¿Cuántos parámetros se utilizan en el análisis?

CONCLUSIONES
 El agrupamiento de objetos, o clustering, es una
técnica de análisis exploratorio, no supervisada,
para la segmentación e identificación de patrones
en conjuntos de datos.
 K-Means es un método computacionalmente
intensivo de clustering.
 Se basa en el cálculo iterativo de centroides en
“k” subconjuntos de elementos.
 Aunque se basa en cálculos objetivos, depende
mucho de los parámetros subjetivo de inicio.

SI QUIERES APRENDER MÁS…
Sitio Curso Enlace
coursera.com Stanford – Machine Learning (78) http://bit.ly/1VlufiS
ocw.mit.edu Introduction to CS (05) http://bit.ly/1VlusCK
Ojo, éste es “durillo”, pero interesante

LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 4, por lo que se
refiere a esta presenta-
ción

SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
 Sistemas de información (IT).
 Gestión de proyectos (PM).
 Aseguramiento de la calidad (QA).
 Gestión de inmuebles (FM).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com

OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras del
mismo autor en la colección
“Conceptos”, disponible en
Amazon:
http://amzn.to/1Rp8yM9
También puedes seguir las
novedades y convocatorias de
nuevos seminarios, cursillos y
presentaciones en

Técnicas de análisis: Clustering

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (9)

Similar a Técnicas de análisis: Clustering

Similar a Técnicas de análisis: Clustering (20)

Último

Último (20)

Técnicas de análisis: Clustering