El análisis de agrupaciones en un conjunto de datos, o clustering, es una de las técnicas exploratorias de mayor utilidad en la comprensión y caracterización de los problemas.
Esta técnica tiene una gran utilidad en determinar el número óptimo de subconjuntos y sus intervalos dentro de grandes volúmenes de información, lo que a su vez tiene aplicación en áreas como el marketing, la astrofísica o la investigación farmacéutica.
En esta presentación, correspondiente al seminario impartido en Mayo de 2016, aprenderás los conceptos básicos de las técnicas de agrupación y el algoritmo más popular: el cálculo de k-means.
2. INTRODUCCIÓN
El clustering, o agrupamiento, es un conjunto
de técnicas de análisis no supervisado que
intenta identificar correlaciones entre
subconjuntos de datos.
raineropenschool.com
Agrupaciones de elementos
Fuente: W. Grabie
3. APLICACIONES
El análisis de subconjuntos es de gran utilidad
en diversos campos, como la economía, la
biología o el marketing. ¿Cuál es, por ejemplo,
la segmentación adecuada de un mercado?
Consumer Electronic Show 2010
Fuente: LG
raineropenschool.com
4. CARACTERÍSTICAS
Son técnicas de análisis exploratorio, sirven
para acotar los intervalos de análisis posterior
No hay predicciones; el analista no sabe cuál
va a ser el resultado ni puede forzarlo
Tampoco hay intervención del analista, o ésta
se reduce a lo mínimo
Las conclusiones se basan en las propiedades
del conjunto de datos
raineropenschool.com
5. K-MEANS
Dada una colección de objetos con atributos
mensurables, k-means es una técnica que,
para un valor de k, identifica los elementos
más próximos a los k subconjuntos.
Ejemplo de análisis de k-means
Fuente: Wikipedia
raineropenschool.com
6. CENTROIDE
Un centroide es el punto que corresponde al
valor medio de todos los elementos de un
conjunto, semejante al centro de masas de un
sólido. No tiene que ser un punto real.
Centroide de un triángulo
Fuente: Lfahlberg
raineropenschool.com
7. CÁLCULO DEL CENTROIDE
𝑥 𝑐, 𝑦𝑐 =
𝑥𝑖
𝑚
𝑖=1
𝑚
,
𝑦𝑖
𝑚
𝑖=1
𝑚
El centro de masas, o centroide, es el valor
medio de todos los valores de las coordenadas
x e y de los puntos que forman el conjunto
analizado.
raineropenschool.com
8. ESQUEMA DE APLICACIÓN DEL MÉTODO
1. Elige un valor de k y elige “k” centroides
arbitrarios
2. Calcula la distancia de cada punto al
centroide y asígnalo al más cercano.
3. Calcula el centroide, o centro de masas, de los
subconjuntos así definidos.
4. Repetir los puntos 2 y 3 hasta que las
soluciones converjan.
raineropenschool.com
9. 1. ELIJE “K” CENTROIDES ARBITRARIOS
Hagamos un ejemplo en dos dimensiones. Los
puntos del conjunto inicial están marcados en
gris y elegimos tres centroides arbitrarios, que
no tienen que pertenecer al conjunto.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
10. 2. CALCULA LA DISTANCIA DE CADA PUNTO
Calculamos la distancia de todos los puntos a
todos los centroides en el eje cartesiano, con
d= (𝑥1 − 𝑥2)2+(𝑦1 − 𝑦2)2, y asignamos cada
elemento al centroide más cercano.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
11. 3. CALCULAR LOS CENTROIDES
Cada conjunto así definido tiene su propio
centroide. En el paso anterior no lo hemos
calculado, sólo hemos identificado puntos
cercanos a los arbitrarios.
raineropenschool.com
12. 4. REPETIR LOS PASOS 2 Y 3
Llegará un momento en que la distancia al
centroide actual y el del conjunto serán la
misma, u oscilarán en torno a un valor similar.
En ese momento, tenemos la respuesta.
Secuencia de resolución de K-Means
Fuente: Weston Pace
raineropenschool.com
13. GENERALIZACIÓN A N DIMENSIONES
Cálculo de distancias:
d(𝑝𝑖, 𝑞)= (𝑝𝑖𝑗 − 𝑞 𝑗)2𝑛
𝑗=1
Cálculo de centroides:
𝑞1, 𝑞2 … 𝑞 𝑛 =
𝑝𝑖1
𝑚
𝑖=1
𝑚
,
𝑝𝑖2
𝑚
𝑖=1
𝑚
, …
𝑝𝑖𝑛
𝑚
𝑖=1
𝑚
raineropenschool.com
14. MÉTODO ELBOW PARA DETERMINAR K
0
10
20
30
40
k=1 k=2 k=3 k=4 k=5 k=6
¿Cómo sabemos que un número mayor de
agrupaciones no supondría una mejor
segmentación? Cuando alcanzamos un valor
de k en el que la reducción de distancia al
centroide ya no es significativa.
Evolución de la distancia media al centroide en
función del número de agrupaciones
Fuente: El autor
raineropenschool.com
15. DEBILIDADES DEL MÉTODO
Computacionalmente muy intensivo (NP-Hard).
Aunque el resultado es analítico (objetivo), la
elección de parámetros es arbitraria (subjetiva)
¿Qué número k de agrupaciones elegimos?
¿Qué propiedades de cada objeto elegimos?
¿Qué escala aplicamos a los parámetros?
¿Cuántos parámetros se utilizan en el análisis?
raineropenschool.com
16. CONCLUSIONES
El agrupamiento de objetos, o clustering, es una
técnica de análisis exploratorio, no supervisada,
para la segmentación e identificación de patrones
en conjuntos de datos.
K-Means es un método computacionalmente
intensivo de clustering.
Se basa en el cálculo iterativo de centroides en
“k” subconjuntos de elementos.
Aunque se basa en cálculos objetivos, depende
mucho de los parámetros subjetivo de inicio.
raineropenschool.com
17. SI QUIERES APRENDER MÁS…
Sitio Curso Enlace
coursera.com Stanford – Machine Learning (78) http://bit.ly/1VlufiS
ocw.mit.edu Introduction to CS (05) http://bit.ly/1VlusCK
Ojo, éste es “durillo”, pero interesante
raineropenschool.com
18. LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 4, por lo que se
refiere a esta presenta-
ción
raineropenschool.com
19. SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
Sistemas de información (IT).
Gestión de proyectos (PM).
Aseguramiento de la calidad (QA).
Gestión de inmuebles (FM).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com
20. OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras del
mismo autor en la colección
“Conceptos”, disponible en
Amazon:
http://amzn.to/1Rp8yM9
También puedes seguir las
novedades y convocatorias de
nuevos seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com