Memoria Exploración y Análisis de Datos

UNIVERSIDAD DEL PAÍS VASCO
FACULTAD DE INFORMÁTICA
MÁSTER EN INGENIERÍA COMPUTACIONAL Y SISTEMAS INTELIGENTES

EXPLORACIÓN Y ANÁLISIS DE DATOS

LUIS ANTONIO CHAMBA ERAS

2010 - 2011

Exploración y Análisis de "Sleep in Mammals: Ecological and Constitutional
Correlates"

1

Índice general

1 Presentación
1.1 Introducción 3
2 Fuente y Descripción de Datos 3
2.1 Fuente de datos 3
2.2 Descripción de datos 3
3 Estudio Descriptivo General 4
3.1 Análisis Univariante 4
3.2 Análisis Bivariante 6
4 Análisis de Componentes Principales 10
4.1 Motivación 10
5 Análisis de Correspondencias 15
5.1 Motivación 15
6 Escala Multidimensional 20
6.1 Motivación 20
7 Análisis de Conglomerados 25
7.1 Motivación 25
8 Conclusiones 30
9 Bibliografía 31

2

1 PRESENTACIÓN

1.1 Introducción

En la presente memoria se presenta el trabajo de Exploración y Análisis de Datos de un conjunto de
observaciones y variables. Se trata del Análisis del "Sleep in Mammals: Ecological and
Constitutional Correlates", que incluye variables como: brain and body weight, life span, gestation
time, time sleeping, and predation and danger indices de 62 mamíferos, se utiliza algunas técnicas
del análisis multivariante como: componentes principales, correspondencias, escalado
multidimensional y conglomerados.

2 FUENTE Y DESCRIPCIÓN DE DATOS

2.1 Fuente de Datos

Durante el desarrollo del presente trabajo se pondrá en practica algunas de las técnicas de análisis
de datos, se utilizará el software R en la manipulación y representación de los mismos, la
información se ha sido extraído del repositorio del Data, Software and News from the Statistics
Community1, en donde se escogió el Sleep in Mammals: Ecological and Constitutional Correlates,
by Allison, T. and Cicchetti, D(1976) 2, se cuenta con 62 observaciones, con 10 variables de las
cuales 3 son variables cualitativas y 7 cuantitativas, se encuentran campos missing para lo cual se
debe de realizar un filtrado de los datos.

2.2 Descripción de Datos

Con estos datos nos va a permitir poder tener a disposición de las herramientas para la toma de
decisiones por los diferentes métodos multivariantes como: análisis de componentes principales,
análisis de correspondencias, escalado multidimensional y conglomerados.
Las variables para el estudio son:
• species of animal
• body weight in kg
• brain weight in g
• slow wave ("nondreaming") sleep (hrs/day)
• paradoxical ("dreaming") sleep (hrs/day)
• total sleep (hrs/day) (sum of slow wave and paradoxical sleep)
• maximum life span (years)
• gestation time (days)
• predation index (1-5): 1 = minimum (least likely to be preyed upon) 5 = maximum (most
likely to be preyed upon), 1=Least Likely, 2=Not Likely, 3=Neutral, 4=Likely, 5=Most
Likely
• sleep exposure index (1-5): 1 = least exposed (e.g. animal sleeps in a well-protected den) 5 =
most exposed, 1=Highly Unexposed, 2=Unexposed, 3=Neutral, 4=Exposed, 5=Highly
• Exposed overall danger index (1-5): (based on the above two indices and other information),
1 = least danger (from other animals) 5 = most danger (from other animals) 1=Least
Dangerous, 2=Not Dangerous, 3=Neutral, 4=Dangerous, 5=Most Dangerous
• Missing values denoted by -999.0

1 http://lib.stat.cmu.edu/datasets/ Disponible el [14/02/2011]
2 http://lib.stat.cmu.edu/datasets/sleep Disponible el [14/02/2011]

3

3 ESTUDIO DESCRIPTIVO GENERAL

Lo primero que se realizará es obtener cada uno de los estadísticos descriptivos de los datos y
obtener algunas conclusiones para el posterior análisis multivariante. Se trabajara con un conjunto
de 10 variables de las cuales 3 son variables cualitativas: predation index, sleep exposure index y 7
cuantitativas: species of animal, body weight, brain weight, slow wave sleep, paradoxical sleep,
total sleep, maximum life span, gestation time. Se utilizará para el cálculo estadistico el Software
R3.
Los missing values se los filtro los datos originales hasta eliminar los valores missing se cuenta con
un total de 620 valores que equivale al 100 %, de los cuales existen 38 valores missing que equivale
al 6.13% en la fuente original de datos, se reduce de 62 observaciones a 42. Con estos datos
filtrados se da inicio al presente trabajo.

3.1 Análisis Univariante
Se realizará un análisis de las variables independientemente del resto. Para ello se presentan los
resúmenes numéricos y gráficos de las variables cuantitativas y cualitativas.

Un resumen estadístico de las variables cualitativas lo observamos en la Tabla1.
Variable Media sd 0 0.25 0.5 0.75 1 n
brainweight(g) 218.7 732.8 0.1 3.6 12.2 155.5 4603 42
bodyweight(kg) 100.8 402.1 0.01 0.3 2.3 10.4 2547 42
dreamingsleep(h/d) 1.9 1.4 0 0.9 1.7 2.4 6.6 42
nondreamingsleep(h/d) 8.7 3.8 2.1 6.2 8.5 11 17.9 42
gestationtime(d) 129.9 127.8 12 32 90 195 624 42
maximumlifespan(a) 19.4 20.3 2 5.3 11.2 27 100 42
totalsleep(h/d) 10.6 4.7 2.9 8.1 9.8 13.6 19.9 42

Tabla 1: Estadísticos Univariantes Cuantitativos

En la ilustración 1, se observa que existe mucha variación en las variables brainweight,
bodyweight, gestationtime y maximumlifespan esto es debido a que se tiene en la muestra
diferentes tipos de mamíferos y que varía enormemente de una especie a otra. Se podría inducir que
estas variables tienen mucho que ver con el sleep de algunos animales.

Las variables cualitativas tienen otros estadísticos diferentes a las cuantitativas las mismas que se
observa en la Tabla 2.

3 http://www.r-project.org/ Disponible [16/12/2010]

4

Frecuencias Absolutas:
1 2 3 4 5 Total
predation index 8 11 7 7 9 42
sleep exposure index 18 9 4 4 7 42
overall danger index 11 10 7 9 5 42

Frecuencias Relativas:
1 2 3 4 5 Total
predation index 0.19 0.26 0.17 0.17 0.22 1
sleep exposure index 0.43 0.21 0.09 0.09 0.17 1
overall danger index 0.26 0.24 0.17 0.21 0.12 1

Tabla 2: Estadísticos Univariantes Cualitativos

Se observa claramente que existe una frecuencia uniforme en la variable predationindex en cada
unas de las posibles opciones con que cada specie tiene en su forma de vida.

De una manera gráfica observamos los Diagramas de barra para la variable predationindex como se
observa en la Ilustración1:

Ilustración 1: Diagrama de Barras de Predationindex

Se observa en el diagrama que la frecuencia es alta en cada una de las maneras de vida de las
species sobre el 60%.

Mediante los diagramas de caja observaremos en la Ilustración 2, claramente la alta variabilidad en
las variables brainweight, bodyweight, gestationtime y maximumlifespan.

5

Ilustración 2: Variabilidad de las variables cuantitativas relacionadas directamente con el sleep

Con este análisis univariante se puede observar que existe una alta correlación entre algunas
variables cualitativas y cuantitativas.

3.2 Análisis Bivariante

Una vez analizadas las variables independientemente se procede a observar la relación con otras
variables.
El primer histograma es el que se observa en la Ilustración 3, es el de la variable dreamingsleep
(horas/día), dreamingsleep parece tener una distribución normal en la muestra, aunque aparecen
unas variaciones en los datos alrededor del valor de 2 y 4 horas.

Ilustración 3: Histograma de
Dreaminsleep(h/d)

En las ilustraciones 4 y 5, se muestra el diagrama de dispersión de bodyweight versus
dreamingsleep, y el histograma de bodyweight. El histograma muestra que los datos tienen un gran
número de species relativamente pequeños en la muestra, lo que es de esperar, teniendo en cuenta la

6

distribución del tamaño general de los mamíferos (hay más mamíferos pequeños, como roedores,
perros, hombre y ademas los más grandes , como ciervos, vacas y elefantes). El diagrama de
dispersión muestra que, una vez más, hay muchos mamíferos más pequeños en la muestra que los
grandes de mayor tamaño, y que hay una variación bastante grande en el dreamingsleep en los
mamíferos clasificados en función de su peso.

Ilustración 4: Diagrama de dispersión de
Bodyweight(Kg) vs Dreamingsleep(h/d)

Ilustración 5: Histograma de Bodyweight(Kg)

7

Ilustración 6: Diagrama de dispersión de Maximumlifespan(a) vs
Dreamingsleep(h/d)

Ilustración 7: Maximumlifespan

Las Ilustraciones 6 y 7 muestran el diagrama de dispersión de maximumlifespan en años versus
dreamingsleep en horas y el histograma de maximumlifespan. El histograma muestra una
distribución algo normal en maximumlifespan, con una concentración de alrededor de diez años. El
diagrama de dispersión muestra una variación significativa en dreamingsleep en función de
maximumlifespan, es difícil determinar la relación entre las variables de la dispersión. Parece que
hay un ligero efecto de agrupamiento en torno a dos horas de sueño a todos los ciclos de vida.

8

Ilustración 8: Diagrama de dispersión de
Overalldangerindex(1-5) vs Dreamingsleep(h/d)

Ilustración 9: Diagrama de Barras de
Overalldangerindex(1-5)

En la ilustración 8 y 9 el diagrama de dispersión del overalldangerindex (1-5) versus dreamingsleep
(h/d) y el Diagrama de barras de overalldangerindex. El Diagrama de barras muestra una
distribución bastante uniforme de los datos en todos los overalldangerindex. El diagrama de
dispersión muestra una gran variación en la cantidad de dreamingslepp en los mamíferos que son
menos overalldangersleep, aunque los overalldangersleep parecen tener una menor variación con
tendencia a la baja de dreamingsleep .

9

4 ANÁLISIS DE COMPONENTES PRINCIPALES
En este capítulo se trabajará con el análisis multivariado, el análisis de componentes principales, para el
trabajo con R utilizaremos el paquete ADE44 y los métodos estadísticos multivariados descriptivos.

El primer trabajo en R es cargar los datos mediante las funciones adecuadas para su análisis de la técnica de
ACP los resultados de los mismos se verán en las secciones siguientes.

4.1 Motivación

El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir
una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de
información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que
en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u
ordinales.

El análisis de correspondencias simples se utiliza a menudo en la representación de datos que se
pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Otras
utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos, y tablas
de preferencias.

Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en filas y la otra variable cuyas categorías son representadas en columnas, el
análisis de correspondencias consiste en resumir la información presente en las filas y columnas de
manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los
puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos
variables nominales u ordinales de origen.

Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna
diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un
gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas
por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable
fila) e individuos (variable columna).

Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en
cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una
interpretación correcta.

Antes de realizar cualquier análisis de componentes principales, realizamos un resumen estadístico
(Tabla 1), diagramas de cajas (Ilustración 2) y el diagrama de dispersión de las variables
cuantitativas(Ilustración 10).

Del mismo modo, es interesante, estudiar la matriz de correlaciones, y ver, que estas sean en general
altas, ya que esta es una de las hipótesis para el análisis de componentes principales (Tabla 3).

Se realizará el análisis de componentes principales de las 7 variables cuantitativas: bodyweight,
brainweight, nondreamingsleep, dreamingsleep, totalsleep, maximumlifespan, gestationtime.

4 Analysis of Ecological Data : Exploratory and Euclidean methods in Environmental sciences

10

Ilustración 10: Diagrama de dispersión cuantitativo

11

Tabla 3: Matriz de correlaciones de variables cualitativas

Generamos el análisis de componentes principales obteniendo la representación gráfica de los
autovalores (Ilustración 11) y reteniendo aquellos componentes principales que verifican λk > 1
(para variables tipificadas; criterio de la media aritmética). La importancia (contribuciones)
absolutas y relativas de cada autovalor del análisis de componentes principales se observa en la
tabla 4.

Ilustración 11: El gráfico de sedimentación, indica que solo son
mayores que 1 los autovalores de los 2 primeros componentes
(por el criterio de la media aritmética).

12

Podemos observar cómo el primer eje explica un 58.6% de la inercia total de los datos (tabla 4).

Tabla 4: Importancia (contribuciones) absolutas
y relativas, de los componentes principales. En
número de componentes principales a retener se
seleccionó según el criterio de media aritmética
(aquellos componentes que presentan una
inercia mayor a 1).> acpi y > acp$eig

Ilustración 12: Representación de cada fila en el espacio bidimensional.

En la Ilustración 12, podemos observar cómo se separan del resto las species el Asian elephant, Man
se refleja la relación de las demás species en torno a las cuadrantes I, II y IV.

13

Ilustración 13: Representación de cada fila en el espacio bidimensional.

Observamos que según el segundo componente nondreaminsleep, dreamingsleep y
totalsleep(Ilustración 14) están muy definidas sus relaciones y diferencias. Respecto al primer
componente, bodyweight y brainweight están relacionadas fuertemente.

14

5 ANÁLISIS DE CORRESPONDENCIAS

5.1 Motivación
El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir
una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de
información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que
en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u
ordinales.

El análisis de correspondencias simples se utiliza a menudo en la representación de datos que se
pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Otras
utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos, y tablas
de preferencias.

Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en las filas y la otra variable cuyas categorías son representadas en columnas, el
análisis de correspondencias consiste en resumir la información presente en las filas y columnas de
manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los
puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos
variables nominales u ordinales de origen.

Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna
diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un
gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas
por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable
fila) e individuos (variable columna).

Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en
cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una
interpretación correcta.

Los datos de partida para el análisis de correspondencias es una matriz X de dimensiones nxk que
representa las frecuencias absolutas observadas en una tabla de contingencia de dos variables,
donde la primera se representa por filas y tiene n categorías y la segunda por columnas y tiene k
categorías. Por ejemplo, clasificamos un conjunto de estudiantes en n posibles procedencias
geográficas y k posibles opiniones respecto a la docencia. En general, el elemento xij de la matriz X
representa la frecuencia absoluta observada en la casilla (i,j) de la tabla de contingencia.

La metodología la desarrolló Benzecri, a principios de los años 60 del siglo XX en la Universidad
de Renner (Francia). En esencia. es un tipo especial de análisis de componentes principales pero
realizado sobre una tabla de contingencia y usando una distancia euclídea ponderada llamada chi-
cuadrado.

Esencialmente, el análisis de correspondencias se puede considerar una aplicación del
multidimensional scaling usando una distancia específica que se puede usar para datos categóricos.
Dicha distancia se denomina distancia chi cuadrado. La extensión del análisis de correspondencias
simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se
denomina Análisis de Correspondencias Múltiples, y utiliza los mismos principios generales que la
técnica anterior. En general se orienta a casos en los cuales una variable representa ítems o
individuos y el resto son variables cualitativas u ordinales que representan cualidades.

15

Aplicación del Análisis de Correspondencias Simple y Múltiple son:
• Estudios de preferencias de consumo en Investigación de Mercados.
• Estudios que buscan tipologías de individuos respecto a variables cualitativas
(comportamiento de especies en biología, patrones de enfermedades en medicina, perfiles
psicológicos, etc.).
• Estudios de posicionamiento de de empresas a partir de las preferencias de consumidores.

En el análisis de datos del presente trabajo, contamos con tres variables cualitativas ordinales de las
cuales realizaremos en análisis de correspondencias simple entre dos variables de las tres que
disponemos: predation index, sleep exposure index y overall danger index.

Las variables que se va a elegir es predation index y sleep exposure index, y ver la relación que
existe para describir los datos por medio de estas dos variables.

Nuestro objetivo es determinar qué tienen de común los distintos grupos de mamíferos en relación
con el predation index, y cuál es la influencia del sleep exposure index. Se desea realizar un análisis
de correspondencias simple.

Tabla 5: Tabla de correspondencias (o de contingencia) para las dos variables cualitativas. En las
filas se representan los predation index de los mamíferos y en las columnas el sleep exposure index

La Tabla 5 muestra la tabla de contingencia para las dos variables, donde se observa la distribución
de la variable predation index (5 categorías) entre un grupo de 5 categorías de sleep exposure index
(Tabla 5). La muestra analizada presenta una mayor frecuencia por parte de los mamíferos que
menos están expuestos menos amenazados y a la vez son menos propensos al peligro mientras
duermen.

Se observa que no existen species que sean menos amenazadas y que tengan un alto nivel de que
estén expuestas al momento de dormir.

Tabla 6: Perfiles de fila y columna, que son las proporciones de cada fila y columna de cada celda

16

Tabla 7: Cuadro resumen donde se muestran las dimensiones, la inercia

Tabla 8: Prueba de Chiquadrado, se comprueba que las variables son
dependientes

Tabla 9: Análisis de Correspondencias Simple de Filas

17

Tabla 10: Análisis de Correspondencias simple de Columnas

Para interpretar las dimensiones extraídas, se dibuja los puntos filas y columnas (Ilustración 14).
Observamos que a lo largo del primer eje, se separa la categoría Exposed, Likely y a gran distancia
Neutral. De este modo, podemos interpretar la gran diferencia entre las species que tiene la variable
predation index.

En el tercer eje se puede ver una pequeña distancia entre las categorías predation index y sleep
exposure index de dos categorías contra una, se podría interpretar que algunos mamíferos que no
están muy expuestos en el sueño tienen un bajo índice de depredación.

18

Ilustración 14: Mapa simétrico de ACS

19

6 ESCALADO MULTIDIMENSIONAL
6.1 Motivación
El escalado multidimensional (EMD) (en inglés, multidimensional scaling MDS) se refiere al
conjunto de técnicas estadísticas utilizada habitualmente en marketing y ciencias sociales para la
visualización y exploración de datos. Es un procedimiento para tomar preferencias y percepciones
de los encuestados y representarlos en un diagrama visual. Estos diagramas, llamados mapas
perceptuales tienen generalmente dos dimensiones, pero pueden representarse en más de dos. Los
consumidores potenciales tienen que comparar pares de productos y hacer juicios sobre sus
similitudes. Mientras otras técnicas (como análisis factorial, análisis discriminativo y análisis
conjunto) obtienen dimensiones de las respuestas a los atributos de los productos identificados por
el investigador, MDS obtiene las dimensiones de los juicios de los encuestados sobre la similitud de
los productos.

Esto supone una ventaja importante pues los resultados no dependen de los juicios de los
investigadores. No es necesaria una lista de atributos que debe ser mostrada a los encuestados. Las
dimensiones resultantes vienen de los juicios de los encuestados sobre pares de productos. Gracias a
estas ventajas, MDS es la técnica más comúnmente utilizada en mapeado perceptual.

Aplicaciones

Se utiliza para la representación visual de datos en más de una dimensión (si son más de tres
dimensiones, se requiere más de un gráfico).

Con ello se puede encontrar qué factores (dimensiones) subyacen bajo los datos obtenidos en un
estudio. Se aplica en estudios sobre cognición, psicofísica, psicometría, marketing y ecología.
Marketing En marketing, el EMD es una técnica estadística para averiguar las preferencias y
percepciones de los encuestados a la hora de evaluar y comparar varios productos, representando
los datos obtenidos sobre una gráfica visual, llamada mapa perceptual.

Dentro del análisis que estamos desarrollando, nos dispondremos a realizar el escalamiento
multidimensional de dos grupos de variables del conjunto de datos que se tiene, lo que se va a
realizar es realizar trabajar con un grupo de variables cuantitativas como se lo realizó en el Análisis
de Componentes Principales, y poder relacionarlos con el análisis que vamos a aplicar.

Se tiene el primer grupo que se se le aplicará en MS, el mismo que tiene el siguiente conjunto de
variables cuantitativas junto con las 42 observaciones: bodyweight y brainweight.

El segundo grupo es el conformado por las siguientes variables cuantitativas junto al total de 42
observaciones: maximulifescan y gestationtime.

Con los dos grupos descritos el primer paso es obtener la matriz de distancias por cada grupo, por
defecto utilizará la distancias euclídeas por trabajar con variables cuantitativas, a estas matrices las
llamaremos coordenadas principales.

La matriz de distancias del primer grupo: bodyweight y brainweight lo observamos en la Tabla 11.
Nos permite observar la relación existente entre la gran diferencia de bodyweight entre algunas
species, además las distancias entre las species de da entre los mas grandes de tamaño y que incide
en el sleep of mamaml.

20

Tabla 11: Matriz de distancias euclídeas del grupo 1 de variables cuantitativas (bodyweight y
brainweight)

En la Tabla 12 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el
escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las
coordenadas principales.

Tabla 12: Escalado
Multidimensional Métrico del
primer grupo de variables
cuantitativas

La ilustración 15 permite verificar el grado de variabilidad entre el bodyweigth y brainweigth entre
algunas species (muy separadas) nótese el grado de separabilidad entre las distancias y observando
un grado de cercanía entre algunas species y otras muy pero muy cercanas el grado de separación
entre las mismas.

21

Ilustración 15: Representación de las coordenadas principales de las variables bodyweight y
brainweight

La matriz de distancias del segundo grupo: maximulifescan y gestationtime lo observamos en la
Tabla 13. no existe un notable grado de separación entre las coordenadas, existe algunas species que
tienen un elevado nivel de maximumlifescan y otras varían su gestationtime.

Tabla 13: Matriz de distancias euclídeas del grupo 2 de variables cuantitativas (maximumlifescan y
gestationtime)

En la Tabla 14 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el
escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las
coordenadas principales.

22

Tabla 14: Escalado
Multidimensional Métrico del
segundo grupo de variables
cuantitativas

La ilustración 16 permite verificar el grado de variabilidad entre el maximumlifescan y
gestationtime entre algunas species nótese el grado de separabilidad entre las distancias y
observando un grado de cercanía entre algunas species, notablemente las distancias no son muy
notorias en relación a su tamaño como se observo en el escalamiento multidimensional del primer
grupo pero se observa que esas species tienen un nivel mas alto de vida y de tiempo de gestación.

23

Ilustración 16: Representación de las coordenadas principales de las variables maximumlifescan y
gestationtime

24

7 ANÁLISIS DE CONGLOMERADOS
7.1 Motivación
El análisis de conglomerados es una técnica cuya idea básica es agrupar un conjunto de
observaciones en un número dado de conglomerados o grupos. Este agrupamiento se basa en la idea
de distancia o similitud entre las observaciones.

La obtención de dichos conglomerados depende del criterio o distancia considerados. El número
posible de combinaciones de grupos y de elementos que integran los posibles grupos se hace
intratable desde el punto de vista computacional, aún con un número escaso de observaciones.

Se hace necesario, pues, encontrar métodos o algoritmos que infieran el número y componentes de
los conglomerados más aceptable, aunque no sea el óptimo absoluto. Previamente es necesario
considerar el concepto de medida de similitud. Académicos e investigadores de mercado a menudo
encuentran la mejor solución para resolver sus estudios mediante la definición de grupos
homogéneos de objetos, ya sean ellos individuos, firmas, productos, o incluso comportamientos.

Opciones estratégicas basadas en la identificación de grupos dentro de la población tales como la
segmentación o el marketing de objetivos no serían posibles sin un objetivo metodológico. La
misma necesidad nos la encontramos en otras áreas, abarcando desde las ciencias físicas (por
ejemplo, clasificación de varios grupos de animales, como insectos o mamíferos) a las ciencias
sociales (por ejemplo, análisis de varios perfiles psiquiátricos).

En todos estos ejemplos, el analista trata de encontrar una estructura natural a través de las
observaciones basándose en un perfil multivariado. La técnica más comúnmente usada para este
propósito es el Análisis de Conglomerados.

El AC tiene como propósito esencial, agrupar aquellos objetos que reúnan idénticas características,
es decir, se convierte así en una técnica de análisis exploratorio diseñada para revelar las
agrupaciones naturales dentro de una colección de datos. Este análisis no hace ninguna distinción
entre variables dependientes (VD) y variables independientes (VI) sino que calcula las relaciones
interdependientes de todo el conjunto de variables.

Aplicaciones
El análisis de conglomerados se puede utilizar para:
• La taxonomía, agrupar especies naturales.
• Para el marketing, clasificar consumidores tipo.
• Medicina, clasificar seres vivos con los mismos síntomas y características patológicas.
• Técnicas de reconocimiento de patrones.
• Formar grupos de pixels en imágenes digitalizadas enviadas por un satélite desde un planeta
para identificar los terrenos.

Para nuestro análisis de conglomerados debemos de tener cuidado al agrupar variables en grupos
homogéneos tomando en cuenta el tipo, en nuestro caso tenemos 7 variables cuantitativas continuas
y 3 variables cualitativas discretas.

Para el estudio vamos a trabajar con el grupo de variables cuantitativas: bodyweight, brainweight,
nondreamingsleep, dreamingsleep, totalsleep, maximumlifespan, gestationtime, y descubriremos los
conglomerados que abarcan a la relaciones entre las species.

Utilizamos 42 observaciones con 7 variables, además se utilizara la librería de R(cluster).

25

Lo que primero vamos a realizar en el análisis de conglomerados es crear la matriz de distancias,
para realizar el análisis con ella y seleccionar el número de grupos del total de la muestra. Para crear
la matriz de distancias entre las observaciones debemos de aplicar un método de cálculo, lo que se
va a realizar es comparar 4 métodos de obtención de distancias: manhattan, euclidean, maximum y
camberra.

En la Ilustracion 17, observamos los resultados con los 4 métodos y nos disponemos a escoger un
método para nuestro problema.

Ilustración 17: Métodos de obtención de matriz de distancias

La Ilustración 17, nos permiten comparar los distintos métodos empleados para las distancias. Se
observa que la distancia euclídea y la de máximos ofrecen resultados parecidos, parece que se
forman 4 grupos y las observaciones 2 y 22 difieren del resto. El método Camberra ofrece otros
resultados diferentes pero este método es adecuado para datos estandarizados y no es nuestro caso.
Vamos a emplear la distancia euclídea. Para determinar mejor el número de clusters a seleccionar
vamos a emplear el algoritmo PAM (Partitioning Around Medoids), como se observa en la
Ilustración 18 el respectivo dendograma.

26

Ilustración 18: Dendograma de 2, 3, 4 y 5 posibles cluster utilizando PAM

Viendo las 4 siluetas parece más adecuado elegir los k=4 grupos (son mas homogéneos difiere un
poco con k=5) porque son más homogéneos. De todos modos procede un análisis del tamaño de los
grupos porque a la vista de las siluetas y los dendogramas anteriores parece que algunas
observaciones distorsionan el agrupamiento que lo observamos en la Tabla 15.

Tabla 15: Análisis a fondo del tamaño de los grupos

En la Tabla 15, se observa que existen grupos con un solo miembro tanto en el tamaño de k=4 y 5,
además que no varía la cantidad de species en el grupo 1 de 25 en el grupo. Esto se debe a las
diferentes características que comparten algunos mamíferos. De acuerdo a esto se trabaja con 4
clusters.

Ahora observemos como se han agrupado las 42 observaciones de estudio con los clusters finales,

27

como lo presenta resumida la Tabla 16 y 17.

Tabla 16: Resumen de Variables y a que cluster pertenecen
Se observa que el African giant pouched rat pertenece al cluster 4, que comparte algunas
características con el Big brown bat, etc.

El Asian elephant está en un solo grupo debido a sus notadas diferencias que hacen que sea el
cluster 1 heterogéneo al resto.

Tabla 17: Resumen de Variables y a que cluster pertenecen

En la Tabla 18 se observa el análisis de cada una de las variables en cada cluster, para poder
observar el comportamiento de las agrupaciones realizadas.

28

Tabla 18: Comportamiento del agrupamiento por variables

Vemos que de acuerdo a los resultados de las medias se observa que que las species homogéneas de
cada uno de los grupos, nos permite obtener las siguientes relaciones que se dan, por ejemplo las
species del cluster 1, duermen más que otras species, eso se da en el Asian elephant que además es
el de mayor tamaño, se podría concluir que mientras más tamaño mas duermen, eso debido a que en
la variable totalsleep, se ve que el cluster tiene el menor valor.

Otra conclusión que se presenta de acuerdo a la Tabla 18, es que las species mas pequeñas tienen su
período de gestación mas corto.

Las species del cluster 3 tienen una mayor esperanza de vida, dentro de ese cluster se encuentra el
hombre.

29

8 CONCLUSIONES

• La exploración de datos se ha llevado en los análisis uni y bivariante representando los
estadísticos respectivos para las variables cuantitativas y cualitativas.
• Existe una amplia cantidad de variabilidad entre algunas características como: weight,
gestation time, and life span de los mamíferos esto se debe a la variabilidad de los mismos.
• Existe una alta correlación entre algunas variables como: danger index, weight, maximum
life span, and, of course, dreaming sleep.
• Para el análisis de componentes principales se trabajo con 7 variables cuantitativas y se
obtuvo dos componentes que cuyos resultados permitieron ver las relaciones entre las
variables.
• Para el análisis de correspondencias se trabajo con el análisis de correspondencias simple
entre 2 variables cuantitativas discretas.
• En el escalamiento multidimensional se realizo el análisis sobre 2 conjuntos de variables
cuantitativas del cual se obtuvo las coordenadas principales.
• La variabilidad de datos en el análisis de conglomerados se observa que un mamífero
pertenece a un cluster sin otros miembros por poseer características de tamaño diferente.
• El análisis de conglomerados permite agrupar species homogéneas que comparten
características comunes.
• Se debe tener cuidado con la distancias euclídeas cuando las variables tienen tamaños
demasiado grande del resto de valores de las observaciones.

30

9 BIBLIOGRAFÍA

[1] Análisis de Componentes Principales, Manuel Terrádez Gurrea, UOC, Proyecto e-Math.

[2] Introducción al Análisis Multivariado, Julia Moreno Madueño, Universidad de Granada.

[3] Análisis multivariado de datos en R, Campo Elías Pardo y Jorge Ortiz, Departamento de
Estadística. Universidad Nacional de Colombia-Bogotá.

[4] Análisis de cluster para definir territorios a investigar sobre el servicio de auditoría. Principios y
fundamentos teóricos para su aplicación. Variables a utilizar.
http://www.gestiopolis.com/canales6/mkt/investigacion-de-mercados-yauditoria.htm. Disponible
[25 de enero del 2011].

[5] G. Linares, Escalamiento Multidimensional:Conceptos y Enfoques, Departamento de
Matemática Aplicada, Facultad de Matemática y Computación,Universidad de La Habana, 2001.
http://rev-inv-ope.univparis1.fr/files/22201/IO-22201-10.pdf. Disponible [25 de enero del 2011]

[6 Análisis de Correspondencias, http://www.ucm.es/info/eue/eio3/docs/Tema %202. %20Analisis
%20de %20Correspondencias/introduccion %20tema2.htm Disponible [22 de enero del 2011]

[7] Análisis de Correspondencias. http://halweb.uc3m.es/esp/Personal/
personas/jmmarin/esp/AMult/acorresp.pdf. Disponible [22 de enero del 2011]

[8] Técnicas estadísticas multivariadas y sus aplicaciones a indicadores e índices económicos
financieros de la actividad turística. http://www.gestiopolis.com/canales7/fin/matematicas-
aplicacion-deestadisticas-multivariables-e-indicadores-financieros.htm. Disponible [21 de enero del
2011].

[9] Manual. Curso Introducción de R, http://analisisydecision.es/manual-cursointroduccion-de-r-
capitulo-15-analisis-cluster-con-r-ii/, [26 de enero del 2011].

[10] Andrés M. Alonso, Transparencias de Estadística I: Análisis de datos Univariantes,
http://www.est.uc3m.es/amalonso/esp/docencia.html, Disponible [20 de diciembre 2010]

[11] Daniel Peña, Análisis de Datos Multivariantes, McGraw-Hill, 2002. Madrid.

31

Memoria Exploración y Análisis de Datos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Destacado

Destacado (20)

Similar a Memoria Exploración y Análisis de Datos

Similar a Memoria Exploración y Análisis de Datos (20)

Más de Universidad Nacional de Loja

Más de Universidad Nacional de Loja (20)

Último

Último (20)

Memoria Exploración y Análisis de Datos