SlideShare una empresa de Scribd logo
1 de 31
Descargar para leer sin conexión
UNIVERSIDAD DEL PAÍS VASCO
                     FACULTAD DE INFORMÁTICA
    MÁSTER EN INGENIERÍA COMPUTACIONAL Y SISTEMAS INTELIGENTES




                     EXPLORACIÓN Y ANÁLISIS DE DATOS




                         LUIS ANTONIO CHAMBA ERAS




                                     2010 - 2011


      Exploración y Análisis de "Sleep in Mammals: Ecological and Constitutional
                                      Correlates"


1
Índice general




    1 Presentación
      1.1        Introducción                3
    2 Fuente y Descripción de Datos          3
      2.1        Fuente de datos             3
      2.2        Descripción de datos        3
    3 Estudio Descriptivo General            4
      3.1        Análisis Univariante        4
      3.2        Análisis Bivariante         6
    4 Análisis de Componentes Principales   10
      4.1        Motivación                 10
    5 Análisis de Correspondencias          15
      5.1        Motivación                 15
    6 Escala Multidimensional               20
      6.1        Motivación                 20
    7 Análisis de Conglomerados             25
      7.1        Motivación                 25
    8 Conclusiones                          30
    9 Bibliografía                          31




2
1 PRESENTACIÓN

         1.1          Introducción

En la presente memoria se presenta el trabajo de Exploración y Análisis de Datos de un conjunto de
observaciones y variables. Se trata del Análisis del "Sleep in Mammals: Ecological and
Constitutional Correlates", que incluye variables como: brain and body weight, life span, gestation
time, time sleeping, and predation and danger indices de 62 mamíferos, se utiliza algunas técnicas
del análisis multivariante como: componentes principales, correspondencias, escalado
multidimensional y conglomerados.

     2 FUENTE Y DESCRIPCIÓN DE DATOS

         2.1          Fuente de Datos

Durante el desarrollo del presente trabajo se pondrá en practica algunas de las técnicas de análisis
de datos, se utilizará el software R en la manipulación y representación de los mismos, la
información se ha sido extraído del repositorio del Data, Software and News from the Statistics
Community1, en donde se escogió el Sleep in Mammals: Ecological and Constitutional Correlates,
by Allison, T. and Cicchetti, D(1976) 2, se cuenta con 62 observaciones, con 10 variables de las
cuales 3 son variables cualitativas y 7 cuantitativas, se encuentran campos missing para lo cual se
debe de realizar un filtrado de los datos.

         2.2          Descripción de Datos

Con estos datos nos va a permitir poder tener a disposición de las herramientas para la toma de
decisiones por los diferentes métodos multivariantes como: análisis de componentes principales,
análisis de correspondencias, escalado multidimensional y conglomerados.
Las variables para el estudio son:
   • species of animal
   • body weight in kg
   • brain weight in g
   • slow wave ("nondreaming") sleep (hrs/day)
   • paradoxical ("dreaming") sleep (hrs/day)
   • total sleep (hrs/day) (sum of slow wave and paradoxical sleep)
   • maximum life span (years)
   • gestation time (days)
   • predation index (1-5): 1 = minimum (least likely to be preyed upon) 5 = maximum (most
        likely to be preyed upon), 1=Least Likely, 2=Not Likely, 3=Neutral, 4=Likely, 5=Most
        Likely
   • sleep exposure index (1-5): 1 = least exposed (e.g. animal sleeps in a well-protected den) 5 =
        most exposed, 1=Highly Unexposed, 2=Unexposed, 3=Neutral, 4=Exposed, 5=Highly
   • Exposed overall danger index (1-5): (based on the above two indices and other information),
        1 = least danger (from other animals) 5 = most danger (from other animals) 1=Least
        Dangerous, 2=Not Dangerous, 3=Neutral, 4=Dangerous, 5=Most Dangerous
   • Missing values denoted by -999.0


1 http://lib.stat.cmu.edu/datasets/ Disponible el [14/02/2011]
2 http://lib.stat.cmu.edu/datasets/sleep Disponible el [14/02/2011]

3
3 ESTUDIO DESCRIPTIVO GENERAL

Lo primero que se realizará es obtener cada uno de los estadísticos descriptivos de los datos y
obtener algunas conclusiones para el posterior análisis multivariante. Se trabajara con un conjunto
de 10 variables de las cuales 3 son variables cualitativas: predation index, sleep exposure index y 7
cuantitativas: species of animal, body weight, brain weight, slow wave sleep, paradoxical sleep,
total sleep, maximum life span, gestation time. Se utilizará para el cálculo estadistico el Software
R3.
Los missing values se los filtro los datos originales hasta eliminar los valores missing se cuenta con
un total de 620 valores que equivale al 100 %, de los cuales existen 38 valores missing que equivale
al 6.13% en la fuente original de datos, se reduce de 62 observaciones a 42. Con estos datos
filtrados se da inicio al presente trabajo.

        3.1       Análisis Univariante
Se realizará un análisis de las variables independientemente del resto. Para ello se presentan los
resúmenes numéricos y gráficos de las variables cuantitativas y cualitativas.

Un resumen estadístico de las variables cualitativas lo observamos en la Tabla1.
       Variable           Media         sd            0          0.25         0.5       0.75       1           n
    brainweight(g)          218.7        732.8             0.1          3.6      12.2     155.5        4603        42
   bodyweight(kg)           100.8        402.1            0.01          0.3       2.3      10.4        2547        42
 dreamingsleep(h/d)            1.9          1.4              0          0.9       1.7        2.4         6.6       42
nondreamingsleep(h/d)          8.7          3.8            2.1          6.2       8.5        11         17.9       42
   gestationtime(d)         129.9        127.8              12          32        90        195         624        42
 maximumlifespan(a)          19.4          20.3              2          5.3      11.2        27         100        42
    totalsleep(h/d)          10.6           4.7            2.9          8.1       9.8      13.6         19.9       42

                             Tabla 1: Estadísticos Univariantes Cuantitativos


En la ilustración 1, se observa que existe mucha variación en las variables brainweight,
bodyweight, gestationtime y maximumlifespan esto es debido a que se tiene en la muestra
diferentes tipos de mamíferos y que varía enormemente de una especie a otra. Se podría inducir que
estas variables tienen mucho que ver con el sleep de algunos animales.

Las variables cualitativas tienen otros estadísticos diferentes a las cuantitativas las mismas que se
observa en la Tabla 2.




3 http://www.r-project.org/ Disponible [16/12/2010]

4
Frecuencias Absolutas:
                                    1            2          3           4           5    Total
       predation index              8          11           7           7           9            42
    sleep exposure index           18            9          4           4           7            42
    overall danger index           11          10           7           9           5            42

                                        Frecuencias Relativas:
                                    1            2          3           4           5    Total
       predation index           0.19         0.26       0.17        0.17        0.22             1
    sleep exposure index         0.43         0.21       0.09        0.09        0.17             1
    overall danger index         0.26         0.24       0.17        0.21        0.12             1

                           Tabla 2: Estadísticos Univariantes Cualitativos

Se observa claramente que existe una frecuencia uniforme en la variable predationindex en cada
unas de las posibles opciones con que cada specie tiene en su forma de vida.

De una manera gráfica observamos los Diagramas de barra para la variable predationindex como se
observa en la Ilustración1:




                     Ilustración 1: Diagrama de Barras de Predationindex


Se observa en el diagrama que la frecuencia es alta en cada una de las maneras de vida de las
species sobre el 60%.

Mediante los diagramas de caja observaremos en la Ilustración 2, claramente la alta variabilidad en
las variables brainweight, bodyweight, gestationtime y maximumlifespan.




5
Ilustración 2: Variabilidad de las variables cuantitativas relacionadas directamente con el sleep

Con este análisis univariante se puede observar que existe una alta correlación entre algunas
variables cualitativas y cuantitativas.




          3.2       Análisis Bivariante

Una vez analizadas las variables independientemente se procede a observar la relación con otras
variables.
El primer histograma es el que se observa en la Ilustración 3, es el de la variable dreamingsleep
(horas/día), dreamingsleep parece tener una distribución normal en la muestra, aunque aparecen
unas variaciones en los datos alrededor del valor de 2 y 4 horas.




                                     Ilustración 3: Histograma de
                                           Dreaminsleep(h/d)

En las ilustraciones 4 y 5, se muestra el diagrama de dispersión de bodyweight versus
dreamingsleep, y el histograma de bodyweight. El histograma muestra que los datos tienen un gran
número de species relativamente pequeños en la muestra, lo que es de esperar, teniendo en cuenta la

6
distribución del tamaño general de los mamíferos (hay más mamíferos pequeños, como roedores,
perros, hombre y ademas los más grandes , como ciervos, vacas y elefantes). El diagrama de
dispersión muestra que, una vez más, hay muchos mamíferos más pequeños en la muestra que los
grandes de mayor tamaño, y que hay una variación bastante grande en el dreamingsleep en los
mamíferos clasificados en función de su peso.




                          Ilustración 4: Diagrama de dispersión de
                           Bodyweight(Kg) vs Dreamingsleep(h/d)




                       Ilustración 5: Histograma de Bodyweight(Kg)




7
Ilustración 6: Diagrama de dispersión de Maximumlifespan(a) vs
                                      Dreamingsleep(h/d)




                                 Ilustración 7: Maximumlifespan


Las Ilustraciones 6 y 7 muestran el diagrama de dispersión de maximumlifespan en años versus
dreamingsleep en horas y el histograma de maximumlifespan. El histograma muestra una
distribución algo normal en maximumlifespan, con una concentración de alrededor de diez años. El
diagrama de dispersión muestra una variación significativa en dreamingsleep en función de
maximumlifespan, es difícil determinar la relación entre las variables de la dispersión. Parece que
hay un ligero efecto de agrupamiento en torno a dos horas de sueño a todos los ciclos de vida.




8
Ilustración 8: Diagrama de dispersión de
                         Overalldangerindex(1-5) vs Dreamingsleep(h/d)




                              Ilustración 9: Diagrama de Barras de
                                     Overalldangerindex(1-5)

En la ilustración 8 y 9 el diagrama de dispersión del overalldangerindex (1-5) versus dreamingsleep
(h/d) y el Diagrama de barras de overalldangerindex. El Diagrama de barras muestra una
distribución bastante uniforme de los datos en todos los overalldangerindex. El diagrama de
dispersión muestra una gran variación en la cantidad de dreamingslepp en los mamíferos que son
menos overalldangersleep, aunque los overalldangersleep parecen tener una menor variación con
tendencia a la baja de dreamingsleep .




9
4 ANÁLISIS DE COMPONENTES PRINCIPALES
En este capítulo se trabajará con el análisis multivariado, el análisis de componentes principales, para el
trabajo con R utilizaremos el paquete ADE44 y los métodos estadísticos multivariados descriptivos.

El primer trabajo en R es cargar los datos mediante las funciones adecuadas para su análisis de la técnica de
ACP los resultados de los mismos se verán en las secciones siguientes.

          4.1          Motivación

El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir
una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de
información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que
en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u
ordinales.

El análisis de correspondencias simples se utiliza a menudo en la representación de datos que se
pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Otras
utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos, y tablas
de preferencias.

Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en filas y la otra variable cuyas categorías son representadas en columnas, el
análisis de correspondencias consiste en resumir la información presente en las filas y columnas de
manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los
puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos
variables nominales u ordinales de origen.

Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna
diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un
gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas
por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable
fila) e individuos (variable columna).

Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en
cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una
interpretación correcta.

Antes de realizar cualquier análisis de componentes principales, realizamos un resumen estadístico
(Tabla 1), diagramas de cajas (Ilustración 2) y el diagrama de dispersión de las variables
cuantitativas(Ilustración 10).

Del mismo modo, es interesante, estudiar la matriz de correlaciones, y ver, que estas sean en general
altas, ya que esta es una de las hipótesis para el análisis de componentes principales (Tabla 3).

Se realizará el análisis de componentes principales de las 7 variables cuantitativas: bodyweight,
brainweight, nondreamingsleep, dreamingsleep, totalsleep, maximumlifespan, gestationtime.




4    Analysis of Ecological Data : Exploratory and Euclidean methods in Environmental sciences


10
Ilustración 10: Diagrama de dispersión cuantitativo




11
Tabla 3: Matriz de correlaciones de variables cualitativas

Generamos el análisis de componentes principales obteniendo la representación gráfica de los
autovalores (Ilustración 11) y reteniendo aquellos componentes principales que verifican λk > 1
(para variables tipificadas; criterio de la media aritmética). La importancia (contribuciones)
absolutas y relativas de cada autovalor del análisis de componentes principales se observa en la
tabla 4.




                 Ilustración 11: El gráfico de sedimentación, indica que solo son
                  mayores que 1 los autovalores de los 2 primeros componentes
                              (por el criterio de la media aritmética).


12
Podemos observar cómo el primer eje explica un 58.6% de la inercia total de los datos (tabla 4).




                         Tabla 4: Importancia (contribuciones) absolutas
                          y relativas, de los componentes principales. En
                         número de componentes principales a retener se
                         seleccionó según el criterio de media aritmética
                             (aquellos componentes que presentan una
                               inercia mayor a 1).> acpi y > acp$eig




             Ilustración 12: Representación de cada fila en el espacio bidimensional.


En la Ilustración 12, podemos observar cómo se separan del resto las species el Asian elephant, Man
se refleja la relación de las demás species en torno a las cuadrantes I, II y IV.




13
Ilustración 13: Representación de cada fila en el espacio bidimensional.


Observamos que según el segundo componente nondreaminsleep, dreamingsleep y
totalsleep(Ilustración 14) están muy definidas sus relaciones y diferencias. Respecto al primer
componente, bodyweight y brainweight están relacionadas fuertemente.




14
5 ANÁLISIS DE CORRESPONDENCIAS

        5.1       Motivación
El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir
una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de
información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que
en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u
ordinales.

El análisis de correspondencias simples se utiliza a menudo en la representación de datos que se
pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Otras
utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos, y tablas
de preferencias.

Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en las filas y la otra variable cuyas categorías son representadas en columnas, el
análisis de correspondencias consiste en resumir la información presente en las filas y columnas de
manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los
puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos
variables nominales u ordinales de origen.

Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna
diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un
gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas
por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable
fila) e individuos (variable columna).

Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en
cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una
interpretación correcta.

Los datos de partida para el análisis de correspondencias es una matriz X de dimensiones nxk que
representa las frecuencias absolutas observadas en una tabla de contingencia de dos variables,
donde la primera se representa por filas y tiene n categorías y la segunda por columnas y tiene k
categorías. Por ejemplo, clasificamos un conjunto de estudiantes en n posibles procedencias
geográficas y k posibles opiniones respecto a la docencia. En general, el elemento xij de la matriz X
representa la frecuencia absoluta observada en la casilla (i,j) de la tabla de contingencia.

La metodología la desarrolló Benzecri, a principios de los años 60 del siglo XX en la Universidad
de Renner (Francia). En esencia. es un tipo especial de análisis de componentes principales pero
realizado sobre una tabla de contingencia y usando una distancia euclídea ponderada llamada chi-
cuadrado.

Esencialmente, el análisis de correspondencias se puede considerar una aplicación del
multidimensional scaling usando una distancia específica que se puede usar para datos categóricos.
Dicha distancia se denomina distancia chi cuadrado. La extensión del análisis de correspondencias
simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se
denomina Análisis de Correspondencias Múltiples, y utiliza los mismos principios generales que la
técnica anterior. En general se orienta a casos en los cuales una variable representa ítems o
individuos y el resto son variables cualitativas u ordinales que representan cualidades.


15
Aplicación del Análisis de Correspondencias Simple y Múltiple son:
   • Estudios de preferencias de consumo en Investigación de Mercados.
   • Estudios que buscan tipologías de individuos respecto a variables cualitativas
       (comportamiento de especies en biología, patrones de enfermedades en medicina, perfiles
       psicológicos, etc.).
   • Estudios de posicionamiento de de empresas a partir de las preferencias de consumidores.

En el análisis de datos del presente trabajo, contamos con tres variables cualitativas ordinales de las
cuales realizaremos en análisis de correspondencias simple entre dos variables de las tres que
disponemos: predation index, sleep exposure index y overall danger index.

Las variables que se va a elegir es predation index y sleep exposure index, y ver la relación que
existe para describir los datos por medio de estas dos variables.

Nuestro objetivo es determinar qué tienen de común los distintos grupos de mamíferos en relación
con el predation index, y cuál es la influencia del sleep exposure index. Se desea realizar un análisis
de correspondencias simple.




Tabla 5: Tabla de correspondencias (o de contingencia) para las dos variables cualitativas. En las
filas se representan los predation index de los mamíferos y en las columnas el sleep exposure index

La Tabla 5 muestra la tabla de contingencia para las dos variables, donde se observa la distribución
de la variable predation index (5 categorías) entre un grupo de 5 categorías de sleep exposure index
(Tabla 5). La muestra analizada presenta una mayor frecuencia por parte de los mamíferos que
menos están expuestos menos amenazados y a la vez son menos propensos al peligro mientras
duermen.

Se observa que no existen species que sean menos amenazadas y que tengan un alto nivel de que
estén expuestas al momento de dormir.




Tabla 6: Perfiles de fila y columna, que son las proporciones de cada fila y columna de cada celda




16
Tabla 7: Cuadro resumen donde se muestran las dimensiones, la inercia




     Tabla 8: Prueba de Chiquadrado, se comprueba que las variables son
                               dependientes




             Tabla 9: Análisis de Correspondencias Simple de Filas




17
Tabla 10: Análisis de Correspondencias simple de Columnas

Para interpretar las dimensiones extraídas, se dibuja los puntos filas y columnas (Ilustración 14).
Observamos que a lo largo del primer eje, se separa la categoría Exposed, Likely y a gran distancia
Neutral. De este modo, podemos interpretar la gran diferencia entre las species que tiene la variable
predation index.

En el tercer eje se puede ver una pequeña distancia entre las categorías predation index y sleep
exposure index de dos categorías contra una, se podría interpretar que algunos mamíferos que no
están muy expuestos en el sueño tienen un bajo índice de depredación.




18
Ilustración 14: Mapa simétrico de ACS




19
6 ESCALADO MULTIDIMENSIONAL
         6.1      Motivación
El escalado multidimensional (EMD) (en inglés, multidimensional scaling MDS) se refiere al
conjunto de técnicas estadísticas utilizada habitualmente en marketing y ciencias sociales para la
visualización y exploración de datos. Es un procedimiento para tomar preferencias y percepciones
de los encuestados y representarlos en un diagrama visual. Estos diagramas, llamados mapas
perceptuales tienen generalmente dos dimensiones, pero pueden representarse en más de dos. Los
consumidores potenciales tienen que comparar pares de productos y hacer juicios sobre sus
similitudes. Mientras otras técnicas (como análisis factorial, análisis discriminativo y análisis
conjunto) obtienen dimensiones de las respuestas a los atributos de los productos identificados por
el investigador, MDS obtiene las dimensiones de los juicios de los encuestados sobre la similitud de
los productos.

Esto supone una ventaja importante pues los resultados no dependen de los juicios de los
investigadores. No es necesaria una lista de atributos que debe ser mostrada a los encuestados. Las
dimensiones resultantes vienen de los juicios de los encuestados sobre pares de productos. Gracias a
estas ventajas, MDS es la técnica más comúnmente utilizada en mapeado perceptual.

Aplicaciones

Se utiliza para la representación visual de datos en más de una dimensión (si son más de tres
dimensiones, se requiere más de un gráfico).

Con ello se puede encontrar qué factores (dimensiones) subyacen bajo los datos obtenidos en un
estudio. Se aplica en estudios sobre cognición, psicofísica, psicometría, marketing y ecología.
Marketing En marketing, el EMD es una técnica estadística para averiguar las preferencias y
percepciones de los encuestados a la hora de evaluar y comparar varios productos, representando
los datos obtenidos sobre una gráfica visual, llamada mapa perceptual.

Dentro del análisis que estamos desarrollando, nos dispondremos a realizar el escalamiento
multidimensional de dos grupos de variables del conjunto de datos que se tiene, lo que se va a
realizar es realizar trabajar con un grupo de variables cuantitativas como se lo realizó en el Análisis
de Componentes Principales, y poder relacionarlos con el análisis que vamos a aplicar.

Se tiene el primer grupo que se se le aplicará en MS, el mismo que tiene el siguiente conjunto de
variables cuantitativas junto con las 42 observaciones: bodyweight y brainweight.

El segundo grupo es el conformado por las siguientes variables cuantitativas junto al total de 42
observaciones: maximulifescan y gestationtime.

Con los dos grupos descritos el primer paso es obtener la matriz de distancias por cada grupo, por
defecto utilizará la distancias euclídeas por trabajar con variables cuantitativas, a estas matrices las
llamaremos coordenadas principales.

La matriz de distancias del primer grupo: bodyweight y brainweight lo observamos en la Tabla 11.
Nos permite observar la relación existente entre la gran diferencia de bodyweight entre algunas
species, además las distancias entre las species de da entre los mas grandes de tamaño y que incide
en el sleep of mamaml.




20
Tabla 11: Matriz de distancias euclídeas del grupo 1 de variables cuantitativas (bodyweight y
                                             brainweight)

En la Tabla 12 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el
escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las
coordenadas principales.




                                         Tabla 12: Escalado
                                    Multidimensional Métrico del
                                     primer grupo de variables
                                            cuantitativas


La ilustración 15 permite verificar el grado de variabilidad entre el bodyweigth y brainweigth entre
algunas species (muy separadas) nótese el grado de separabilidad entre las distancias y observando
un grado de cercanía entre algunas species y otras muy pero muy cercanas el grado de separación
entre las mismas.




21
Ilustración 15: Representación de las coordenadas principales de las variables bodyweight y
                                             brainweight



La matriz de distancias del segundo grupo: maximulifescan y gestationtime lo observamos en la
Tabla 13. no existe un notable grado de separación entre las coordenadas, existe algunas species que
tienen un elevado nivel de maximumlifescan y otras varían su gestationtime.




Tabla 13: Matriz de distancias euclídeas del grupo 2 de variables cuantitativas (maximumlifescan y
                                          gestationtime)



En la Tabla 14 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el
escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las
coordenadas principales.




22
Tabla 14: Escalado
                                  Multidimensional Métrico del
                                  segundo grupo de variables
                                          cuantitativas

La ilustración 16 permite verificar el grado de variabilidad entre el maximumlifescan y
gestationtime entre algunas species nótese el grado de separabilidad entre las distancias y
observando un grado de cercanía entre algunas species, notablemente las distancias no son muy
notorias en relación a su tamaño como se observo en el escalamiento multidimensional del primer
grupo pero se observa que esas species tienen un nivel mas alto de vida y de tiempo de gestación.




23
Ilustración 16: Representación de las coordenadas principales de las variables maximumlifescan y
                                          gestationtime




24
7 ANÁLISIS DE CONGLOMERADOS
        7.1        Motivación
El análisis de conglomerados es una técnica cuya idea básica es agrupar un conjunto de
observaciones en un número dado de conglomerados o grupos. Este agrupamiento se basa en la idea
de distancia o similitud entre las observaciones.

La obtención de dichos conglomerados depende del criterio o distancia considerados. El número
posible de combinaciones de grupos y de elementos que integran los posibles grupos se hace
intratable desde el punto de vista computacional, aún con un número escaso de observaciones.

Se hace necesario, pues, encontrar métodos o algoritmos que infieran el número y componentes de
los conglomerados más aceptable, aunque no sea el óptimo absoluto. Previamente es necesario
considerar el concepto de medida de similitud. Académicos e investigadores de mercado a menudo
encuentran la mejor solución para resolver sus estudios mediante la definición de grupos
homogéneos de objetos, ya sean ellos individuos, firmas, productos, o incluso comportamientos.

Opciones estratégicas basadas en la identificación de grupos dentro de la población tales como la
segmentación o el marketing de objetivos no serían posibles sin un objetivo metodológico. La
misma necesidad nos la encontramos en otras áreas, abarcando desde las ciencias físicas (por
ejemplo, clasificación de varios grupos de animales, como insectos o mamíferos) a las ciencias
sociales (por ejemplo, análisis de varios perfiles psiquiátricos).

En todos estos ejemplos, el analista trata de encontrar una estructura natural a través de las
observaciones basándose en un perfil multivariado. La técnica más comúnmente usada para este
propósito es el Análisis de Conglomerados.

El AC tiene como propósito esencial, agrupar aquellos objetos que reúnan idénticas características,
es decir, se convierte así en una técnica de análisis exploratorio diseñada para revelar las
agrupaciones naturales dentro de una colección de datos. Este análisis no hace ninguna distinción
entre variables dependientes (VD) y variables independientes (VI) sino que calcula las relaciones
interdependientes de todo el conjunto de variables.

Aplicaciones
El análisis de conglomerados se puede utilizar para:
    • La taxonomía, agrupar especies naturales.
    • Para el marketing, clasificar consumidores tipo.
    • Medicina, clasificar seres vivos con los mismos síntomas y características patológicas.
    • Técnicas de reconocimiento de patrones.
    • Formar grupos de pixels en imágenes digitalizadas enviadas por un satélite desde un planeta
        para identificar los terrenos.

Para nuestro análisis de conglomerados debemos de tener cuidado al agrupar variables en grupos
homogéneos tomando en cuenta el tipo, en nuestro caso tenemos 7 variables cuantitativas continuas
y 3 variables cualitativas discretas.

Para el estudio vamos a trabajar con el grupo de variables cuantitativas: bodyweight, brainweight,
nondreamingsleep, dreamingsleep, totalsleep, maximumlifespan, gestationtime, y descubriremos los
conglomerados que abarcan a la relaciones entre las species.

Utilizamos 42 observaciones con 7 variables, además se utilizara la librería de R(cluster).

25
Lo que primero vamos a realizar en el análisis de conglomerados es crear la matriz de distancias,
para realizar el análisis con ella y seleccionar el número de grupos del total de la muestra. Para crear
la matriz de distancias entre las observaciones debemos de aplicar un método de cálculo, lo que se
va a realizar es comparar 4 métodos de obtención de distancias: manhattan, euclidean, maximum y
camberra.

En la Ilustracion 17, observamos los resultados con los 4 métodos y nos disponemos a escoger un
método para nuestro problema.




                   Ilustración 17: Métodos de obtención de matriz de distancias

La Ilustración 17, nos permiten comparar los distintos métodos empleados para las distancias. Se
observa que la distancia euclídea y la de máximos ofrecen resultados parecidos, parece que se
forman 4 grupos y las observaciones 2 y 22 difieren del resto. El método Camberra ofrece otros
resultados diferentes pero este método es adecuado para datos estandarizados y no es nuestro caso.
Vamos a emplear la distancia euclídea. Para determinar mejor el número de clusters a seleccionar
vamos a emplear el algoritmo PAM (Partitioning Around Medoids), como se observa en la
Ilustración 18 el respectivo dendograma.




26
Ilustración 18: Dendograma de 2, 3, 4 y 5 posibles cluster utilizando PAM

Viendo las 4 siluetas parece más adecuado elegir los k=4 grupos (son mas homogéneos difiere un
poco con k=5) porque son más homogéneos. De todos modos procede un análisis del tamaño de los
grupos porque a la vista de las siluetas y los dendogramas anteriores parece que algunas
observaciones distorsionan el agrupamiento que lo observamos en la Tabla 15.




                      Tabla 15: Análisis a fondo del tamaño de los grupos

En la Tabla 15, se observa que existen grupos con un solo miembro tanto en el tamaño de k=4 y 5,
además que no varía la cantidad de species en el grupo 1 de 25 en el grupo. Esto se debe a las
diferentes características que comparten algunos mamíferos. De acuerdo a esto se trabaja con 4
clusters.

Ahora observemos como se han agrupado las 42 observaciones de estudio con los clusters finales,


27
como lo presenta resumida la Tabla 16 y 17.




                      Tabla 16: Resumen de Variables y a que cluster pertenecen
Se observa que el African giant pouched rat pertenece al cluster 4, que comparte algunas
características con el Big brown bat, etc.

El Asian elephant está en un solo grupo debido a sus notadas diferencias que hacen que sea el
cluster 1 heterogéneo al resto.




                   Tabla 17: Resumen de Variables y a que cluster pertenecen


En la Tabla 18 se observa el análisis de cada una de las variables en cada cluster, para poder
observar el comportamiento de las agrupaciones realizadas.




28
Tabla 18: Comportamiento del agrupamiento por variables


Vemos que de acuerdo a los resultados de las medias se observa que que las species homogéneas de
cada uno de los grupos, nos permite obtener las siguientes relaciones que se dan, por ejemplo las
species del cluster 1, duermen más que otras species, eso se da en el Asian elephant que además es
el de mayor tamaño, se podría concluir que mientras más tamaño mas duermen, eso debido a que en
la variable totalsleep, se ve que el cluster tiene el menor valor.

Otra conclusión que se presenta de acuerdo a la Tabla 18, es que las species mas pequeñas tienen su
período de gestación mas corto.

Las species del cluster 3 tienen una mayor esperanza de vida, dentro de ese cluster se encuentra el
hombre.




29
8 CONCLUSIONES

     •   La exploración de datos se ha llevado en los análisis uni y bivariante representando los
         estadísticos respectivos para las variables cuantitativas y cualitativas.
     •   Existe una amplia cantidad de variabilidad entre algunas características como: weight,
         gestation time, and life span de los mamíferos esto se debe a la variabilidad de los mismos.
     •   Existe una alta correlación entre algunas variables como: danger index, weight, maximum
         life span, and, of course, dreaming sleep.
     •   Para el análisis de componentes principales se trabajo con 7 variables cuantitativas y se
         obtuvo dos componentes que cuyos resultados permitieron ver las relaciones entre las
         variables.
     •   Para el análisis de correspondencias se trabajo con el análisis de correspondencias simple
         entre 2 variables cuantitativas discretas.
     •   En el escalamiento multidimensional se realizo el análisis sobre 2 conjuntos de variables
         cuantitativas del cual se obtuvo las coordenadas principales.
     •   La variabilidad de datos en el análisis de conglomerados se observa que un mamífero
         pertenece a un cluster sin otros miembros por poseer características de tamaño diferente.
     •   El análisis de conglomerados permite agrupar species homogéneas que comparten
         características comunes.
     •   Se debe tener cuidado con la distancias euclídeas cuando las variables tienen tamaños
         demasiado grande del resto de valores de las observaciones.




30
9 BIBLIOGRAFÍA

[1] Análisis de Componentes Principales, Manuel Terrádez Gurrea, UOC, Proyecto e-Math.

[2] Introducción al Análisis Multivariado, Julia Moreno Madueño, Universidad de Granada.

[3] Análisis multivariado de datos en R, Campo Elías Pardo y Jorge Ortiz, Departamento de
Estadística. Universidad Nacional de Colombia-Bogotá.

[4] Análisis de cluster para definir territorios a investigar sobre el servicio de auditoría. Principios y
fundamentos         teóricos       para        su       aplicación.       Variables       a       utilizar.
http://www.gestiopolis.com/canales6/mkt/investigacion-de-mercados-yauditoria.htm.              Disponible
[25 de enero del 2011].

[5] G. Linares, Escalamiento Multidimensional:Conceptos y Enfoques, Departamento de
Matemática Aplicada, Facultad de Matemática y Computación,Universidad de La Habana, 2001.
http://rev-inv-ope.univparis1.fr/files/22201/IO-22201-10.pdf. Disponible [25 de enero del 2011]

[6 Análisis de Correspondencias, http://www.ucm.es/info/eue/eio3/docs/Tema %202. %20Analisis
%20de %20Correspondencias/introduccion %20tema2.htm Disponible [22 de enero del 2011]

[7]       Análisis     de         Correspondencias.          http://halweb.uc3m.es/esp/Personal/
personas/jmmarin/esp/AMult/acorresp.pdf. Disponible [22 de enero del 2011]

[8] Técnicas estadísticas multivariadas y sus aplicaciones a indicadores e índices económicos
financieros de la actividad turística. http://www.gestiopolis.com/canales7/fin/matematicas-
aplicacion-deestadisticas-multivariables-e-indicadores-financieros.htm. Disponible [21 de enero del
2011].

[9] Manual. Curso Introducción de R, http://analisisydecision.es/manual-cursointroduccion-de-r-
capitulo-15-analisis-cluster-con-r-ii/, [26 de enero del 2011].

[10] Andrés M. Alonso, Transparencias de Estadística I: Análisis de datos Univariantes,
http://www.est.uc3m.es/amalonso/esp/docencia.html, Disponible [20 de diciembre 2010]

[11] Daniel Peña, Análisis de Datos Multivariantes, McGraw-Hill, 2002. Madrid.




31

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Cálculo multivariable
Cálculo multivariableCálculo multivariable
Cálculo multivariable
 
Ainotes Spanish
Ainotes SpanishAinotes Spanish
Ainotes Spanish
 
Metodologia Hefesto - Business Intelligence
Metodologia Hefesto - Business IntelligenceMetodologia Hefesto - Business Intelligence
Metodologia Hefesto - Business Intelligence
 
Datawarehouse hefesto
Datawarehouse hefestoDatawarehouse hefesto
Datawarehouse hefesto
 
Hefesto v2.1
Hefesto v2.1Hefesto v2.1
Hefesto v2.1
 
Libro estadistica javier gorgas
Libro estadistica javier gorgasLibro estadistica javier gorgas
Libro estadistica javier gorgas
 
Algebra de lie
Algebra de lieAlgebra de lie
Algebra de lie
 
39702397 matematicas-discretas
39702397 matematicas-discretas39702397 matematicas-discretas
39702397 matematicas-discretas
 
Eva proyectos
Eva proyectosEva proyectos
Eva proyectos
 
Max
MaxMax
Max
 
Manual Scilab
Manual ScilabManual Scilab
Manual Scilab
 
Refuerzo 6
Refuerzo 6Refuerzo 6
Refuerzo 6
 
Psu Matematica
Psu MatematicaPsu Matematica
Psu Matematica
 
Matematica Discreta
Matematica DiscretaMatematica Discreta
Matematica Discreta
 
Algebra-y-geom.pdf
Algebra-y-geom.pdfAlgebra-y-geom.pdf
Algebra-y-geom.pdf
 
Material MAT021
Material MAT021Material MAT021
Material MAT021
 
ejercicio de variable compleja
ejercicio de variable compleja ejercicio de variable compleja
ejercicio de variable compleja
 
ANALISIS
ANALISISANALISIS
ANALISIS
 
Fisica y Quimica - Mecanica cuantica I
Fisica y Quimica - Mecanica cuantica IFisica y Quimica - Mecanica cuantica I
Fisica y Quimica - Mecanica cuantica I
 

Destacado

Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Aprendizaje
Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de AprendizajeCadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Aprendizaje
Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de AprendizajeUniversidad Nacional de Loja
 
Perfil personal, académico, profesional y científico de Luis Chamba-Eras
Perfil personal, académico, profesional y científico de Luis Chamba-ErasPerfil personal, académico, profesional y científico de Luis Chamba-Eras
Perfil personal, académico, profesional y científico de Luis Chamba-ErasUniversidad Nacional de Loja
 
Bayesian Networks to Predict Reputation in Virtual Learning Communities
Bayesian Networks to Predict Reputation in Virtual Learning CommunitiesBayesian Networks to Predict Reputation in Virtual Learning Communities
Bayesian Networks to Predict Reputation in Virtual Learning CommunitiesUniversidad Nacional de Loja
 
Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...
Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...
Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...Universidad Nacional de Loja
 
Capitulo 2: Aplicación Práctica de Autómatas Finitos
Capitulo 2: Aplicación Práctica de Autómatas Finitos Capitulo 2: Aplicación Práctica de Autómatas Finitos
Capitulo 2: Aplicación Práctica de Autómatas Finitos Universidad Nacional de Loja
 
Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...
Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...
Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...Universidad Nacional de Loja
 
Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...
Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...
Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...Universidad Nacional de Loja
 
Componentes mínimos de modelos de confianza en e-learning y CVA
Componentes mínimos de modelos de confianza en e-learning y CVAComponentes mínimos de modelos de confianza en e-learning y CVA
Componentes mínimos de modelos de confianza en e-learning y CVAUniversidad Nacional de Loja
 
Laboratorio virtual para la simulación de componentes internos del computador
Laboratorio virtual para la simulación de componentes internos del computadorLaboratorio virtual para la simulación de componentes internos del computador
Laboratorio virtual para la simulación de componentes internos del computadorUniversidad Nacional de Loja
 
Laboratorio Virtual: una alternativa a la educación teórica
Laboratorio Virtual: una alternativa a la educación teóricaLaboratorio Virtual: una alternativa a la educación teórica
Laboratorio Virtual: una alternativa a la educación teóricaUniversidad Nacional de Loja
 
Matriz de observación de clase demostrativa: ejemplo
Matriz de observación de clase demostrativa: ejemploMatriz de observación de clase demostrativa: ejemplo
Matriz de observación de clase demostrativa: ejemploUniversidad Nacional de Loja
 

Destacado (20)

Luis Antonio Chamba Eras
Luis Antonio Chamba ErasLuis Antonio Chamba Eras
Luis Antonio Chamba Eras
 
Capitulo 2 Aplicación Práctica AF
Capitulo 2 Aplicación Práctica AFCapitulo 2 Aplicación Práctica AF
Capitulo 2 Aplicación Práctica AF
 
Cálculo - 2015 - Clase 1
Cálculo - 2015 - Clase 1Cálculo - 2015 - Clase 1
Cálculo - 2015 - Clase 1
 
Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Aprendizaje
Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de AprendizajeCadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Aprendizaje
Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Aprendizaje
 
Perfil personal, académico, profesional y científico de Luis Chamba-Eras
Perfil personal, académico, profesional y científico de Luis Chamba-ErasPerfil personal, académico, profesional y científico de Luis Chamba-Eras
Perfil personal, académico, profesional y científico de Luis Chamba-Eras
 
Trust Model for Virtual Learning Communities
Trust Model for Virtual Learning CommunitiesTrust Model for Virtual Learning Communities
Trust Model for Virtual Learning Communities
 
Creative Commons UNL+
Creative Commons UNL+Creative Commons UNL+
Creative Commons UNL+
 
Luis Antonio Chamba Eras
Luis Antonio Chamba ErasLuis Antonio Chamba Eras
Luis Antonio Chamba Eras
 
Bayesian Networks to Predict Reputation in Virtual Learning Communities
Bayesian Networks to Predict Reputation in Virtual Learning CommunitiesBayesian Networks to Predict Reputation in Virtual Learning Communities
Bayesian Networks to Predict Reputation in Virtual Learning Communities
 
Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...
Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...
Extensiones de Seguridad para el Sistema de Nombres de Dominio aplicadas en l...
 
Capitulo 2: Aplicación Práctica de Autómatas Finitos
Capitulo 2: Aplicación Práctica de Autómatas Finitos Capitulo 2: Aplicación Práctica de Autómatas Finitos
Capitulo 2: Aplicación Práctica de Autómatas Finitos
 
Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...
Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...
Charla: Cadenas confianza con DNSSEC aplicadas a Comunidades Virtuales de Apr...
 
Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...
Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...
Redes bayesianas para predecir el estilo de aprendizaje de estudiantes en ent...
 
Componentes mínimos de modelos de confianza en e-learning y CVA
Componentes mínimos de modelos de confianza en e-learning y CVAComponentes mínimos de modelos de confianza en e-learning y CVA
Componentes mínimos de modelos de confianza en e-learning y CVA
 
Transparencias atica2012
Transparencias atica2012Transparencias atica2012
Transparencias atica2012
 
Laboratorio virtual para la simulación de componentes internos del computador
Laboratorio virtual para la simulación de componentes internos del computadorLaboratorio virtual para la simulación de componentes internos del computador
Laboratorio virtual para la simulación de componentes internos del computador
 
Minería de Datos - 2015 - Clases
Minería de Datos - 2015 - ClasesMinería de Datos - 2015 - Clases
Minería de Datos - 2015 - Clases
 
Laboratorio Virtual: una alternativa a la educación teórica
Laboratorio Virtual: una alternativa a la educación teóricaLaboratorio Virtual: una alternativa a la educación teórica
Laboratorio Virtual: una alternativa a la educación teórica
 
Matriz de observación de clase demostrativa: ejemplo
Matriz de observación de clase demostrativa: ejemploMatriz de observación de clase demostrativa: ejemplo
Matriz de observación de clase demostrativa: ejemplo
 
Computación - 2015 - Clases
Computación - 2015 - Clases Computación - 2015 - Clases
Computación - 2015 - Clases
 

Similar a Memoria Exploración y Análisis de Datos

2011 minitab-15
2011 minitab-152011 minitab-15
2011 minitab-15JOREOS
 
Serie aprender a investigar 4
Serie aprender a investigar 4Serie aprender a investigar 4
Serie aprender a investigar 4JCASTINI
 
Diseño canónico control automatico
Diseño canónico control automaticoDiseño canónico control automatico
Diseño canónico control automaticoAlejandra Mendoza
 
Tesis Licenciatura
Tesis LicenciaturaTesis Licenciatura
Tesis LicenciaturaCIMAT
 
Peña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantesPeña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantesRobert_Hooke
 
Daniel peña análisis de datos multivariantes
Daniel peña   análisis de datos multivariantesDaniel peña   análisis de datos multivariantes
Daniel peña análisis de datos multivariantesfojeda89
 
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...MarioRivera243377
 
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSerie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSistemadeEstudiosMed
 
Metodos
MetodosMetodos
Metodostototl
 
INDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTES
INDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTESINDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTES
INDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTESmilenagost
 

Similar a Memoria Exploración y Análisis de Datos (20)

2011 minitab-15
2011 minitab-152011 minitab-15
2011 minitab-15
 
Serie aprender a investigar 4
Serie aprender a investigar 4Serie aprender a investigar 4
Serie aprender a investigar 4
 
Diseño canónico control automatico
Diseño canónico control automaticoDiseño canónico control automatico
Diseño canónico control automatico
 
Guia_Analisis_Exp.pdf
Guia_Analisis_Exp.pdfGuia_Analisis_Exp.pdf
Guia_Analisis_Exp.pdf
 
EstadisticaIngenieros.pdf
EstadisticaIngenieros.pdfEstadisticaIngenieros.pdf
EstadisticaIngenieros.pdf
 
Tesis Licenciatura
Tesis LicenciaturaTesis Licenciatura
Tesis Licenciatura
 
Analisis de Regresion en R.pdf
Analisis de Regresion  en R.pdfAnalisis de Regresion  en R.pdf
Analisis de Regresion en R.pdf
 
Peña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantesPeña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantes
 
Daniel peña análisis de datos multivariantes
Daniel peña   análisis de datos multivariantesDaniel peña   análisis de datos multivariantes
Daniel peña análisis de datos multivariantes
 
*
**
*
 
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
06. apuntes de estadística en ciencias de la salud autor p. botella rocamora...
 
6. bioestadistica
6. bioestadistica6. bioestadistica
6. bioestadistica
 
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSerie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
 
Aa i modulo 4
Aa i modulo 4Aa i modulo 4
Aa i modulo 4
 
Metodos
MetodosMetodos
Metodos
 
INDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTES
INDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTESINDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTES
INDICE DE SEGURIDAD ALIMENTARIA POR MACRONUTRIENTES
 
Tesis análisis estructural.
Tesis análisis estructural.Tesis análisis estructural.
Tesis análisis estructural.
 
Tesis python ing. civil
Tesis python ing. civilTesis python ing. civil
Tesis python ing. civil
 
Rarepaso
RarepasoRarepaso
Rarepaso
 
Rarepaso
RarepasoRarepaso
Rarepaso
 

Más de Universidad Nacional de Loja

Democratización del aprendizaje de la inteligencia artificial desde edades te...
Democratización del aprendizaje de la inteligencia artificial desde edades te...Democratización del aprendizaje de la inteligencia artificial desde edades te...
Democratización del aprendizaje de la inteligencia artificial desde edades te...Universidad Nacional de Loja
 
Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...
Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...
Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...Universidad Nacional de Loja
 
Clase 2- Introducción a los Proyectos Informáticos
Clase 2- Introducción a los Proyectos InformáticosClase 2- Introducción a los Proyectos Informáticos
Clase 2- Introducción a los Proyectos InformáticosUniversidad Nacional de Loja
 
Clase1- Introducción a la Gestión de Proyectos Informáticos
Clase1- Introducción a la Gestión de Proyectos InformáticosClase1- Introducción a la Gestión de Proyectos Informáticos
Clase1- Introducción a la Gestión de Proyectos InformáticosUniversidad Nacional de Loja
 
Clase1- Introducción a los Proyectos Informáticos
Clase1- Introducción a los Proyectos InformáticosClase1- Introducción a los Proyectos Informáticos
Clase1- Introducción a los Proyectos InformáticosUniversidad Nacional de Loja
 
Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020 Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020 Universidad Nacional de Loja
 
Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020Universidad Nacional de Loja
 
Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020
Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020
Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020Universidad Nacional de Loja
 
Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...
Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...
Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...Universidad Nacional de Loja
 
Rol del Tutor en el proceso de enseñanza-aprendizaje eLearning
Rol del Tutor en el proceso de enseñanza-aprendizaje eLearningRol del Tutor en el proceso de enseñanza-aprendizaje eLearning
Rol del Tutor en el proceso de enseñanza-aprendizaje eLearningUniversidad Nacional de Loja
 
Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0
Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0
Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0Universidad Nacional de Loja
 
La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...
La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...
La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...Universidad Nacional de Loja
 
MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...
MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...
MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...Universidad Nacional de Loja
 
MDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingeniería
MDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingenieríaMDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingeniería
MDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingenieríaUniversidad Nacional de Loja
 
Curso Ciencia 2.0: Recursos para aprendizaje, investigación e innovación
Curso Ciencia 2.0: Recursos para aprendizaje, investigación e innovaciónCurso Ciencia 2.0: Recursos para aprendizaje, investigación e innovación
Curso Ciencia 2.0: Recursos para aprendizaje, investigación e innovaciónUniversidad Nacional de Loja
 
Curso Ciencia 2.0: Recursos para el docente universitario
Curso Ciencia 2.0: Recursos para el docente universitarioCurso Ciencia 2.0: Recursos para el docente universitario
Curso Ciencia 2.0: Recursos para el docente universitarioUniversidad Nacional de Loja
 

Más de Universidad Nacional de Loja (20)

Democratización del aprendizaje de la inteligencia artificial desde edades te...
Democratización del aprendizaje de la inteligencia artificial desde edades te...Democratización del aprendizaje de la inteligencia artificial desde edades te...
Democratización del aprendizaje de la inteligencia artificial desde edades te...
 
¿Dónde publicar?
¿Dónde publicar?¿Dónde publicar?
¿Dónde publicar?
 
Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...
Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...
Clase3 - Metodología de la Investigación en Ciencias de la Computación: Intro...
 
Clase 2- Introducción a los Proyectos Informáticos
Clase 2- Introducción a los Proyectos InformáticosClase 2- Introducción a los Proyectos Informáticos
Clase 2- Introducción a los Proyectos Informáticos
 
Clase1- Introducción a la Gestión de Proyectos Informáticos
Clase1- Introducción a la Gestión de Proyectos InformáticosClase1- Introducción a la Gestión de Proyectos Informáticos
Clase1- Introducción a la Gestión de Proyectos Informáticos
 
Clase1- Introducción a los Proyectos Informáticos
Clase1- Introducción a los Proyectos InformáticosClase1- Introducción a los Proyectos Informáticos
Clase1- Introducción a los Proyectos Informáticos
 
Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020 Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos II - abril-septiembre 2020
 
Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020
Encuadre de la Asignatura de Proyectos Informáticos I - abril-septiembre 2020
 
Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020
Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020
Encuadre de la Asignatura de Inteligencia Artificial - abril-septiembre 2020
 
Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...
Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...
Metodologías, recursos, y recomendaciones prácticas para preparar un curso en...
 
Rol del Tutor en el proceso de enseñanza-aprendizaje eLearning
Rol del Tutor en el proceso de enseñanza-aprendizaje eLearningRol del Tutor en el proceso de enseñanza-aprendizaje eLearning
Rol del Tutor en el proceso de enseñanza-aprendizaje eLearning
 
Machine Learning para Wawas
Machine Learning para WawasMachine Learning para Wawas
Machine Learning para Wawas
 
Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0
Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0
Inteligencia Artificial en la Educación: Machine Learning y Scratch 3.0
 
Cienciometria y desarrollo de colecciones
Cienciometria y desarrollo de coleccionesCienciometria y desarrollo de colecciones
Cienciometria y desarrollo de colecciones
 
La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...
La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...
La Tecnología en las Tendencias de Innovación Educativa: Aprendizaje mediado ...
 
MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...
MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...
MDE para identificar la relación entre el IQ, IM, EA, IE de estudiantes de in...
 
MDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingeniería
MDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingenieríaMDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingeniería
MDE para identificar la relación de IQ, IM, EA, IE de estudiantes de ingeniería
 
Curso Ciencia 2.0: Recursos para aprendizaje, investigación e innovación
Curso Ciencia 2.0: Recursos para aprendizaje, investigación e innovaciónCurso Ciencia 2.0: Recursos para aprendizaje, investigación e innovación
Curso Ciencia 2.0: Recursos para aprendizaje, investigación e innovación
 
Curso Ciencia 2.0: Recursos para el docente universitario
Curso Ciencia 2.0: Recursos para el docente universitarioCurso Ciencia 2.0: Recursos para el docente universitario
Curso Ciencia 2.0: Recursos para el docente universitario
 
Curso Ciencia 2.0: NMC Horizon Report 2017
Curso Ciencia 2.0: NMC Horizon Report 2017Curso Ciencia 2.0: NMC Horizon Report 2017
Curso Ciencia 2.0: NMC Horizon Report 2017
 

Último

Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscaeliseo91
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdfBaker Publishing Company
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdfgimenanahuel
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfMaryRotonda1
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSjlorentemartos
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Carlos Muñoz
 
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docxCeciliaGuerreroGonza1
 

Último (20)

Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fisca
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdf
 
Razonamiento Matemático 1. Deta del año 2020
Razonamiento Matemático 1. Deta del año 2020Razonamiento Matemático 1. Deta del año 2020
Razonamiento Matemático 1. Deta del año 2020
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
 
Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 

Memoria Exploración y Análisis de Datos

  • 1. UNIVERSIDAD DEL PAÍS VASCO FACULTAD DE INFORMÁTICA MÁSTER EN INGENIERÍA COMPUTACIONAL Y SISTEMAS INTELIGENTES EXPLORACIÓN Y ANÁLISIS DE DATOS LUIS ANTONIO CHAMBA ERAS 2010 - 2011 Exploración y Análisis de "Sleep in Mammals: Ecological and Constitutional Correlates" 1
  • 2. Índice general 1 Presentación 1.1 Introducción 3 2 Fuente y Descripción de Datos 3 2.1 Fuente de datos 3 2.2 Descripción de datos 3 3 Estudio Descriptivo General 4 3.1 Análisis Univariante 4 3.2 Análisis Bivariante 6 4 Análisis de Componentes Principales 10 4.1 Motivación 10 5 Análisis de Correspondencias 15 5.1 Motivación 15 6 Escala Multidimensional 20 6.1 Motivación 20 7 Análisis de Conglomerados 25 7.1 Motivación 25 8 Conclusiones 30 9 Bibliografía 31 2
  • 3. 1 PRESENTACIÓN 1.1 Introducción En la presente memoria se presenta el trabajo de Exploración y Análisis de Datos de un conjunto de observaciones y variables. Se trata del Análisis del "Sleep in Mammals: Ecological and Constitutional Correlates", que incluye variables como: brain and body weight, life span, gestation time, time sleeping, and predation and danger indices de 62 mamíferos, se utiliza algunas técnicas del análisis multivariante como: componentes principales, correspondencias, escalado multidimensional y conglomerados. 2 FUENTE Y DESCRIPCIÓN DE DATOS 2.1 Fuente de Datos Durante el desarrollo del presente trabajo se pondrá en practica algunas de las técnicas de análisis de datos, se utilizará el software R en la manipulación y representación de los mismos, la información se ha sido extraído del repositorio del Data, Software and News from the Statistics Community1, en donde se escogió el Sleep in Mammals: Ecological and Constitutional Correlates, by Allison, T. and Cicchetti, D(1976) 2, se cuenta con 62 observaciones, con 10 variables de las cuales 3 son variables cualitativas y 7 cuantitativas, se encuentran campos missing para lo cual se debe de realizar un filtrado de los datos. 2.2 Descripción de Datos Con estos datos nos va a permitir poder tener a disposición de las herramientas para la toma de decisiones por los diferentes métodos multivariantes como: análisis de componentes principales, análisis de correspondencias, escalado multidimensional y conglomerados. Las variables para el estudio son: • species of animal • body weight in kg • brain weight in g • slow wave ("nondreaming") sleep (hrs/day) • paradoxical ("dreaming") sleep (hrs/day) • total sleep (hrs/day) (sum of slow wave and paradoxical sleep) • maximum life span (years) • gestation time (days) • predation index (1-5): 1 = minimum (least likely to be preyed upon) 5 = maximum (most likely to be preyed upon), 1=Least Likely, 2=Not Likely, 3=Neutral, 4=Likely, 5=Most Likely • sleep exposure index (1-5): 1 = least exposed (e.g. animal sleeps in a well-protected den) 5 = most exposed, 1=Highly Unexposed, 2=Unexposed, 3=Neutral, 4=Exposed, 5=Highly • Exposed overall danger index (1-5): (based on the above two indices and other information), 1 = least danger (from other animals) 5 = most danger (from other animals) 1=Least Dangerous, 2=Not Dangerous, 3=Neutral, 4=Dangerous, 5=Most Dangerous • Missing values denoted by -999.0 1 http://lib.stat.cmu.edu/datasets/ Disponible el [14/02/2011] 2 http://lib.stat.cmu.edu/datasets/sleep Disponible el [14/02/2011] 3
  • 4. 3 ESTUDIO DESCRIPTIVO GENERAL Lo primero que se realizará es obtener cada uno de los estadísticos descriptivos de los datos y obtener algunas conclusiones para el posterior análisis multivariante. Se trabajara con un conjunto de 10 variables de las cuales 3 son variables cualitativas: predation index, sleep exposure index y 7 cuantitativas: species of animal, body weight, brain weight, slow wave sleep, paradoxical sleep, total sleep, maximum life span, gestation time. Se utilizará para el cálculo estadistico el Software R3. Los missing values se los filtro los datos originales hasta eliminar los valores missing se cuenta con un total de 620 valores que equivale al 100 %, de los cuales existen 38 valores missing que equivale al 6.13% en la fuente original de datos, se reduce de 62 observaciones a 42. Con estos datos filtrados se da inicio al presente trabajo. 3.1 Análisis Univariante Se realizará un análisis de las variables independientemente del resto. Para ello se presentan los resúmenes numéricos y gráficos de las variables cuantitativas y cualitativas. Un resumen estadístico de las variables cualitativas lo observamos en la Tabla1. Variable Media sd 0 0.25 0.5 0.75 1 n brainweight(g) 218.7 732.8 0.1 3.6 12.2 155.5 4603 42 bodyweight(kg) 100.8 402.1 0.01 0.3 2.3 10.4 2547 42 dreamingsleep(h/d) 1.9 1.4 0 0.9 1.7 2.4 6.6 42 nondreamingsleep(h/d) 8.7 3.8 2.1 6.2 8.5 11 17.9 42 gestationtime(d) 129.9 127.8 12 32 90 195 624 42 maximumlifespan(a) 19.4 20.3 2 5.3 11.2 27 100 42 totalsleep(h/d) 10.6 4.7 2.9 8.1 9.8 13.6 19.9 42 Tabla 1: Estadísticos Univariantes Cuantitativos En la ilustración 1, se observa que existe mucha variación en las variables brainweight, bodyweight, gestationtime y maximumlifespan esto es debido a que se tiene en la muestra diferentes tipos de mamíferos y que varía enormemente de una especie a otra. Se podría inducir que estas variables tienen mucho que ver con el sleep de algunos animales. Las variables cualitativas tienen otros estadísticos diferentes a las cuantitativas las mismas que se observa en la Tabla 2. 3 http://www.r-project.org/ Disponible [16/12/2010] 4
  • 5. Frecuencias Absolutas: 1 2 3 4 5 Total predation index 8 11 7 7 9 42 sleep exposure index 18 9 4 4 7 42 overall danger index 11 10 7 9 5 42 Frecuencias Relativas: 1 2 3 4 5 Total predation index 0.19 0.26 0.17 0.17 0.22 1 sleep exposure index 0.43 0.21 0.09 0.09 0.17 1 overall danger index 0.26 0.24 0.17 0.21 0.12 1 Tabla 2: Estadísticos Univariantes Cualitativos Se observa claramente que existe una frecuencia uniforme en la variable predationindex en cada unas de las posibles opciones con que cada specie tiene en su forma de vida. De una manera gráfica observamos los Diagramas de barra para la variable predationindex como se observa en la Ilustración1: Ilustración 1: Diagrama de Barras de Predationindex Se observa en el diagrama que la frecuencia es alta en cada una de las maneras de vida de las species sobre el 60%. Mediante los diagramas de caja observaremos en la Ilustración 2, claramente la alta variabilidad en las variables brainweight, bodyweight, gestationtime y maximumlifespan. 5
  • 6. Ilustración 2: Variabilidad de las variables cuantitativas relacionadas directamente con el sleep Con este análisis univariante se puede observar que existe una alta correlación entre algunas variables cualitativas y cuantitativas. 3.2 Análisis Bivariante Una vez analizadas las variables independientemente se procede a observar la relación con otras variables. El primer histograma es el que se observa en la Ilustración 3, es el de la variable dreamingsleep (horas/día), dreamingsleep parece tener una distribución normal en la muestra, aunque aparecen unas variaciones en los datos alrededor del valor de 2 y 4 horas. Ilustración 3: Histograma de Dreaminsleep(h/d) En las ilustraciones 4 y 5, se muestra el diagrama de dispersión de bodyweight versus dreamingsleep, y el histograma de bodyweight. El histograma muestra que los datos tienen un gran número de species relativamente pequeños en la muestra, lo que es de esperar, teniendo en cuenta la 6
  • 7. distribución del tamaño general de los mamíferos (hay más mamíferos pequeños, como roedores, perros, hombre y ademas los más grandes , como ciervos, vacas y elefantes). El diagrama de dispersión muestra que, una vez más, hay muchos mamíferos más pequeños en la muestra que los grandes de mayor tamaño, y que hay una variación bastante grande en el dreamingsleep en los mamíferos clasificados en función de su peso. Ilustración 4: Diagrama de dispersión de Bodyweight(Kg) vs Dreamingsleep(h/d) Ilustración 5: Histograma de Bodyweight(Kg) 7
  • 8. Ilustración 6: Diagrama de dispersión de Maximumlifespan(a) vs Dreamingsleep(h/d) Ilustración 7: Maximumlifespan Las Ilustraciones 6 y 7 muestran el diagrama de dispersión de maximumlifespan en años versus dreamingsleep en horas y el histograma de maximumlifespan. El histograma muestra una distribución algo normal en maximumlifespan, con una concentración de alrededor de diez años. El diagrama de dispersión muestra una variación significativa en dreamingsleep en función de maximumlifespan, es difícil determinar la relación entre las variables de la dispersión. Parece que hay un ligero efecto de agrupamiento en torno a dos horas de sueño a todos los ciclos de vida. 8
  • 9. Ilustración 8: Diagrama de dispersión de Overalldangerindex(1-5) vs Dreamingsleep(h/d) Ilustración 9: Diagrama de Barras de Overalldangerindex(1-5) En la ilustración 8 y 9 el diagrama de dispersión del overalldangerindex (1-5) versus dreamingsleep (h/d) y el Diagrama de barras de overalldangerindex. El Diagrama de barras muestra una distribución bastante uniforme de los datos en todos los overalldangerindex. El diagrama de dispersión muestra una gran variación en la cantidad de dreamingslepp en los mamíferos que son menos overalldangersleep, aunque los overalldangersleep parecen tener una menor variación con tendencia a la baja de dreamingsleep . 9
  • 10. 4 ANÁLISIS DE COMPONENTES PRINCIPALES En este capítulo se trabajará con el análisis multivariado, el análisis de componentes principales, para el trabajo con R utilizaremos el paquete ADE44 y los métodos estadísticos multivariados descriptivos. El primer trabajo en R es cargar los datos mediante las funciones adecuadas para su análisis de la técnica de ACP los resultados de los mismos se verán en las secciones siguientes. 4.1 Motivación El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u ordinales. El análisis de correspondencias simples se utiliza a menudo en la representación de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos, y tablas de preferencias. Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas categorías aparecen en filas y la otra variable cuyas categorías son representadas en columnas, el análisis de correspondencias consiste en resumir la información presente en las filas y columnas de manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos variables nominales u ordinales de origen. Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable fila) e individuos (variable columna). Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una interpretación correcta. Antes de realizar cualquier análisis de componentes principales, realizamos un resumen estadístico (Tabla 1), diagramas de cajas (Ilustración 2) y el diagrama de dispersión de las variables cuantitativas(Ilustración 10). Del mismo modo, es interesante, estudiar la matriz de correlaciones, y ver, que estas sean en general altas, ya que esta es una de las hipótesis para el análisis de componentes principales (Tabla 3). Se realizará el análisis de componentes principales de las 7 variables cuantitativas: bodyweight, brainweight, nondreamingsleep, dreamingsleep, totalsleep, maximumlifespan, gestationtime. 4 Analysis of Ecological Data : Exploratory and Euclidean methods in Environmental sciences 10
  • 11. Ilustración 10: Diagrama de dispersión cuantitativo 11
  • 12. Tabla 3: Matriz de correlaciones de variables cualitativas Generamos el análisis de componentes principales obteniendo la representación gráfica de los autovalores (Ilustración 11) y reteniendo aquellos componentes principales que verifican λk > 1 (para variables tipificadas; criterio de la media aritmética). La importancia (contribuciones) absolutas y relativas de cada autovalor del análisis de componentes principales se observa en la tabla 4. Ilustración 11: El gráfico de sedimentación, indica que solo son mayores que 1 los autovalores de los 2 primeros componentes (por el criterio de la media aritmética). 12
  • 13. Podemos observar cómo el primer eje explica un 58.6% de la inercia total de los datos (tabla 4). Tabla 4: Importancia (contribuciones) absolutas y relativas, de los componentes principales. En número de componentes principales a retener se seleccionó según el criterio de media aritmética (aquellos componentes que presentan una inercia mayor a 1).> acpi y > acp$eig Ilustración 12: Representación de cada fila en el espacio bidimensional. En la Ilustración 12, podemos observar cómo se separan del resto las species el Asian elephant, Man se refleja la relación de las demás species en torno a las cuadrantes I, II y IV. 13
  • 14. Ilustración 13: Representación de cada fila en el espacio bidimensional. Observamos que según el segundo componente nondreaminsleep, dreamingsleep y totalsleep(Ilustración 14) están muy definidas sus relaciones y diferencias. Respecto al primer componente, bodyweight y brainweight están relacionadas fuertemente. 14
  • 15. 5 ANÁLISIS DE CORRESPONDENCIAS 5.1 Motivación El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u ordinales. El análisis de correspondencias simples se utiliza a menudo en la representación de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales. Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos, y tablas de preferencias. Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas categorías aparecen en las filas y la otra variable cuyas categorías son representadas en columnas, el análisis de correspondencias consiste en resumir la información presente en las filas y columnas de manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos variables nominales u ordinales de origen. Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable fila) e individuos (variable columna). Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una interpretación correcta. Los datos de partida para el análisis de correspondencias es una matriz X de dimensiones nxk que representa las frecuencias absolutas observadas en una tabla de contingencia de dos variables, donde la primera se representa por filas y tiene n categorías y la segunda por columnas y tiene k categorías. Por ejemplo, clasificamos un conjunto de estudiantes en n posibles procedencias geográficas y k posibles opiniones respecto a la docencia. En general, el elemento xij de la matriz X representa la frecuencia absoluta observada en la casilla (i,j) de la tabla de contingencia. La metodología la desarrolló Benzecri, a principios de los años 60 del siglo XX en la Universidad de Renner (Francia). En esencia. es un tipo especial de análisis de componentes principales pero realizado sobre una tabla de contingencia y usando una distancia euclídea ponderada llamada chi- cuadrado. Esencialmente, el análisis de correspondencias se puede considerar una aplicación del multidimensional scaling usando una distancia específica que se puede usar para datos categóricos. Dicha distancia se denomina distancia chi cuadrado. La extensión del análisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Análisis de Correspondencias Múltiples, y utiliza los mismos principios generales que la técnica anterior. En general se orienta a casos en los cuales una variable representa ítems o individuos y el resto son variables cualitativas u ordinales que representan cualidades. 15
  • 16. Aplicación del Análisis de Correspondencias Simple y Múltiple son: • Estudios de preferencias de consumo en Investigación de Mercados. • Estudios que buscan tipologías de individuos respecto a variables cualitativas (comportamiento de especies en biología, patrones de enfermedades en medicina, perfiles psicológicos, etc.). • Estudios de posicionamiento de de empresas a partir de las preferencias de consumidores. En el análisis de datos del presente trabajo, contamos con tres variables cualitativas ordinales de las cuales realizaremos en análisis de correspondencias simple entre dos variables de las tres que disponemos: predation index, sleep exposure index y overall danger index. Las variables que se va a elegir es predation index y sleep exposure index, y ver la relación que existe para describir los datos por medio de estas dos variables. Nuestro objetivo es determinar qué tienen de común los distintos grupos de mamíferos en relación con el predation index, y cuál es la influencia del sleep exposure index. Se desea realizar un análisis de correspondencias simple. Tabla 5: Tabla de correspondencias (o de contingencia) para las dos variables cualitativas. En las filas se representan los predation index de los mamíferos y en las columnas el sleep exposure index La Tabla 5 muestra la tabla de contingencia para las dos variables, donde se observa la distribución de la variable predation index (5 categorías) entre un grupo de 5 categorías de sleep exposure index (Tabla 5). La muestra analizada presenta una mayor frecuencia por parte de los mamíferos que menos están expuestos menos amenazados y a la vez son menos propensos al peligro mientras duermen. Se observa que no existen species que sean menos amenazadas y que tengan un alto nivel de que estén expuestas al momento de dormir. Tabla 6: Perfiles de fila y columna, que son las proporciones de cada fila y columna de cada celda 16
  • 17. Tabla 7: Cuadro resumen donde se muestran las dimensiones, la inercia Tabla 8: Prueba de Chiquadrado, se comprueba que las variables son dependientes Tabla 9: Análisis de Correspondencias Simple de Filas 17
  • 18. Tabla 10: Análisis de Correspondencias simple de Columnas Para interpretar las dimensiones extraídas, se dibuja los puntos filas y columnas (Ilustración 14). Observamos que a lo largo del primer eje, se separa la categoría Exposed, Likely y a gran distancia Neutral. De este modo, podemos interpretar la gran diferencia entre las species que tiene la variable predation index. En el tercer eje se puede ver una pequeña distancia entre las categorías predation index y sleep exposure index de dos categorías contra una, se podría interpretar que algunos mamíferos que no están muy expuestos en el sueño tienen un bajo índice de depredación. 18
  • 19. Ilustración 14: Mapa simétrico de ACS 19
  • 20. 6 ESCALADO MULTIDIMENSIONAL 6.1 Motivación El escalado multidimensional (EMD) (en inglés, multidimensional scaling MDS) se refiere al conjunto de técnicas estadísticas utilizada habitualmente en marketing y ciencias sociales para la visualización y exploración de datos. Es un procedimiento para tomar preferencias y percepciones de los encuestados y representarlos en un diagrama visual. Estos diagramas, llamados mapas perceptuales tienen generalmente dos dimensiones, pero pueden representarse en más de dos. Los consumidores potenciales tienen que comparar pares de productos y hacer juicios sobre sus similitudes. Mientras otras técnicas (como análisis factorial, análisis discriminativo y análisis conjunto) obtienen dimensiones de las respuestas a los atributos de los productos identificados por el investigador, MDS obtiene las dimensiones de los juicios de los encuestados sobre la similitud de los productos. Esto supone una ventaja importante pues los resultados no dependen de los juicios de los investigadores. No es necesaria una lista de atributos que debe ser mostrada a los encuestados. Las dimensiones resultantes vienen de los juicios de los encuestados sobre pares de productos. Gracias a estas ventajas, MDS es la técnica más comúnmente utilizada en mapeado perceptual. Aplicaciones Se utiliza para la representación visual de datos en más de una dimensión (si son más de tres dimensiones, se requiere más de un gráfico). Con ello se puede encontrar qué factores (dimensiones) subyacen bajo los datos obtenidos en un estudio. Se aplica en estudios sobre cognición, psicofísica, psicometría, marketing y ecología. Marketing En marketing, el EMD es una técnica estadística para averiguar las preferencias y percepciones de los encuestados a la hora de evaluar y comparar varios productos, representando los datos obtenidos sobre una gráfica visual, llamada mapa perceptual. Dentro del análisis que estamos desarrollando, nos dispondremos a realizar el escalamiento multidimensional de dos grupos de variables del conjunto de datos que se tiene, lo que se va a realizar es realizar trabajar con un grupo de variables cuantitativas como se lo realizó en el Análisis de Componentes Principales, y poder relacionarlos con el análisis que vamos a aplicar. Se tiene el primer grupo que se se le aplicará en MS, el mismo que tiene el siguiente conjunto de variables cuantitativas junto con las 42 observaciones: bodyweight y brainweight. El segundo grupo es el conformado por las siguientes variables cuantitativas junto al total de 42 observaciones: maximulifescan y gestationtime. Con los dos grupos descritos el primer paso es obtener la matriz de distancias por cada grupo, por defecto utilizará la distancias euclídeas por trabajar con variables cuantitativas, a estas matrices las llamaremos coordenadas principales. La matriz de distancias del primer grupo: bodyweight y brainweight lo observamos en la Tabla 11. Nos permite observar la relación existente entre la gran diferencia de bodyweight entre algunas species, además las distancias entre las species de da entre los mas grandes de tamaño y que incide en el sleep of mamaml. 20
  • 21. Tabla 11: Matriz de distancias euclídeas del grupo 1 de variables cuantitativas (bodyweight y brainweight) En la Tabla 12 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las coordenadas principales. Tabla 12: Escalado Multidimensional Métrico del primer grupo de variables cuantitativas La ilustración 15 permite verificar el grado de variabilidad entre el bodyweigth y brainweigth entre algunas species (muy separadas) nótese el grado de separabilidad entre las distancias y observando un grado de cercanía entre algunas species y otras muy pero muy cercanas el grado de separación entre las mismas. 21
  • 22. Ilustración 15: Representación de las coordenadas principales de las variables bodyweight y brainweight La matriz de distancias del segundo grupo: maximulifescan y gestationtime lo observamos en la Tabla 13. no existe un notable grado de separación entre las coordenadas, existe algunas species que tienen un elevado nivel de maximumlifescan y otras varían su gestationtime. Tabla 13: Matriz de distancias euclídeas del grupo 2 de variables cuantitativas (maximumlifescan y gestationtime) En la Tabla 14 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las coordenadas principales. 22
  • 23. Tabla 14: Escalado Multidimensional Métrico del segundo grupo de variables cuantitativas La ilustración 16 permite verificar el grado de variabilidad entre el maximumlifescan y gestationtime entre algunas species nótese el grado de separabilidad entre las distancias y observando un grado de cercanía entre algunas species, notablemente las distancias no son muy notorias en relación a su tamaño como se observo en el escalamiento multidimensional del primer grupo pero se observa que esas species tienen un nivel mas alto de vida y de tiempo de gestación. 23
  • 24. Ilustración 16: Representación de las coordenadas principales de las variables maximumlifescan y gestationtime 24
  • 25. 7 ANÁLISIS DE CONGLOMERADOS 7.1 Motivación El análisis de conglomerados es una técnica cuya idea básica es agrupar un conjunto de observaciones en un número dado de conglomerados o grupos. Este agrupamiento se basa en la idea de distancia o similitud entre las observaciones. La obtención de dichos conglomerados depende del criterio o distancia considerados. El número posible de combinaciones de grupos y de elementos que integran los posibles grupos se hace intratable desde el punto de vista computacional, aún con un número escaso de observaciones. Se hace necesario, pues, encontrar métodos o algoritmos que infieran el número y componentes de los conglomerados más aceptable, aunque no sea el óptimo absoluto. Previamente es necesario considerar el concepto de medida de similitud. Académicos e investigadores de mercado a menudo encuentran la mejor solución para resolver sus estudios mediante la definición de grupos homogéneos de objetos, ya sean ellos individuos, firmas, productos, o incluso comportamientos. Opciones estratégicas basadas en la identificación de grupos dentro de la población tales como la segmentación o el marketing de objetivos no serían posibles sin un objetivo metodológico. La misma necesidad nos la encontramos en otras áreas, abarcando desde las ciencias físicas (por ejemplo, clasificación de varios grupos de animales, como insectos o mamíferos) a las ciencias sociales (por ejemplo, análisis de varios perfiles psiquiátricos). En todos estos ejemplos, el analista trata de encontrar una estructura natural a través de las observaciones basándose en un perfil multivariado. La técnica más comúnmente usada para este propósito es el Análisis de Conglomerados. El AC tiene como propósito esencial, agrupar aquellos objetos que reúnan idénticas características, es decir, se convierte así en una técnica de análisis exploratorio diseñada para revelar las agrupaciones naturales dentro de una colección de datos. Este análisis no hace ninguna distinción entre variables dependientes (VD) y variables independientes (VI) sino que calcula las relaciones interdependientes de todo el conjunto de variables. Aplicaciones El análisis de conglomerados se puede utilizar para: • La taxonomía, agrupar especies naturales. • Para el marketing, clasificar consumidores tipo. • Medicina, clasificar seres vivos con los mismos síntomas y características patológicas. • Técnicas de reconocimiento de patrones. • Formar grupos de pixels en imágenes digitalizadas enviadas por un satélite desde un planeta para identificar los terrenos. Para nuestro análisis de conglomerados debemos de tener cuidado al agrupar variables en grupos homogéneos tomando en cuenta el tipo, en nuestro caso tenemos 7 variables cuantitativas continuas y 3 variables cualitativas discretas. Para el estudio vamos a trabajar con el grupo de variables cuantitativas: bodyweight, brainweight, nondreamingsleep, dreamingsleep, totalsleep, maximumlifespan, gestationtime, y descubriremos los conglomerados que abarcan a la relaciones entre las species. Utilizamos 42 observaciones con 7 variables, además se utilizara la librería de R(cluster). 25
  • 26. Lo que primero vamos a realizar en el análisis de conglomerados es crear la matriz de distancias, para realizar el análisis con ella y seleccionar el número de grupos del total de la muestra. Para crear la matriz de distancias entre las observaciones debemos de aplicar un método de cálculo, lo que se va a realizar es comparar 4 métodos de obtención de distancias: manhattan, euclidean, maximum y camberra. En la Ilustracion 17, observamos los resultados con los 4 métodos y nos disponemos a escoger un método para nuestro problema. Ilustración 17: Métodos de obtención de matriz de distancias La Ilustración 17, nos permiten comparar los distintos métodos empleados para las distancias. Se observa que la distancia euclídea y la de máximos ofrecen resultados parecidos, parece que se forman 4 grupos y las observaciones 2 y 22 difieren del resto. El método Camberra ofrece otros resultados diferentes pero este método es adecuado para datos estandarizados y no es nuestro caso. Vamos a emplear la distancia euclídea. Para determinar mejor el número de clusters a seleccionar vamos a emplear el algoritmo PAM (Partitioning Around Medoids), como se observa en la Ilustración 18 el respectivo dendograma. 26
  • 27. Ilustración 18: Dendograma de 2, 3, 4 y 5 posibles cluster utilizando PAM Viendo las 4 siluetas parece más adecuado elegir los k=4 grupos (son mas homogéneos difiere un poco con k=5) porque son más homogéneos. De todos modos procede un análisis del tamaño de los grupos porque a la vista de las siluetas y los dendogramas anteriores parece que algunas observaciones distorsionan el agrupamiento que lo observamos en la Tabla 15. Tabla 15: Análisis a fondo del tamaño de los grupos En la Tabla 15, se observa que existen grupos con un solo miembro tanto en el tamaño de k=4 y 5, además que no varía la cantidad de species en el grupo 1 de 25 en el grupo. Esto se debe a las diferentes características que comparten algunos mamíferos. De acuerdo a esto se trabaja con 4 clusters. Ahora observemos como se han agrupado las 42 observaciones de estudio con los clusters finales, 27
  • 28. como lo presenta resumida la Tabla 16 y 17. Tabla 16: Resumen de Variables y a que cluster pertenecen Se observa que el African giant pouched rat pertenece al cluster 4, que comparte algunas características con el Big brown bat, etc. El Asian elephant está en un solo grupo debido a sus notadas diferencias que hacen que sea el cluster 1 heterogéneo al resto. Tabla 17: Resumen de Variables y a que cluster pertenecen En la Tabla 18 se observa el análisis de cada una de las variables en cada cluster, para poder observar el comportamiento de las agrupaciones realizadas. 28
  • 29. Tabla 18: Comportamiento del agrupamiento por variables Vemos que de acuerdo a los resultados de las medias se observa que que las species homogéneas de cada uno de los grupos, nos permite obtener las siguientes relaciones que se dan, por ejemplo las species del cluster 1, duermen más que otras species, eso se da en el Asian elephant que además es el de mayor tamaño, se podría concluir que mientras más tamaño mas duermen, eso debido a que en la variable totalsleep, se ve que el cluster tiene el menor valor. Otra conclusión que se presenta de acuerdo a la Tabla 18, es que las species mas pequeñas tienen su período de gestación mas corto. Las species del cluster 3 tienen una mayor esperanza de vida, dentro de ese cluster se encuentra el hombre. 29
  • 30. 8 CONCLUSIONES • La exploración de datos se ha llevado en los análisis uni y bivariante representando los estadísticos respectivos para las variables cuantitativas y cualitativas. • Existe una amplia cantidad de variabilidad entre algunas características como: weight, gestation time, and life span de los mamíferos esto se debe a la variabilidad de los mismos. • Existe una alta correlación entre algunas variables como: danger index, weight, maximum life span, and, of course, dreaming sleep. • Para el análisis de componentes principales se trabajo con 7 variables cuantitativas y se obtuvo dos componentes que cuyos resultados permitieron ver las relaciones entre las variables. • Para el análisis de correspondencias se trabajo con el análisis de correspondencias simple entre 2 variables cuantitativas discretas. • En el escalamiento multidimensional se realizo el análisis sobre 2 conjuntos de variables cuantitativas del cual se obtuvo las coordenadas principales. • La variabilidad de datos en el análisis de conglomerados se observa que un mamífero pertenece a un cluster sin otros miembros por poseer características de tamaño diferente. • El análisis de conglomerados permite agrupar species homogéneas que comparten características comunes. • Se debe tener cuidado con la distancias euclídeas cuando las variables tienen tamaños demasiado grande del resto de valores de las observaciones. 30
  • 31. 9 BIBLIOGRAFÍA [1] Análisis de Componentes Principales, Manuel Terrádez Gurrea, UOC, Proyecto e-Math. [2] Introducción al Análisis Multivariado, Julia Moreno Madueño, Universidad de Granada. [3] Análisis multivariado de datos en R, Campo Elías Pardo y Jorge Ortiz, Departamento de Estadística. Universidad Nacional de Colombia-Bogotá. [4] Análisis de cluster para definir territorios a investigar sobre el servicio de auditoría. Principios y fundamentos teóricos para su aplicación. Variables a utilizar. http://www.gestiopolis.com/canales6/mkt/investigacion-de-mercados-yauditoria.htm. Disponible [25 de enero del 2011]. [5] G. Linares, Escalamiento Multidimensional:Conceptos y Enfoques, Departamento de Matemática Aplicada, Facultad de Matemática y Computación,Universidad de La Habana, 2001. http://rev-inv-ope.univparis1.fr/files/22201/IO-22201-10.pdf. Disponible [25 de enero del 2011] [6 Análisis de Correspondencias, http://www.ucm.es/info/eue/eio3/docs/Tema %202. %20Analisis %20de %20Correspondencias/introduccion %20tema2.htm Disponible [22 de enero del 2011] [7] Análisis de Correspondencias. http://halweb.uc3m.es/esp/Personal/ personas/jmmarin/esp/AMult/acorresp.pdf. Disponible [22 de enero del 2011] [8] Técnicas estadísticas multivariadas y sus aplicaciones a indicadores e índices económicos financieros de la actividad turística. http://www.gestiopolis.com/canales7/fin/matematicas- aplicacion-deestadisticas-multivariables-e-indicadores-financieros.htm. Disponible [21 de enero del 2011]. [9] Manual. Curso Introducción de R, http://analisisydecision.es/manual-cursointroduccion-de-r- capitulo-15-analisis-cluster-con-r-ii/, [26 de enero del 2011]. [10] Andrés M. Alonso, Transparencias de Estadística I: Análisis de datos Univariantes, http://www.est.uc3m.es/amalonso/esp/docencia.html, Disponible [20 de diciembre 2010] [11] Daniel Peña, Análisis de Datos Multivariantes, McGraw-Hill, 2002. Madrid. 31