Este manual de estadística biológica proporcionarán al alumno los conocimientos básicos sobre las herramientas estadísticas necesarias para su desenvolvimiento como biólogo. Se empieza por una introducción al Análisis factorial y a continuación introducir la Inferencia de correspondencia y el método K-Means dedicando la parte más extensa del programa al estudio del muestreo, elaboración e interpretación de Intervalos de Confianza y desarrollo e interpretación de los resultados de Contrastes de Hipótesis y Análisis de la Regresión Lineal y por ultimo ejecución mescla del modelo Cluster Gaussiano, y XLSTAT utilizando una base de datos de Estados Unidos desarrollado directamente para una mayor comprensión en el año 2019 como herramienta para los alumnos paso a paso
Captación de aguas superficiales norma 777 parte 1.pdf
Manual de Formulas Estadísticas Biológicas para Biólogos
1. Biólogo. Jorge Pablo Cadena A.
Magister en Gestión Ambiental
MANUAL DE FORMULAS
ESTADISTICAS PARA
BIOLOGIA
2. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
MANUAL DE FORMULAS
ESTADISTICA PARA BIOLOGIA
GESTION AMBIENTAL
Nombre del autor
Biólogo. Jorge Pablo Cadena A.
Magister en Gestión Ambiental
Año: 2020
ISBN:
Edición: 1-2020
3. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Contenido
1 MANUAL...........................................................................................................................3
1.1 DENDOGRAMA.........................................................................................................3
2 ANALISIS FACTORIAL .......................................................................................................8
3 ANALISIS DE COMPONENETE PRINCIPAL ......................................................................14
4 ANÁLISIS DISCRIMINANTE..............................................................................................21
5 ANÁLISIS DE CORRESPONDENCIAS ...............................................................................28
5.1 ANALISIS DE CORREESPONDENCIA EN 3 D.............................................................30
6 ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES............................................................38
7 MULTIDIMENSIONAL SCALING ......................................................................................44
8 CLASIFICACIÓN CON EL MÉTODO K-MEANS.................................................................52
9 GRANDES CONJUNTOS DE DATOS - USO K-MEANS CLUSTERING SEGUIDO DE UN AHC
56
9.1 CONJUNTO DE DATOS DE CLÚSTER ......................................................................56
9.2 CONFIGURACIÓN DE LA K-MEANS CLUSTERING ...................................................57
9.3 AGRUPACIÓN JERÁRQUICA DE LOS RESULTADOS DE LA K-MEANS CLUSTERING 59
9.4 RESULTADOS DE LA AGRUPACIÓN JERÁRQUICA ACUMULATIVA..........................63
10 EJECUCIÓN DE UNA MEZCLA MODELO DE CLÚSTERES GAUSSIANO .......................66
10.1 MODELOS DE MEZCLAS GAUSSIANAS PARA LA AGRUPACIÓN.............................66
10.2 CONJUNTO DE DATOS DE MODELO DE MEZCLA GAUSSIANA..............................67
10.3 LA CREACIÓN DE UN MODELO DE MEZCLA GAUSSIANA ......................................67
4. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
1 MANUAL
1.1 DENDOGRAMA
Una hoja Excel que incluye a la vez los datos y los resultados puede ser
descargada haciendo clic aquà. Los datos proceden del US Census Bureau.
Corresponden a la medición de parámetros demográficos en 51 Estados de
los Estados-Unidos en 2000 y 2001. En el marco de este tutorial, solo los
datos del año 2001 fueron conservados, y con el fin de suprimir los efectos
de escala, las variables iniciales fueron convertidas en àndices por 1000
habitantes.
El objetivo aquà es de crear grupos homogéneos de estados. Estos datos son
también utilizados por el tutorial del análisis de Componentes Principales
(ACP).
Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/
Análisis de datos/ Clasificación Ascendente Jerárquica (CAH), o haga clic en
el botón correspondiente de la barra "Análisis de datos" (ver a continuación).
Una vez el botón pulsado, el cuadro de diálogo correspondiente a la CAH
aparece. Puede entonces seleccionar los datos en la hoja Excel. Hay varias
manera de seleccionar los datos en el cuadro de diálogo de XLSTAT (ver el
tutorial del asunto). En el ejemplo estudiado aquà los datos empiezan desde
la primera lànea; Es entonces más rápido elegir el modo de selección por
columnas. Por esta razón, en el cuadro de diálogo a continuación las
selecciones aparecen en forma de columnas.
La variable "Población total" no fue seleccionada ya que solos los aspectos
dinámicos de la población nos interesa aquà. La última columna no fue
seleccionada tampoco, ya que hemos visto con el análisis de componentes
5. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
principales que las dos últimas columnas están perfectamente
correlacionadas. La opción "Etiquetas de las columnas" es activada, ya que la
primera lànea de datos incluye el nombre de las variables.
Las opciones Centrar/Reducir es activada de manera a evitar que algunas
variables no influyen demasiado sobre el resultado con problemas de escala.
La opción "Truncamiento automático" es activada para obtener el
dendrograma (o árbol de clasificación) truncado.
Los cálculos empiezan cuando haga clic en el botón "OK". El primer
resultado es el diagrama de los niveles. Su forma proporciona informaciones
sobre la estructura de los datos. Cuando son observadas unas variaciones
6. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
importantes, tenemos una agregación de estructuras homogéneas. Es en
parte, sobre esta base, que está creado el truncamiento automático que
permite determinar el número de grupos homogéneos.
El gráfico a continuación es el dendrograma. Representa, de manera clara, la
manera de la que el algoritmo procede para reagrupar los individuos y luego
los subgrupos. Al final, el algoritmo a reagrupado progresivamente todas las
observaciones. La lànea de puntos representa el truncamiento y permite
visualizar que dos grupos homogéneos fueron identificados. El primer grupo
es muy homogeno, como lo confirman las Varianzas intraclase
7. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Un cuadro que incluye el nombre de cada uno de los Estados y el grupo del
cual es vinculado, aparece. Podrá ser reutilizado para otros análisis o para
aplicaciones operacionales.
9. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
2 ANALISIS FACTORIAL
Un libro Excel que incluyen a la vez los datos utilizados en este ejemplo y los
resultados obtenidos puede ser descargado haciendo clic aquà. Los datos
proceden de [Kendall M. (1975). Multivariate analysis. Griffin, London] y
corresponden a 48 candidatos que fueron evaluados sobre 15 criterios para
un puesto en empresa:
Carta de motivación Presentación Nivel de estudios Simpatàa Confianza en
si mismo Lucidez Honestidad Sentido comercial Experiencia Carisma
Ambition Comprensión Potencial Motivación para el puesto Adecuación
Porque las correlaciones entre los criterios son importantes, es posible que la
persona que entrevista a los candidatos haya confundido algunos criterios o
que algunos criterios sean redundantes. Se examina un análisis factorial de
variables latentes, con el fin de determinar cuales son los criterios (o
factores) latentes. Existen varios métodos de análisis factorial de variables
latentes. El método propuesto por defecto por XLSTAT es el método del
factor principal utilizado iterativamente. Lo aplicamos aquà con el fin de
generar siete factores, antes de efectuar una rotación varimax para facilitar
la interpretación de los resultados.
Para activar el cuadro de diálogo del análisis factorial, inicie XLSTAT, luego
elija el comando XLSTAT/análisis de datos/ análisis Factorial, o haga clic en el
botón correspondiente de la barra de herramientas "análisis de los datos"
(ver a continuación).
Una vez que haya pulsado sobre el botón, aparece el cuadro de diálogo.
Puede entonces seleccionar los datos en la hoja Excel. Haciendo clic en el
botón "Más" del cuadro de diálogo, se puede visualizar la parte inferior en la
10. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
cual se encuentran las opciones de rotación. Para este ejemplo se eligió el
método Varimax.
Una vez que haga clic en el botón "OK", los cálculos empiezan y luego se
visualizan los resultados. Los primeros resultados son el alfa de Cronbach
estandarizado, y un resumen de las variables seleccionadas. Después, la
matriz de correlación aparece. Se observa que hay numerosas correlaciones
significativamente no nulas, algunas de ellas son importantes (0.883 para
Comprensión y Lucidez). Se observa que el juez está probablemente
influenciado por la experiencia y el carisma del candidato cuando se
determina la adecuación entre el candidato y el puesto.
En el cuadro siguiente se visualizan los valores propios procedentes del
análisis factorial. Comprobamos que con siete factores se conserva 83.9 %
de la variabilidad de los datos iniciales.
11. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
A continuación, se nota que la rotación varimax ha cambiado la manera cuyo
cada factor representa una parte de la varianza. La rotación varimax
proporciona la interpretación más fácil maximizando la varianza del
cuadrado de las coordenadas de las variables por columna. Para un factor
dado, las coordenadas elevadas lo son más aún, las coordenadas débiles lo
son más aún, y las coordenadas intermediarias sean más elevadas o más
débiles.
A continuación se debe analizar los datos de las variables tras la rotación
varimax. Estos resultados son utilizados para interpretar el sentido de los
factores tras la rotación.
Según el cuadro más arriba, se observa que el primer factor está
fuertemente relacionado con la ambición, la Confianza en si mismo, al
Sentido comercial y la Lucidez. En cuanto al segundo factor está relacionado
con la Carta de motivación, la experiencia y la adecuación. El tercer factor
está fuertemente relacionado con la Honestidad. El cuarto factor está
positivamente correlado con el Nivel de estudios y negativamente con el
Motivación para el puesto. La presentación es más bien relacionada al quinto
factor. De estos resultados, se deduce que los candidatos que tienen
12. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
coordenadas elevadas sobre el primer factor son comerciales prometedores,
mientras que los que tendràan más bien coordenadas elevadas sobre el
segundo y el tercer factor seràan destinados al management.
El gráfico a continuación proporciona la posición de las variables iniciales
sobre los ejes F1 y F2. Se pueden visualizar otros gráficos cruzando otros
factores.
Los dos cuadros, a continuación, corresponden a las matrices de correlación
reproducida y residual, que sirven para verificar si el modelo del análisis
factorial es adecuado o no.
El siguiente cuadro proporciona las coordenadas de los individuos tras la
rotación varimax sobre los ejes factoriales.
13. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
XLSTAT muestra el mapa factorial de dos dimensiones. El gráfico, a
continuación, corresponde al mapa factorial sobre F1 y F2.
Con el fin de tomar en cuenta más información, hemos utilizado XLSTAT-
3DPlot para visualizar los datos de 3 dimensiones.
14. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Los mejores candidatos son sin duda alguna los individuos 40 y 39. Si
declinan la oferta, los candidatos 8, 20,22,23,24 serán una alternativa.
15. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
3 ANALISIS DE COMPONENETE PRINCIPAL
Una hoja Excel que incluye a la vez los datos y los resultados puede ser
descargada haciendo clic aquà. Los datos proceden del US Census Bureau
(el archivo original puede ser obtenido en la página
http://eire.census.gov/popest/states_dataset.csv). Corresponden a la
medición de parámetros demográficos en 51 Estados de los Estados-Unidos
en 2000 y 2001. En el marco de este tutorial, solo los datos del año 2001
fueron conservados, y con el fin de suprimir los efectos de escala, las
variables iniciales fueron convertidas en àndices por 1000 habitantes. El
objetivo aquà es de analizar las correlaciones entre las variables e identificar
Estados que se distinguen fuertemente de los demás. Estos datos son
también utilizados por el tutorial de la Clasificación Ascendente Jerárquica
(CAH).
El ACP es un método muy eficaz para el Análisis de datos cuantitativos
(continuos o discretos) que se presentan bajo la forma de cuadros de M
observaciones / N variables. Permite: visualizar y analizar rápidamente las
correlaciones entre las N variables, visualizar y analizar las M observaciones
inicialmente descritas por N variables en un gráfico de dos o tres
dimensiones, construido de tal forma que la dispersión entre los datos sea
tanto preservada como posible, construir un conjunto de P factores no
correlacionadas (P
Los làmites del ACP vienen del hecho que es un método de proyección, y
que la pérdida de información inducida por la proyección puede provocar
interpretaciones erróneas. Unas astucias permiten, sin embargo, evitar estos
inconvenientes.
Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/
Análisis de datos/ Análisis de Componentes Principales, o haga clic en el
botón correspondiente de la barra "Análisis de datos" (ver a continuación).
16. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez el botón pulsado, la cuadro de diálogo correspondiente al análisis de
componentes principales aparece. Puede entonces seleccionar los datos en
la hoja Excel. Hay varias manera de seleccionar los datos en los cuadros de
diálogo XLSTAT (ver el tutorial del asunto). En el ejemplo estudiado aquà, los
datos empiezan desde la primera lànea; Es entonces más rápido elegir el
modo de selección por columnas. Por esta razón, en el cuadro de diálogo a
continuación las selecciones aparecen en forma de columnas. Todas las
opciones, por defecto, del cuadro de diálogo son dejadas asà. La opción
Referencias presentes es activada, ya que la primera lànea de datos incluye
el nombre de las variables.
Los cálculos empiezan cuando haga clic en el botón "OK". Si habéis elegido
en el panel de las opciones de XLSTAT la opción "entrada asistida", XLSTAT
le pide confirmar el número de líneas y de columnas. Después un cuadro de
diálogo le presenta las opciones para la visualización de los gráficos. En
nuestro caso, el % de variabilidad representado por los dos primeros factores
17. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
no es particularmente elevado (67.72%); Para evitar una mala interpretación
de los gráficos, es pedido entonces una visualización en los ejes 1 y 3.
El primer resultado interesante a analizar es la matriz de las correlaciones.
Observamos el resultado evidente que los índices de gente de más y menos
de 65 años de edad son perfectamente correlacionados (r = -1). Las dos
variables son entonces redundantes. Observamos que la inmigración
procedente de otros estados de EE UU es muy poco correlacionada con las
otras variables, e incluida con la inmigración procedente de paàses
extranjeros. Eso indica que las razones de inmigración son seguramente
diferentes para las dos poblaciones concernidas.
18. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
El siguiente cuadro y el gráfico asociado son vinculados a un objeto
matemático, los valores propios, que son afortunadamente vinculados a un
concepto muy simple : la calidad de la proyección cuando pasamos de N
dimensiones (N siendo el número de variables, aquà 7) a un número más
debil de dimensiones. En nuestro caso, observamos que el primer valor
propio vale 3.567 y representa 51% de la variabilidad. Eso significa que si
representamos los datos en un sólo eje, tendremos entonces siempre 51%
de la variabilidad total que será preservada.
A cada valor propio corresponde un factor. Cada factor es en realidad una
combinación lineal de las variables de inicio. Los factores tienen la
particularidad de no ser correlacionados entre ellos. Los valores propios y los
factores son ordenados en orden descendente de variabilidad representada.
19. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Idealmente, los dos primeros valores propios corresponden a un % elevado
de la variabilidad, de manera que la representación sobre los dos primeros
ejes factoriales es de buena calidad. En nuestro ejemplo, eso no es
exactamente el caso, de donde la necesidad de aprobar las hipótesis
formuladas por el uso de los gráficos en los factores F1 y F2, por los gráficos
en F1 y F3. Vemos aquà que el número de factores es 6, cuando teníamos al
principio 7 variables. Eso es debido a las dos variables redundantes.
Comprendemos bien que la información pudiera ser sintetizada en 6
dimensiones. El número de dimensiones "útiles" máximo es
automáticamente detectado por el método utilizado.
El primer gráfico específico al método es el circulo de las correlaciones (ver a
continuación el circulo en los ejes F1 y F2). Corresponde a una proyección de
las variables iniciales sobre un plano de dos dimensiones constituido por los
dos primeros factores. Cuando dos variables están lejos del centro del
gráfico, entonces si están: cercas unas de las otras, entonces están
significativamente positivamente correlacionadas (r cerca de 1), ortogonales
unas de las otras, entonces están significativamente no- correlacionadas (r
cerca de 0), simétricamente opuestas con respecto al centro, entonces están
significativamente negativamente correlacionadas (r cerca de -1).
Cuando las variables están relativamente cercas del centro del gráfico,
entonces cualquiera interpretación es arriesgada, y es necesario referirse a la
matriz de correlaciones o a otros planos factoriales para interpretar los
resultados. En nuestro ejemplo, podríamos deducir del gráfico a
continuación que las variables inmigración doméstica, e inmigración
Internacional son correlacionadas, cuando no lo son, lo que podemos ver en
20. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
la matriz de las correlaciones o en el círculo de las correlaciones en los ejes F1
y F3. En cambio, vemos bien la fuerte correlación entre el índice de
mortalidad y el índice de personas cuya edad es superior a 65 años.
El círculo de las correlaciones es también útil para interpretar la significación
de los ejes. En nuestro caso, el eje F1 es claramente vinculado a la edad de la
población y a su reemplazo, cuando el eje F2 es esencialmente vinculado a la
inmigración doméstica. Estas tendencias son particularmente interesantes a
sacar para la interpretación del gráfico de los individuos (ver a continuación).
Para confirmar el hecho que una variable es fuertemente vinculada a un
factor, debe consultar la tabla de los coseno : mientras más elevado es el
coseno (en valor absoluto), más vinculada está la variable al eje. Mientras
más cerca está el coseno de cero, menos vinculada está la variable al eje. En
nuestro caso, vemos que en lo que se refiere a la inmigración internacional
será mejor interpretada en los ejes F2/F3.
21. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
El gráfico a continuación corresponde a uno de los objetivos del ACP.
Permite representar los individuos en una carta de dos dimensiones, y asà
identificar tendencias. Vemos en nuestro ejemplo que sobre la base de
variables demográficas que disponemos, el Nevada y la Florida son bastante
particulares, asà como el Utah y Alaska que parecen compartir caracterà-
sticas : mirando los datos, percibimos que estos dos Etats tienen una
población claramente más joven que la media, y una natalidad muy elevada.
Haga clic para ver una visualización en 3 dimensiones creada con XLSTAT-
Miner3D sobre los tres primeros ejes.
22. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
4 ANÁLISIS DISCRIMINANTE
En una hoja Excel que contiene los datos y los resultados de este ejemplo
puede ser descargada haciendo clic aquà. Los datos proceden de [Fisher M.
(1936). The Use of Multiple Measurements in Taxonomic Problems. Annals
of Eugenics, 7, pp 179 -188] y corresponden a 150 flores de la familia Iris,
definidas por 4 variables cuantitativas (Longitud-Sépalos, Anchura-Sépalos,
Longitud-Pétalos, Anchura-Pétalos) y por su especie.
Tres diferentes especies forman parte de este estudio: setosa, versicolor and
virginica. Nuestro objetivo es probar si las cuatros variables descriptivas
permiten identificar las especies, y visualizar los datos en un gráfico con el fin
de comprobar que las tres especies son correctamente diferenciadas
Iris setosa, versicolor et virginica.
Una vez XLSTAT iniciado, elija el comando XLSTAT/Análisis de los
datos/Análisis Factorial Discriminante o haga clic en el botón "Análisis
Factorial Discriminante" de la barra de herramientas "Análisis de los datos".
Una vez el botón presionado, aparece el cuadro de diálogo correspondiente
al análisis Factorial Discriminante (AFD). Puede entonces seleccionar los
datos en la hoja Excel. La "Variable dependiente" corresponde a la variable
explicada, que es, en este caso preciso, la especie de Iris. Las variables
explicativas son las cuatros variables que disponemos.
Se deja la opción "Etiquetas de las columnas" activada ya que la primera fila
de las columnas incluye el nombre de las variables. Cuando hace clic en el
23. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
botón "Más" del cuadro de diálogo, aparece la parte inferior del cuadro de
diálogo (le botón "Más" se convierte entonces en "Menos"). La parte inferior
corresponde a las opciones avanzadas. Hemos deshabilitado la opción
"Igualdad de las matrices de covarianza entre-grupos", ya que como lo
veremos más tarde (Prueba de Box), efectuar una semejante hipótesis será
falso.
24. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez que haya pulsado en el botón "OK", empiezan los cálculos y luego se
visualizan los resultados. XLSTAT empieza por visualizar las matrices
implicadas en los cálculos. Las dos pruebas de Box permiten confirmar que
no se puede efectuar la hipótesis que las matrices de covarianza son
idénticas para las 3 especies.
25. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
La prueba del Lambda de Wilks permite probar si los vectores de las medias
para los diferentes grupos son iguales o no (esta prueba se puede percibir
como un equivalente multidimensional de la prueba LSD de Fisher o de la
prueba HSD de Tukey). Aquà observamos que la diferencia entre los
vectores es significativa al nivel de significación de 0.05.
En la siguiente tabla se visualizan las funciones discriminantes. Cuando se
supone que las matrices de covarianza son iguales, estas funciones son
lineales. En el caso contrario, son cuadráticas, como es el caso aquà. La regla
basada sobre estas funciones es tal que se le atribuye una observación al
grupo cuya función discriminante da el valor más elevado.
26. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
La siguiente tabla proporciona los valores propios y el % de varianza
correspondiente. Se puede ver que 99% de la varianza están representadas
por el primer factor. Hay nada más que dos factores: en efecto, el número
máximo de factores no nulos vale k-1, cuando n>p>k, donde n es el número
de observaciones, p el número de variables explicativas y k el número de
grupos.
El siguiente gráfico muestra como las cuatro primeras variables están
correladas con los dos factores obtenidos (este gráfico está construido a
partir de la tabla de las coordenadas de las variables). Se puede observar que
el factor F1 está correlado con Long. Sép., Long. Pét. et Anch. Pét. y que F2
está correlado con Anch. Pét.
27. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
La siguiente tabla enumera para cada flor, sus coordenadas factoriales, la
probabilidad de asignación a cada grupo, y el cuadrado de las distancias de
Mahalanobis en el centroide de cada grupo. Cada observación es
reclasificada en el grupo por el cual la probabilidad es máxima. Las
probabilidades son probabilidades a posteriori que toman en cuenta las
probabilidades a priori a través de la fórmula de Bayes.
Se nota que las observaciones (5,9,12) fueron reclasificadas. Puede haber
varias razones: la persona que efectuó mis mediciones ha cometido un error
cuando medàa, o los iris que corresponden a estos datos han tenido un
crecimiento anormal por razones desconocidas, o el criterio de clasificación
utilizado por el especialista no es correcto, o falta de información para
diferenciar perfectamente las especies entre sà.
28. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
En el siguiente gráfico representa las observaciones sobre los ejes
factoriales. Este gráfico permite confirmar que las observaciones están
correctamente discriminadas sobre los ejes factoriales obtenidos a partir de
las variables explicativas iniciales.
Por último, la matriz de confusión resume la información que concierne las
reclasificaciones de observaciones, y se puede deducir el àndice de error
aparente, que corresponde a la razón del número de observaciones
reclasificadas, sobre el número total de observaciones.
29. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
5 ANÁLISIS DE CORRESPONDENCIAS
Una hoja Excel que contiene los datos y resultados puede cargarse haciendo
clic aquà. Los datos corresponden a una investigación en la cual los
entrevistados dan sus opiniones sobre una pelàcula que acaban de ver. Se les
pide también sus grupos de edad.
Una vez que XLSTAT está abierto, elige XLSTAT/Análisis de los
datos/Análisis factorial de correspondencias (XLSTAT/Analyzing
data/Correspondence analysis), o haga clic en el botón correspondiente de la
barra de herramientas "Análisis de los datos" (Analyzing Data).
Una vez el botón pulsado, el cuadro de diálogo del análisis de
correspondencias aparece. Puede entonces seleccionar los datos con el
ratón en la hoja Excel. Si sus datos están en una tabla cruzada (véase
ejemplo), seleccione la opción Tabla de Contingencia (Contingency table). Si
sus datos están en una tabla Individuos / variables seleccione la otra opción.
La opción "referencias presentes" (Labels included) es elegida porque los
nombres de las variables en làneas y columnas están también seleccionadas.
Haga clic en una célula de su hoja para colocar los resultados del análisis.
Esta célula corresponde a la posición de arriba e izquierda de las tablas
(AFC!$J$4 en nuestro ejemplo; AFC es el nombre de la hoja de datos). Puede
también editar los resultados en una hoja separada o en un nuevo Libro.
30. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Los resultados son visualizados después de especificar algunas opciones
relativas a los gráficos. Están disponibles numerosos detalles, incluido la
prueba del chi-cuadrado de independencia de las làneas y columnas. La
calidad de la representación gráfica puede ser evaluada gracias al
histograma o a la tabla de los valores propios. Si la suma de los dos primeros
(o de los n primeros) valores propios representan una gran parte de la
totalidad de la varianza, la calidad de los gráficos es buena. En nuestro caso
esta calidad es muy buena en la medida en que los dos primeros valores
propios totalizan 97 % de la varianza total.
Haga clic para ver una visualización de los resultados.
El principal interés del análisis de correspondencias es la representación
gráfica simultánea de las variables làneas y de las variables columnas.
Cuando la calidad del análisis es buena (97% en nuestro caso) el mapping
permite interpretar fácilmente los datos. Podemos asà observar que los
31. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
jóvenes de 16 a 24 años tienen opiniones sensiblemente diferentes de los
otros grupos de edades. Las personas que pertenecen a la clase de los 55-64
años no aprecian la pelàcula.
El análisis de correspondencias es una técnica potente para analizar los và-
nculos entre las diferentes categoràas de dos variables cualitativas. Podemos
utilizar el análisis de correspondencias múltiples (ACM) cuando deseamos
analizar las proximidades entre las categoràas de más de dos variables
cualitativas.
Vea este vídeo para obtener una demostración de este tutorial.
5.1 ANALISIS DE CORREESPONDENCIA EN 3 D
Conjunto de datos para ejecutar un análisis de correspondencias de una
tabla de datos en bruto, Una hoja Excel que contiene los datos y los
resultados puede ser descargado haciendo clic aquí. Los datos corresponden
a la lista de futbolistas extranjeros en la liga premier y su nacionalidad.
Queremos estudiar la distribución de los jugadores extranjeros en los clubes
ingleses
Configuración de un análisis de correspondencias de una tabla de datos en
bruto
Una vez XLSTAT iniciado, elija el comando de análisis de correspondencia
Análisis de datos /, o haga clic en el botón correspondiente de la barra de
herramientas de análisis de datos (véase más adelante).
32. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo
Análisis de correspondencias.
En la tabla Observaciones / variables de campo, seleccione el Club de
columnas y de la Región en la hoja de Excel.
Los datos están en un formato de Observaciones / variables, marque la
opción correspondiente, .Como se incluyen los nombres de las columnas, la
opción de etiquetas variable se debe seleccionar también.
Elija la opción Hoja de la salida.
En la pestaña Opciones, marque la prueba de independencia y dejar el nivel
de significación de 5.
33. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
En la sección Salidas, seleccionar las siguientes opciones:
Tabla de contingencia
Valores propios
Coordenadas principales
Coordenadas estándar
Contribuciones
Cosenos al cuadrado
Ir a la última pestaña Gráficos y habilitar el:
Parcelas simétricas
Parcelas asimétricas
Etiquetas
34. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Haga clic sobre Aceptar.
A medida que el modelo necesita más de dos factores. Haga clic primero en
Seleccionar para seleccionar la trama F1-F2. A continuación, cambie la
abscisa a F2. Se va a cambiar las ordenadas a F3. Vuelva a hacer clic en
Seleccionar. De esta manera tendremos dos parcelas: F1-F2 y F2-F3. Haga
clic en Hecho.
Interpretación de los resultados del análisis de correspondencias
El primer resultado es la tabla de contingencia y la prueba de independencia
entre las filas y columnas.
El p-valor de 0.008 es inferior al 5% la hipótesis nula debe rechazarse. Esto
significa que la distribución de la nacionalidad no es al azar en los clubes del
Reino Unido.
35. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Entonces usted tiene las parcelas simétricas. A partir de la primera parcela se
puede ver que los clubes como el Aston Villa y el Stoke City tienen más
norteamericano jugadores que el resto de los equipos. De la misma manera,
Burney tiene un montón de jugadores de Europa del Norte.
36. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Para crear un gráfico 3-D de los resultados de un análisis de correspondencia
Ahora vamos a hacer un gráfico en 3 dimensiones para tener una mejor
representación de los puntos. En primer lugar vamos a hacer una tabla que
contiene tanto los primeros 3 coordenadas principales de los clubes y las
zonas geográficas y la suma de los cosenos para los 3 factores.
La suma de los cosenos al cuadrado para los 3 factores, obtenidos a partir de
la tabla de cosenos al cuadrado, da una idea de lo bien que se representa la
muestra en el espacio 3-D.Agregar una última columna para tener la
información sobre las filas y columnas. Las filas son los clubes y las columnas
de las regiones. Hacer una variable de categoría con R y C para describir
cada muestra
Seleccione la tabla completa y vaya al menú de visualización de datos y
seleccione la opción XLSTAT-3DPlot.
37. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Cuando pronta seleccionar el formato de los datos como tabla.
Usted tendrá que especificar los ejes. Hacerlo mediante un clic derecho y
seleccione en el dropbox la variable adecuada para su uso. Para los 3 ejes que
utilizamos: F1, F2 y F3 horizontalmente verticalmente. También es necesario
establecer el tamaño del eje con el fin de tener una parcela orto normal. Por
ejemplo el uso de todos los ejes: -1,5 y 1,5 como límites
38. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Por el color y el tamaño del punto puede utilizar la suma de cosenos. Ir a la
ficha Objetos y modificar las secciones de color y tamaño.
Por último podemos añadir las etiquetas por entrar en las Anotaciones ficha
y selcting "Columna1", como la etiqueta
Aquí está su representación en 3-D.
39. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
6 ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES
Una hoja Excel que incluyen los datos y los resultados de este ejemplo puede
ser descargada haciendo clic aquà. Los datos corresponden a una encuesta
efectuada por un concesionario, ante 28 clientes, una semana después que
estos últimos recuperaron su vehàculo tras una reparación mecánica. El
cuestionario incluye cinco preguntas: - ¿Está Ud. globalmente satisfecho de
su visita al garaje? (Sà / No) - ¿Considera Ud. que la reparación fue
correctamente efectuada? (Sà / No / No sabe) - ¿Cómo juzga Ud. la calidad
de la acogida? (de 1 a 5) - ¿Le parece la relación calidad precio correcta? (Sà /
No) - ¿Volverá Ud. a este garaje para una reparación? (Sà / No / No sabe)
40. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Efectuando un Análisis de Correspondencias Múltiples (ACM), deseamos
identificar las posibles relaciones entre las diferentes respuestas en las
diferentes preguntas.
Una vez XLSTAT iniciado, elija el comando XLSTAT/Análisis de
datos/Análisis de Correspondencias Múltiples o haga clic en el botón
"Análisis de Correspondencias Múltiples" de la barra de herramientas
"Análisis de los datos".
Una vez que haya pulsado sobre el botón, aparece el cuadro de diálogo que
corresponde al análisis de Correspondencia Múltiples. Entonces puede
seleccionar los datos en la hoja Excel. La opción "Etiquetas de variables" se
deja activada ya que la primera fila de las columnas incluye el nombre de las
variables. La opción "Etiquetas de las observaciones" es activada y hemos
seleccionado la columna de las etiquetas de las observaciones.
En la ficha “Opciones” activamos la opción de “datos suplementarios” y
después vamos a la ficha correspondiente. La variable "Volver" se utiliza
como "Variable adicional" ya que no deseamos que influye en los cálculos; en
cambio nos interesa a posteriori su ubicación.
Elegimos la opción 1/p para filtrar los valores propios: no serán exhibidos los
resultados detallados que corresponden a los factores para los cuales el valor
41. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
propio es menos que 1/p (donde p es el número de variables cualitativas
activas).
Se han activado las opciones siguientes de “Resultados” y de “Graficos”.
42. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez que haya pulsado en el botón "OK", empiezan los cálculos y luego
aparecen los resultados. XLSTAT empieza por visualizar tablas implicadas en
los cálculos (tabla disyuntiva completa y tabla de Burt).
La inercia total vale 2. En ACM, la inercia total depende únicamente del
número de variables y categorías y no de los enlaces entre las variables;
entonces esta cantidad no tiene interpretación estadística aquà.
En la siguiente tabla se visualizan los 8 valores propios y el % de inercia
correspondiente.
43. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Luego una tabla visualiza las coordenadas de las categorías en el espacio
factorial (las diferentes categorías de las variables cualitativas
seleccionadas). Las coordenadas de las observaciones están proporcionadas
más abajo. El gráfico a continuación representa el mapa factorial que
superpone categorías y observaciones.
Con el fin de visualizar lo mejor posible la posición relativa de las categorías,
hemos realizado con XLSTAT-3DPlot una visualización en el espacio de los
tres primeros factores a partir de la tabla de las coordenadas de las
categorías.
44. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
De esos gráficos, confirmamos una evidencia: un cliente volverá si está
globalmente satisfecho de la prestación, de la acogida, del precio y si tiene la
impresión que la reparación se efectuó efectivamente. También se
observará el extraño sentimiento que la reparación no se efectuó
satisfactoriamente coincidiendo con una acogida no satisfactoria. Eso
merecería un amplio análisis: ¿La persona indicó equivocadamente el
problema porque no estaba satisfactoriamente acogida? o bien ¿llamó de
nuevo para señalar que sigue el problema y que no fue acogida
satisfactoriamente en aquel momento?
45. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
7 MULTIDIMENSIONAL SCALING
El Multidimensional Scaling (MDS) es un método de análisis de datos
ampliamente utilizado en los campos del marketing y de la psicometràa,
especialmente en los paàses anglosajones. El principio del método consiste
en reconstruir un mapa de individuos a partir de una matriz de proximidades
(similaridades o disimilaridades) entre los individuos. En el caso ideal en la
que se dispone de una matriz que proporciona las distancias entre puntos en
el plano (por ejemplo, las distancias entre las ciudades de una región), el
MDS reconstruye el mapa de puntos, con poco más o menos una rotación /
simetràa. Para proporcionar una configuración óptima, el método MDS
minimiza un criterio llamado "STRESS". Mientras más se acerca a 0 mejor es
la representación.
Una hoja Excel que incluye a la vez los datos y resultados puede ser
descargada haciendo clic aquà. Los datos proceden de una encuesta llevada
ante 10 consumidores, a quienes les han pedido de valorar (evaluaciones
incluidas entre 1 y 5) cinco productos, del cual uno solo existe en el mercado
(producto P1). Estos productos son productos alimenticios de tipo barras de
chocolates.
Se trata de mostrar como los productos se ordenan en un mapa, según las
evaluaciones proporcionadas por los 10 consumidores.
Hemos visto que para usar el MDS necesitamos una matriz de proximidad,
pero aquà disponemos de una matriz individuos x productos. Para crear una
matriz de disimilaridades entre los productos, debemos usar en primer lugar
la herramienta "Matriz de similaridad / disimilaridad" de XLSTAT.
Una vez que XLSTAT-Pro esté activado, haga clic en el menú
XLSTAT/Descripción de datos/Matriz de similaridad / disimilaridad, o haga
clic en el botón correspondiente de la barra "Descripción de datos" (ver a
continuación).
46. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces
seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas
como presentado a continuación. Para activar la parte inferior del cuadro de
diálogo, es necesario hacer clic en el botón "Más" que se convierte después
en "Menos".
Se consigue entonces la matriz de las distancias euclàdeas entre los
productos, a partir de la cual el Multidimensional Scaling puede ser
realizado.
47. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Haga clic entonces en el menú XLSTAT /Análisis de datos/Multidimensional
Scaling, o haga clic en el botón correspondiente de la barra "Análisis de
datos" (ver a continuación).
Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces
seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas
como presentado a continuación. Se eligió la opción Modelo. Este modelo
procura que las distancias obtenidas en la configuración final sean lo más
cercanas posible de las distancias euclàdeas, calculadas a partir de las
evaluaciones de los consumidores.
Otras opciones pueden proporcionar los mismos resultados pero con un
efecto de escala. Por otra parte, hemos solicitado que los espacios de
representación incluyen 2 a 4 dimensiones, con el fin de evaluar la distorsión
asociada a la representación en un espacio de mínima dimensionalidad. Para
poder analizar los resultados relacionados con las diferentes dimensiones,
hemos desactivado la opción "Mejor dimensión". Finalmente, la opción
"Disparidades" no es activada: en efecto, en el caso del modelo absoluto, las
disparidades son idénticas a las disimilaridades y su representación en el
diagrama de Shepard seria entonces redundante.
48. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Comentario: al menos que no se proporciona una configuración inicial al
algoritmo (ver opciones "Más" del cuadro de diálogo MDS), los puntos de
inicio son elegidos de modo aleatorio. Es posible conseguir asà un resultado
levemente diferente del que es visualizado aquà. Para asegurarse de obtener
una solución cercana del óptimo absoluto, puede aumentar el número de
repeticiones, el número de iteraciones máximas y la precisión (ver opciones
"Más" del cuadro de diálogo MDS).
Los cálculos empiezan en el momento que haga clic en el botón "OK".
Después de haber optado representar los gráficos sobre las dos primeras
dimensiones, los resultados se visualizan en la hoja "MDS" del libro Excel. El
primer cuadro muestra la evolución del stress en función del número de
dimensiones del espacio de representación. Se observa una ruptura muy
clara entre las dimensiones 2 y 3, y una estabilidad entre las dimensiones 3 y
4 (es normal que la representación de 5 objetos sea perfecta en un espacio
de 4 dimensiones).
49. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Un mapa establecido sobre el plano Dim1 x Dim2 es producido para el
espacio de 4 dimensiones porque es en este espacio que la representación
de los datos es la mejor.
Es posible también cruzar otros ejes de coordenadas y obtener asà otros
mapas. En cualquier caso, es peligroso utilizar estos mapas. En efecto, se
trata de proyecciones de una nube de puntos situada en un espacio de 4
dimensiones en planos, y no sabemos a priori si una de esas proyecciones
permite representar escrupulosamente las relaciones de proximidad entre
los puntos de la nube. Solo un ACP calculado a partir del resultado del MDS
50. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
permitirá construir un mapa que dará cuenta de la nube de puntos lo más
escrupulosamente posible.
Hemos creado el mapa para la representación en dos dimensiones que es
demasiado diferente de aquella obtenida para la configuración en 4
dimensiones, y forzosamente más justo.
Con el fin de tener una representación con una calidad aún superior, y de
evitar una incorrecta interpretación de los datos, hemos utilizado XLSTAT-
3DPlot para representar la configuración en tres dimensiones. Para eso, se
debe seleccionar los datos a continuación, y luego hacer clic en el icono de
XLSTAT-3DPlot de la barra de herramientas "Visualización de datos".
Se consigue entonces el siguiente resultado:
51. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Asi, resulta que los consumidores han diferenciado bien colectivamente el
conjunto de los productos los unos de los otros puesto que los productos son
esparcidos. Sabemos que el producto P2 incluye más chocolate que el
producto P4 que es el que tiene menos: en el gráfico en 3 dimensiones
aparecen diametralmente opuestos. Observamos que los consumidores han
favorecido sensiblemente el producto P2 en su evaluación. También
observamos, según las imágenes aquà arriba, que los productos P3 y P5,
aunque tienen evaluaciones medias muy cercanas, no son próximas en el
espacio de representación. En efecto, las opiniones entre los consumidores
son a veces opuestas en los productos P3 y P5. Eso se explica por la presencia
de cacahuetes en el producto, sabor apreciado por algunos consumidores y
no por otros.
El método MDS permite asà cartografiar productos juzgados por
consumidores. La interpretación que se deduce puede ser mucho más rica
que un análisis a partir de estadísticas simples.
Comentario: no existe método estadístico riguroso para evaluar la calidad y
fiabilidad de una representación procedente de un MDS. Sin embargo, la
52. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
observación del diagrama de Shepard permite tener una idea general de la
calidad de la representación.
El diagrama de Shepard corresponde a una nube de puntos, cuyo abscisas
son las disimilaridades observadas, y las ordenadas, las distancias en la
configuración procedente del MDS. Mientras más esparcidos son los puntos,
menos fiable es el gráfico. Si el rango de las abscisas es respectada al de las
ordenadas, el gráfico es muy fiable. Si los puntos son alineados en una recta,
la representación es perfecta. El gráfico de izquierda corresponde, para los
datos de este ejemplo, a la representación en un espacio de 4 dimensiones, y
el de derecha corresponde a la representación en un espacio de 2
dimensiones. Se observa una diferencia sensible en la dispersión de los
puntos entre los dos gráficos
53. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
8 CLASIFICACIÓN CON EL MÉTODO K-MEANS
Una hoja Excel que contiene a la vez los datos y los resultados puede ser
descargado haciendo clic aquà. Los datos proceden del US Census Bureau
(se puede obtener el archivo de origen en la página web
http://eire.census.gov/popest/states_dataset.csv). Corresponden a la
medición de parámetros demográficos en 51 Estados de los Estados Unidos
en 2000 y 2001.
En el marco de este tutorial, solos los datos del año 2001 fueron
conservados, y con el fin de suprimir los efectos de escala, las variables
iniciales fueron convertidas en àndices por 1000 habitantes. El objetivo aquà
es crear grupos homogéneos de Estados. Estos datos también son utilizados
para el tutorial del Análisis de Componentes Principales (ACP) y en el tutorial
sobre la Clasificación Ascendente Jerárquica (CAJ).
Nota : si pretende hacer el análisis presentado a continuación con los
mismos datos, es seguramente posible que Ud. no obtendrá los mismos
resultados. En efecto, el método de las nubes dinámicas implica un sorteo
aleatorio.
Una vez que XLSTAT-Pro es activado, haga clic en el menú XLSTAT/Análisis
de datos/Nubes dinámicas, o haga clic en el botón correspondiente de la
barra "análisis de datos" (ver a continuación).
Una vez el botón presionado, aparece el cuadro de diálogo que corresponde
a las nubes dinámicas. Puede entonces seleccionar los datos en la hoja Excel.
Existen varias maneras de seleccionar los datos en el cuadro de diálogo
XLSTAT (ver el tutorial sobre este tema). En el ejemplo estudiado aquà, los
datos empiezan desde la primera fila; entonces es más rápido elegir el modo
54. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
de selección por columnas. Por esta razón, en el cuadro de diálogo a
continuación las selecciones aparecen en forma de columnas.
La variable "Población total" no fue seleccionada ya que solos los aspectos
dinámicos de la población nos interesa aquà. La última columna no fue
seleccionada tampoco, ya que hemos visto con el Análisis de Componentes
Principales que las dos últimas columnas están perfectamente correladas. La
opción "Etiquetas de las columnas" se deja activada, ya que la primera fila de
datos incluye el nombre de las variables, y las etiquetas de las observaciones
están seleccionadas. El número de grupos a crear está fijado a 4.
La opción "Estandarizar" está activada de manera a evitar que la escala de
las variables no influye sobre los resultados. Las opciones avanzadas
(activadas haciendo clic en el botón "Más" que se convierte luego "Menos")
son solicitadas. El número de repeticiones y el número máximo de
iteraciones están fijados a 100 con el fin de aumentar la calidad y la
estabilidad de los resultados.
Los cálculos empiezan cuando haga clic en el botón "OK". Si Usted ha
elegido en el panel de las opciones de XLSTAT la opción " Introducción
asistida ", XLSTAT le pide confirmar el número de filas y columnas.
El primer resultado visualizado es el cuadro de las inercias para la mayor
solución entre las repeticiones. La mayor solución es la que maximiza la
inercia inter-grupos (o que minimiza la inercia intra-grupos: en efecto,
tenemos [ Inercia Total = Inercia Inter-grupos + Inercia Intra-grupos). La
inercia es proporcional a la varianza de la población (basta con dividir la
55. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
inercia por el tamaño de la población para obtener la varianza da la
población).
Un cuadro presenta luego para cada Estado, el indicador del grupo al cual ha
sido asignado. Una parte del cuadro está presentada a continuación. Este
cuadro presenta también los grupos estables que muestran asà los Estados
que están asignados a menudo a los mismos grupos en el conjunto de las
repeticiones. Podrán después fusionar las informaciones sobre los grupos
con el cuadro inicial para eventuales análisis complementarios (un análisis
discriminante por ejemplo).
El cuadro visualiza para cada grupo las observaciones que le fueron
asignadas.
56. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Si se compara estos resultados con los del tutorial sobre la Clasificación
Ascendente Jerárquica, se nota que los dos métodos dan resultados
diferentes, aunque para la mayoría de los Estados, el grupo de asignación es
el mismo (para comparar se utiliza el tamaño de los grupos). Por ejemplo, en
el grupo que incluye 31 estados en los dos casos, 25 estados son idénticos
entre los dos métodos.
El cuadro a continuación corresponde a los centroides de los grupos. Para
cada grupo las observaciones más cerca del centroide son identificadas.
57. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Por último, aparece una sàntesis para las 10 mejores repeticiones. Se puede
ver que el algoritmo converge muy rápidamente para cada repetición.
Notaremos la evolución de la inercia intra-grupos de la primera a la última
iteración.
9 GRANDES CONJUNTOS DE DATOS - USO K-MEANS CLUSTERING
SEGUIDO DE UN AHC
9.1 CONJUNTO DE DATOS DE CLÚSTER
Una hoja Excel que contiene los datos y los resultados para su uso en este
tutorial se puede descargar haciendo clic aquí.
Los datos son de la Oficina del Censo de EE.UU., y se describen los cambios
en la población de 51 estados entre 2000 y 2001. El conjunto de datos inicial
se ha transformado a las tasas por 1.000 habitantes, con los datos de 2001
58. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
que sirve como centro para el análisis. Nuestro objetivo es crear grupos
homogéneos de los estados sobre la base de los datos demográficos que
tenemos disponibles. Este conjunto de datos no es muy grande, pero
ilustrará cómo lidiar con el conjunto de datos mucho más grande.
Nota: si intenta volver a ejecutar el mismo análisis que se describe a
continuación en los mismos datos, como el método k-means parte de
grupos seleccionados al azar, puede obtener resultados diferentes de los que
a continuación se indican. Para fijar la semilla, ir a las opciones de XLSTAT,
pestaña Opciones avanzadas y marque la opción "fijar la semilla".
9.2 CONFIGURACIÓN DE LA K-MEANS CLUSTERING
Una vez XLSTAT es activada, elija el comando de clustering k-means
XLSTAT / Análisis de datos /, o haga clic en el botón correspondiente de la
barra de herramientas de análisis de datos (véase más adelante)
Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo de
agrupamiento k-means.
Seleccione los datos en la hoja Excel con el ratón. (Nota: Hay varias formas
de seleccionar los datos con XLSTAT - Para más información, consulte el
tutorial en favor seleccionar datos .) En este ejemplo, los datos empiezan
desde la primera fila, por lo que es más rápido y más fácil de usar la
"selección de la columna "modo. Esto explica por qué las letras
correspondientes a las columnas se muestran en los cuadros de selección (C
a H).
59. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
No se ha seleccionado la variable de la población total, ya que estamos
interesados principalmente en la dinámica demográfica. La última columna
no se ha seleccionado ya que está totalmente correlacionado con la columna
que lo precede. Las etiquetas observaciones fueron seleccionados ya que
están disponibles.
Hemos establecido el número de grupos que se creen a 25. En el caso del
conjunto de datos mucho más grande que usted puede usar un número más
grande.
El criterio seleccionado es "Determinante (W)" , ya que permite eliminar los
efectos de escala de las variables.
En la pestaña de opciones hemos aumentado el número de repeticiones a 50
con el fin de aumentar la calidad y la estabilidad de los resultados.
En la salidas pestaña seleccionamos sólo los centroides que vamos a utilizar
en la AHC, los resultados por clase, ya que nos dará las muestras dentro de
60. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
cada clase, y los resultados por el objeto de obtener la tabla de la muestra
con una variable de atribución.
Una vez que ha hecho clic en Aceptar los resultados de la k-means clustering
aparecerán en una nueva hoja.
9.3 AGRUPACIÓN JERÁRQUICA DE LOS RESULTADOS DE LA K-MEANS
CLUSTERING
Vamos a trabajar en la mesa de centroi
des clase.
61. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Otro cuadro importante es la tabla que contiene la información acerca de
qué estados se agrupan juntos.
Seleccione ahora la XLSTAT / Análisis de datos / aglomerativo agrupación
jerárquica de mando, o haga clic en el botón correspondiente de los "Análisis
de datos" barra de herramientas (ver abajo).
En el general ficha deberá seleccionar los datos a agruparse. Seleccione las
variables originales que describen las 25 clases en los centroides de clase.
62. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Vamos a utilizar el tipo de proximidad: desemejanzas y la distancia
euclidiana , así como el método de Ward como el método de aglomeración.
Tenemos el nombre de las variables incluidas en la selección por lo que
marca a la opción etiquetas de columna y seleccionar los nombres de fila que
son el grupo número (1-25).
Vamos a utilizar el peso Row opción y seleccione la columna Suma de los
valores de la misma tabla centroides clase.
En Opciones de pestaña confirmamos que queremos agrupar las filas como
las clases están en filas, pero en este tipo de agrupación (AHC después de k-
medias) es necesario incluir las diferencias dentro de la clase. Encontrará
esta información en la misma mesa que antes: centroides de clase, en la
última columna A diferencia de clase.
63. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Podemos seleccionar todas las salidas de este análisis.
Por último, en la pestaña Gráficos, seleccione todas las tablas. Preste
especial atención al tipo dendrograma y seleccione la opción Vertical.
64. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
9.4 RESULTADOS DE LA AGRUPACIÓN JERÁRQUICA ACUMULATIVA
En los resultados de la AHC, mira las dos dendrogams que le dan a la
composición de los 3 grupos. Usted puede ver cómo se agrupan los 25
grupos en tres grupos finales.
También se puede ver la descomposición de la varianza.
65. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Por fin se puede utilizar la tabla obtenida en el Comité Ad Hoc para
recodificar la tabla obtenida en el k-means clustering para tener los
resultados finales. Ir a XLSTAT / Preparación de datos / Codificación.
Es necesario seleccionar la clase de columna de la tabla de clasificación
obtenida en el k-means clustering como variable a recodificar.Seleccione la
tabla de resultados por el objeto de la AHC, incluyendo el nombre de las
columnas que la tabla de codificación. A continuación, seleccione la opción
de las etiquetas de columna .
Para agregar la nueva columna de la primera tabla seleccione la opción
Rango y la primera celda junto a la mesa. También desmarque la
opción Mostrar encabezado del informe a fin de no tener nada más aparece.
66. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Finalmente obtuvo los resultados de la clasificación para los todos los
estados.
67. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
10 EJECUCIÓN DE UNA MEZCLA MODELO DE CLÚSTERES GAUSSIANO
10.1 MODELOS DE MEZCLAS GAUSSIANAS PARA LA AGRUPACIÓN
Estos modelos se utilizan normalmente para una finalidad
agrupación. Pueden proporcionar un marco para la evaluación de las
particiones de los datos teniendo en cuenta que cada componente
representa un clúster. Estos modelos tienen dos ventajas principales:
Es un método probabilístico para la obtención de una clasificación difusa de
las observaciones. La probabilidad de pertenencia a cada grupo se calcula y
una clasificación generalmente se logra mediante la asignación de cada
68. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
observación al grupo más probable. Estas probabilidades también pueden
ser utilizados para interpretar sospechosos clasificaciones.
Mezcla de modelado es muy flexible.
10.2 CONJUNTO DE DATOS DE MODELO DE MEZCLA GAUSSIANA
Los datos corresponden a la famosa iris de Fisher presentado en [Fisher, RA
(1936), el uso de múltiples medidas en problemas taxonómicos.Anales de la
eugenesia , 7 , Parte II, 179-188]
Estos datos da las mediciones (en centímetros) de la longitud y la anchura
del pétalo, de 150 flores de 3 especies de iris ( setosa , versicolor , yvirginica) .
Una hoja Excel que contiene los datos y los resultados para su uso en este
tutorial se puede descargar haciendo clic aquí .
El objetivo es ajustar un modelo de mezcla gaussiana y recuperar la
estructura de datos en tres grupos.
10.3 LA CREACIÓN DE UN MODELO DE MEZCLA GAUSSIANA
Una vez XLSTAT iniciado, elija el modelo mezcla XLSTAT / XLSTAT-MX /
Gaussian comando o haga clic en el botón correspondiente de laXLSTAT-
MX barra de herramientas.
Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo.
69. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Los datos se presentan en una tabla de 150 filas y 2 columnas. Se supone que
las etiquetas son desconocidas y que el peso de cada fila es la misma. Como
la clasificación de los datos se realiza de acuerdo a la longitud y la anchura
del pétalo del iris, la opción multidimensional se elige.
En las opciones (1) ficha , se proponen tres algoritmos de inferencia con
cuatro criterios de selección y los tres métodos de inicialización. El usuario
también puede establecer el número máximo de iteraciones del algoritmo
de inferencia y su umbral de convergencia. En este caso, elegimos una
inicialización al azar con dos repeticiones y dejar el resto de las opciones a
sus valores predeterminados.
70. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
En los (2) Opciones ficha , una lista de todos los modelos de mezclas
gaussianas disponible. El número máximo y mínimo de clases puede ser
modificado y las proporciones de la mezcla puede ser forzado a ser
igual. Aquí, elegimos para probar los modelos de EEE y EEV para un número
de clases que varía de 2 a 5.
Los cálculos empiezan una vez que haya hecho clic en Aceptar . Los
resultados se mostrarán en una nueva hoja.
Interpretación de los resultados de un modelo de mezcla gaussiana
agrupación
Los primeros resultados que se muestran son las estadísticas de los distintos
variables (largo y ancho). A continuación, se muestra el valor del criterio de
selección para todos los modelos y para un número de clases que varía de 2
a 5.
A continuación se dan los parámetros estimados del modelo seleccionado
(proporciones, medias y varianzas).
71. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
A continuación se presenta una tabla que muestra las características del
modelo seleccionado (BIC, AIC, logaritmo de verosimilitud, NEC, ).
En la siguiente tabla los resultados en términos de estimación de la
probabilidad y la clasificación de las primeras observaciones de la serie de
datos disponible se mostraron. La clasificación se calcula de acuerdo a las
72. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
probabilidades mediante la regla MAP (máximo a posteriori). Podemos ver
que 3 clases han sido seleccionadas.
Por último, se proporciona un gráfico de los datos agrupados.
Muchas otras características y opciones están disponibles en los modelos de
mezcla con XLSTAT incluyen pesos de observación, etiquetado parcial, 14
algoritmo de inferencia...
hemos concluido con el análisis espero que me hallan comprendido
73. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
PENSAMIENTO
Terminando este detalle llegue a la conclusión; que la diferencia en hacer
algo más allá de pasión de dar tus clases y que teniendo el afán de querer
hacer las cosas bien para tus alumnos siempre tendrá enemigos gratis
dentro de tu entorno laboral
…y en conclusión por ahora solo tienes una pisca de poder y una tonelada de
arrogancia ya veremos cómo sales de tus andadas
Dedicado a mis ex alumnos por tenerme paciencia y estima saludo y éxitos
No olviden que nadie es dueño de la verdad
Gracias