SlideShare una empresa de Scribd logo
1 de 73
Descargar para leer sin conexión
Biólogo. Jorge Pablo Cadena A.
Magister en Gestión Ambiental
MANUAL DE FORMULAS
ESTADISTICAS PARA
BIOLOGIA
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
MANUAL DE FORMULAS
ESTADISTICA PARA BIOLOGIA
GESTION AMBIENTAL
Nombre del autor
Biólogo. Jorge Pablo Cadena A.
Magister en Gestión Ambiental
Año: 2020
ISBN:
Edición: 1-2020
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Contenido
1 MANUAL...........................................................................................................................3
1.1 DENDOGRAMA.........................................................................................................3
2 ANALISIS FACTORIAL .......................................................................................................8
3 ANALISIS DE COMPONENETE PRINCIPAL ......................................................................14
4 ANÁLISIS DISCRIMINANTE..............................................................................................21
5 ANÁLISIS DE CORRESPONDENCIAS ...............................................................................28
5.1 ANALISIS DE CORREESPONDENCIA EN 3 D.............................................................30
6 ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES............................................................38
7 MULTIDIMENSIONAL SCALING ......................................................................................44
8 CLASIFICACIÓN CON EL MÉTODO K-MEANS.................................................................52
9 GRANDES CONJUNTOS DE DATOS - USO K-MEANS CLUSTERING SEGUIDO DE UN AHC
56
9.1 CONJUNTO DE DATOS DE CLÚSTER ......................................................................56
9.2 CONFIGURACIÓN DE LA K-MEANS CLUSTERING ...................................................57
9.3 AGRUPACIÓN JERÁRQUICA DE LOS RESULTADOS DE LA K-MEANS CLUSTERING 59
9.4 RESULTADOS DE LA AGRUPACIÓN JERÁRQUICA ACUMULATIVA..........................63
10 EJECUCIÓN DE UNA MEZCLA MODELO DE CLÚSTERES GAUSSIANO .......................66
10.1 MODELOS DE MEZCLAS GAUSSIANAS PARA LA AGRUPACIÓN.............................66
10.2 CONJUNTO DE DATOS DE MODELO DE MEZCLA GAUSSIANA..............................67
10.3 LA CREACIÓN DE UN MODELO DE MEZCLA GAUSSIANA ......................................67
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
1 MANUAL
1.1 DENDOGRAMA
Una hoja Excel que incluye a la vez los datos y los resultados puede ser
descargada haciendo clic aquà. Los datos proceden del US Census Bureau.
Corresponden a la medición de parámetros demográficos en 51 Estados de
los Estados-Unidos en 2000 y 2001. En el marco de este tutorial, solo los
datos del año 2001 fueron conservados, y con el fin de suprimir los efectos
de escala, las variables iniciales fueron convertidas en àndices por 1000
habitantes.
El objetivo aquà es de crear grupos homogéneos de estados. Estos datos son
también utilizados por el tutorial del análisis de Componentes Principales
(ACP).
Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/
Análisis de datos/ Clasificación Ascendente Jerárquica (CAH), o haga clic en
el botón correspondiente de la barra "Análisis de datos" (ver a continuación).
Una vez el botón pulsado, el cuadro de diálogo correspondiente a la CAH
aparece. Puede entonces seleccionar los datos en la hoja Excel. Hay varias
manera de seleccionar los datos en el cuadro de diálogo de XLSTAT (ver el
tutorial del asunto). En el ejemplo estudiado aquà los datos empiezan desde
la primera lànea; Es entonces más rápido elegir el modo de selección por
columnas. Por esta razón, en el cuadro de diálogo a continuación las
selecciones aparecen en forma de columnas.
La variable "Población total" no fue seleccionada ya que solos los aspectos
dinámicos de la población nos interesa aquà. La última columna no fue
seleccionada tampoco, ya que hemos visto con el análisis de componentes
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
principales que las dos últimas columnas están perfectamente
correlacionadas. La opción "Etiquetas de las columnas" es activada, ya que la
primera lànea de datos incluye el nombre de las variables.
Las opciones Centrar/Reducir es activada de manera a evitar que algunas
variables no influyen demasiado sobre el resultado con problemas de escala.
La opción "Truncamiento automático" es activada para obtener el
dendrograma (o árbol de clasificación) truncado.
Los cálculos empiezan cuando haga clic en el botón "OK". El primer
resultado es el diagrama de los niveles. Su forma proporciona informaciones
sobre la estructura de los datos. Cuando son observadas unas variaciones
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
importantes, tenemos una agregación de estructuras homogéneas. Es en
parte, sobre esta base, que está creado el truncamiento automático que
permite determinar el número de grupos homogéneos.
El gráfico a continuación es el dendrograma. Representa, de manera clara, la
manera de la que el algoritmo procede para reagrupar los individuos y luego
los subgrupos. Al final, el algoritmo a reagrupado progresivamente todas las
observaciones. La lànea de puntos representa el truncamiento y permite
visualizar que dos grupos homogéneos fueron identificados. El primer grupo
es muy homogeno, como lo confirman las Varianzas intraclase
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Un cuadro que incluye el nombre de cada uno de los Estados y el grupo del
cual es vinculado, aparece. Podrá ser reutilizado para otros análisis o para
aplicaciones operacionales.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
2 ANALISIS FACTORIAL
Un libro Excel que incluyen a la vez los datos utilizados en este ejemplo y los
resultados obtenidos puede ser descargado haciendo clic aquà. Los datos
proceden de [Kendall M. (1975). Multivariate analysis. Griffin, London] y
corresponden a 48 candidatos que fueron evaluados sobre 15 criterios para
un puesto en empresa:
Carta de motivación Presentación Nivel de estudios Simpatàa Confianza en
si mismo Lucidez Honestidad Sentido comercial Experiencia Carisma
Ambition Comprensión Potencial Motivación para el puesto Adecuación
Porque las correlaciones entre los criterios son importantes, es posible que la
persona que entrevista a los candidatos haya confundido algunos criterios o
que algunos criterios sean redundantes. Se examina un análisis factorial de
variables latentes, con el fin de determinar cuales son los criterios (o
factores) latentes. Existen varios métodos de análisis factorial de variables
latentes. El método propuesto por defecto por XLSTAT es el método del
factor principal utilizado iterativamente. Lo aplicamos aquà con el fin de
generar siete factores, antes de efectuar una rotación varimax para facilitar
la interpretación de los resultados.
Para activar el cuadro de diálogo del análisis factorial, inicie XLSTAT, luego
elija el comando XLSTAT/análisis de datos/ análisis Factorial, o haga clic en el
botón correspondiente de la barra de herramientas "análisis de los datos"
(ver a continuación).
Una vez que haya pulsado sobre el botón, aparece el cuadro de diálogo.
Puede entonces seleccionar los datos en la hoja Excel. Haciendo clic en el
botón "Más" del cuadro de diálogo, se puede visualizar la parte inferior en la
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
cual se encuentran las opciones de rotación. Para este ejemplo se eligió el
método Varimax.
Una vez que haga clic en el botón "OK", los cálculos empiezan y luego se
visualizan los resultados. Los primeros resultados son el alfa de Cronbach
estandarizado, y un resumen de las variables seleccionadas. Después, la
matriz de correlación aparece. Se observa que hay numerosas correlaciones
significativamente no nulas, algunas de ellas son importantes (0.883 para
Comprensión y Lucidez). Se observa que el juez está probablemente
influenciado por la experiencia y el carisma del candidato cuando se
determina la adecuación entre el candidato y el puesto.
En el cuadro siguiente se visualizan los valores propios procedentes del
análisis factorial. Comprobamos que con siete factores se conserva 83.9 %
de la variabilidad de los datos iniciales.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
A continuación, se nota que la rotación varimax ha cambiado la manera cuyo
cada factor representa una parte de la varianza. La rotación varimax
proporciona la interpretación más fácil maximizando la varianza del
cuadrado de las coordenadas de las variables por columna. Para un factor
dado, las coordenadas elevadas lo son más aún, las coordenadas débiles lo
son más aún, y las coordenadas intermediarias sean más elevadas o más
débiles.
A continuación se debe analizar los datos de las variables tras la rotación
varimax. Estos resultados son utilizados para interpretar el sentido de los
factores tras la rotación.
Según el cuadro más arriba, se observa que el primer factor está
fuertemente relacionado con la ambición, la Confianza en si mismo, al
Sentido comercial y la Lucidez. En cuanto al segundo factor está relacionado
con la Carta de motivación, la experiencia y la adecuación. El tercer factor
está fuertemente relacionado con la Honestidad. El cuarto factor está
positivamente correlado con el Nivel de estudios y negativamente con el
Motivación para el puesto. La presentación es más bien relacionada al quinto
factor. De estos resultados, se deduce que los candidatos que tienen
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
coordenadas elevadas sobre el primer factor son comerciales prometedores,
mientras que los que tendràan más bien coordenadas elevadas sobre el
segundo y el tercer factor seràan destinados al management.
El gráfico a continuación proporciona la posición de las variables iniciales
sobre los ejes F1 y F2. Se pueden visualizar otros gráficos cruzando otros
factores.
Los dos cuadros, a continuación, corresponden a las matrices de correlación
reproducida y residual, que sirven para verificar si el modelo del análisis
factorial es adecuado o no.
El siguiente cuadro proporciona las coordenadas de los individuos tras la
rotación varimax sobre los ejes factoriales.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
XLSTAT muestra el mapa factorial de dos dimensiones. El gráfico, a
continuación, corresponde al mapa factorial sobre F1 y F2.
Con el fin de tomar en cuenta más información, hemos utilizado XLSTAT-
3DPlot para visualizar los datos de 3 dimensiones.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Los mejores candidatos son sin duda alguna los individuos 40 y 39. Si
declinan la oferta, los candidatos 8, 20,22,23,24 serán una alternativa.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
3 ANALISIS DE COMPONENETE PRINCIPAL
Una hoja Excel que incluye a la vez los datos y los resultados puede ser
descargada haciendo clic aquà. Los datos proceden del US Census Bureau
(el archivo original puede ser obtenido en la página
http://eire.census.gov/popest/states_dataset.csv). Corresponden a la
medición de parámetros demográficos en 51 Estados de los Estados-Unidos
en 2000 y 2001. En el marco de este tutorial, solo los datos del año 2001
fueron conservados, y con el fin de suprimir los efectos de escala, las
variables iniciales fueron convertidas en àndices por 1000 habitantes. El
objetivo aquà es de analizar las correlaciones entre las variables e identificar
Estados que se distinguen fuertemente de los demás. Estos datos son
también utilizados por el tutorial de la Clasificación Ascendente Jerárquica
(CAH).
El ACP es un método muy eficaz para el Análisis de datos cuantitativos
(continuos o discretos) que se presentan bajo la forma de cuadros de M
observaciones / N variables. Permite: visualizar y analizar rápidamente las
correlaciones entre las N variables, visualizar y analizar las M observaciones
inicialmente descritas por N variables en un gráfico de dos o tres
dimensiones, construido de tal forma que la dispersión entre los datos sea
tanto preservada como posible, construir un conjunto de P factores no
correlacionadas (P
Los làmites del ACP vienen del hecho que es un método de proyección, y
que la pérdida de información inducida por la proyección puede provocar
interpretaciones erróneas. Unas astucias permiten, sin embargo, evitar estos
inconvenientes.
Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/
Análisis de datos/ Análisis de Componentes Principales, o haga clic en el
botón correspondiente de la barra "Análisis de datos" (ver a continuación).
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez el botón pulsado, la cuadro de diálogo correspondiente al análisis de
componentes principales aparece. Puede entonces seleccionar los datos en
la hoja Excel. Hay varias manera de seleccionar los datos en los cuadros de
diálogo XLSTAT (ver el tutorial del asunto). En el ejemplo estudiado aquà, los
datos empiezan desde la primera lànea; Es entonces más rápido elegir el
modo de selección por columnas. Por esta razón, en el cuadro de diálogo a
continuación las selecciones aparecen en forma de columnas. Todas las
opciones, por defecto, del cuadro de diálogo son dejadas asà. La opción
Referencias presentes es activada, ya que la primera lànea de datos incluye
el nombre de las variables.
Los cálculos empiezan cuando haga clic en el botón "OK". Si habéis elegido
en el panel de las opciones de XLSTAT la opción "entrada asistida", XLSTAT
le pide confirmar el número de líneas y de columnas. Después un cuadro de
diálogo le presenta las opciones para la visualización de los gráficos. En
nuestro caso, el % de variabilidad representado por los dos primeros factores
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
no es particularmente elevado (67.72%); Para evitar una mala interpretación
de los gráficos, es pedido entonces una visualización en los ejes 1 y 3.
El primer resultado interesante a analizar es la matriz de las correlaciones.
Observamos el resultado evidente que los índices de gente de más y menos
de 65 años de edad son perfectamente correlacionados (r = -1). Las dos
variables son entonces redundantes. Observamos que la inmigración
procedente de otros estados de EE UU es muy poco correlacionada con las
otras variables, e incluida con la inmigración procedente de paàses
extranjeros. Eso indica que las razones de inmigración son seguramente
diferentes para las dos poblaciones concernidas.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
El siguiente cuadro y el gráfico asociado son vinculados a un objeto
matemático, los valores propios, que son afortunadamente vinculados a un
concepto muy simple : la calidad de la proyección cuando pasamos de N
dimensiones (N siendo el número de variables, aquà 7) a un número más
debil de dimensiones. En nuestro caso, observamos que el primer valor
propio vale 3.567 y representa 51% de la variabilidad. Eso significa que si
representamos los datos en un sólo eje, tendremos entonces siempre 51%
de la variabilidad total que será preservada.
A cada valor propio corresponde un factor. Cada factor es en realidad una
combinación lineal de las variables de inicio. Los factores tienen la
particularidad de no ser correlacionados entre ellos. Los valores propios y los
factores son ordenados en orden descendente de variabilidad representada.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Idealmente, los dos primeros valores propios corresponden a un % elevado
de la variabilidad, de manera que la representación sobre los dos primeros
ejes factoriales es de buena calidad. En nuestro ejemplo, eso no es
exactamente el caso, de donde la necesidad de aprobar las hipótesis
formuladas por el uso de los gráficos en los factores F1 y F2, por los gráficos
en F1 y F3. Vemos aquà que el número de factores es 6, cuando teníamos al
principio 7 variables. Eso es debido a las dos variables redundantes.
Comprendemos bien que la información pudiera ser sintetizada en 6
dimensiones. El número de dimensiones "útiles" máximo es
automáticamente detectado por el método utilizado.
El primer gráfico específico al método es el circulo de las correlaciones (ver a
continuación el circulo en los ejes F1 y F2). Corresponde a una proyección de
las variables iniciales sobre un plano de dos dimensiones constituido por los
dos primeros factores. Cuando dos variables están lejos del centro del
gráfico, entonces si están: cercas unas de las otras, entonces están
significativamente positivamente correlacionadas (r cerca de 1), ortogonales
unas de las otras, entonces están significativamente no- correlacionadas (r
cerca de 0), simétricamente opuestas con respecto al centro, entonces están
significativamente negativamente correlacionadas (r cerca de -1).
Cuando las variables están relativamente cercas del centro del gráfico,
entonces cualquiera interpretación es arriesgada, y es necesario referirse a la
matriz de correlaciones o a otros planos factoriales para interpretar los
resultados. En nuestro ejemplo, podríamos deducir del gráfico a
continuación que las variables inmigración doméstica, e inmigración
Internacional son correlacionadas, cuando no lo son, lo que podemos ver en
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
la matriz de las correlaciones o en el círculo de las correlaciones en los ejes F1
y F3. En cambio, vemos bien la fuerte correlación entre el índice de
mortalidad y el índice de personas cuya edad es superior a 65 años.
El círculo de las correlaciones es también útil para interpretar la significación
de los ejes. En nuestro caso, el eje F1 es claramente vinculado a la edad de la
población y a su reemplazo, cuando el eje F2 es esencialmente vinculado a la
inmigración doméstica. Estas tendencias son particularmente interesantes a
sacar para la interpretación del gráfico de los individuos (ver a continuación).
Para confirmar el hecho que una variable es fuertemente vinculada a un
factor, debe consultar la tabla de los coseno : mientras más elevado es el
coseno (en valor absoluto), más vinculada está la variable al eje. Mientras
más cerca está el coseno de cero, menos vinculada está la variable al eje. En
nuestro caso, vemos que en lo que se refiere a la inmigración internacional
será mejor interpretada en los ejes F2/F3.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
El gráfico a continuación corresponde a uno de los objetivos del ACP.
Permite representar los individuos en una carta de dos dimensiones, y asà
identificar tendencias. Vemos en nuestro ejemplo que sobre la base de
variables demográficas que disponemos, el Nevada y la Florida son bastante
particulares, asà como el Utah y Alaska que parecen compartir caracterà-
sticas : mirando los datos, percibimos que estos dos Etats tienen una
población claramente más joven que la media, y una natalidad muy elevada.
Haga clic para ver una visualización en 3 dimensiones creada con XLSTAT-
Miner3D sobre los tres primeros ejes.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
4 ANÁLISIS DISCRIMINANTE
En una hoja Excel que contiene los datos y los resultados de este ejemplo
puede ser descargada haciendo clic aquà. Los datos proceden de [Fisher M.
(1936). The Use of Multiple Measurements in Taxonomic Problems. Annals
of Eugenics, 7, pp 179 -188] y corresponden a 150 flores de la familia Iris,
definidas por 4 variables cuantitativas (Longitud-Sépalos, Anchura-Sépalos,
Longitud-Pétalos, Anchura-Pétalos) y por su especie.
Tres diferentes especies forman parte de este estudio: setosa, versicolor and
virginica. Nuestro objetivo es probar si las cuatros variables descriptivas
permiten identificar las especies, y visualizar los datos en un gráfico con el fin
de comprobar que las tres especies son correctamente diferenciadas
Iris setosa, versicolor et virginica.
Una vez XLSTAT iniciado, elija el comando XLSTAT/Análisis de los
datos/Análisis Factorial Discriminante o haga clic en el botón "Análisis
Factorial Discriminante" de la barra de herramientas "Análisis de los datos".
Una vez el botón presionado, aparece el cuadro de diálogo correspondiente
al análisis Factorial Discriminante (AFD). Puede entonces seleccionar los
datos en la hoja Excel. La "Variable dependiente" corresponde a la variable
explicada, que es, en este caso preciso, la especie de Iris. Las variables
explicativas son las cuatros variables que disponemos.
Se deja la opción "Etiquetas de las columnas" activada ya que la primera fila
de las columnas incluye el nombre de las variables. Cuando hace clic en el
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
botón "Más" del cuadro de diálogo, aparece la parte inferior del cuadro de
diálogo (le botón "Más" se convierte entonces en "Menos"). La parte inferior
corresponde a las opciones avanzadas. Hemos deshabilitado la opción
"Igualdad de las matrices de covarianza entre-grupos", ya que como lo
veremos más tarde (Prueba de Box), efectuar una semejante hipótesis será
falso.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez que haya pulsado en el botón "OK", empiezan los cálculos y luego se
visualizan los resultados. XLSTAT empieza por visualizar las matrices
implicadas en los cálculos. Las dos pruebas de Box permiten confirmar que
no se puede efectuar la hipótesis que las matrices de covarianza son
idénticas para las 3 especies.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
La prueba del Lambda de Wilks permite probar si los vectores de las medias
para los diferentes grupos son iguales o no (esta prueba se puede percibir
como un equivalente multidimensional de la prueba LSD de Fisher o de la
prueba HSD de Tukey). Aquà observamos que la diferencia entre los
vectores es significativa al nivel de significación de 0.05.
En la siguiente tabla se visualizan las funciones discriminantes. Cuando se
supone que las matrices de covarianza son iguales, estas funciones son
lineales. En el caso contrario, son cuadráticas, como es el caso aquà. La regla
basada sobre estas funciones es tal que se le atribuye una observación al
grupo cuya función discriminante da el valor más elevado.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
La siguiente tabla proporciona los valores propios y el % de varianza
correspondiente. Se puede ver que 99% de la varianza están representadas
por el primer factor. Hay nada más que dos factores: en efecto, el número
máximo de factores no nulos vale k-1, cuando n>p>k, donde n es el número
de observaciones, p el número de variables explicativas y k el número de
grupos.
El siguiente gráfico muestra como las cuatro primeras variables están
correladas con los dos factores obtenidos (este gráfico está construido a
partir de la tabla de las coordenadas de las variables). Se puede observar que
el factor F1 está correlado con Long. Sép., Long. Pét. et Anch. Pét. y que F2
está correlado con Anch. Pét.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
La siguiente tabla enumera para cada flor, sus coordenadas factoriales, la
probabilidad de asignación a cada grupo, y el cuadrado de las distancias de
Mahalanobis en el centroide de cada grupo. Cada observación es
reclasificada en el grupo por el cual la probabilidad es máxima. Las
probabilidades son probabilidades a posteriori que toman en cuenta las
probabilidades a priori a través de la fórmula de Bayes.
Se nota que las observaciones (5,9,12) fueron reclasificadas. Puede haber
varias razones: la persona que efectuó mis mediciones ha cometido un error
cuando medàa, o los iris que corresponden a estos datos han tenido un
crecimiento anormal por razones desconocidas, o el criterio de clasificación
utilizado por el especialista no es correcto, o falta de información para
diferenciar perfectamente las especies entre sà.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
En el siguiente gráfico representa las observaciones sobre los ejes
factoriales. Este gráfico permite confirmar que las observaciones están
correctamente discriminadas sobre los ejes factoriales obtenidos a partir de
las variables explicativas iniciales.
Por último, la matriz de confusión resume la información que concierne las
reclasificaciones de observaciones, y se puede deducir el àndice de error
aparente, que corresponde a la razón del número de observaciones
reclasificadas, sobre el número total de observaciones.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
5 ANÁLISIS DE CORRESPONDENCIAS
Una hoja Excel que contiene los datos y resultados puede cargarse haciendo
clic aquà. Los datos corresponden a una investigación en la cual los
entrevistados dan sus opiniones sobre una pelàcula que acaban de ver. Se les
pide también sus grupos de edad.
Una vez que XLSTAT está abierto, elige XLSTAT/Análisis de los
datos/Análisis factorial de correspondencias (XLSTAT/Analyzing
data/Correspondence analysis), o haga clic en el botón correspondiente de la
barra de herramientas "Análisis de los datos" (Analyzing Data).
Una vez el botón pulsado, el cuadro de diálogo del análisis de
correspondencias aparece. Puede entonces seleccionar los datos con el
ratón en la hoja Excel. Si sus datos están en una tabla cruzada (véase
ejemplo), seleccione la opción Tabla de Contingencia (Contingency table). Si
sus datos están en una tabla Individuos / variables seleccione la otra opción.
La opción "referencias presentes" (Labels included) es elegida porque los
nombres de las variables en làneas y columnas están también seleccionadas.
Haga clic en una célula de su hoja para colocar los resultados del análisis.
Esta célula corresponde a la posición de arriba e izquierda de las tablas
(AFC!$J$4 en nuestro ejemplo; AFC es el nombre de la hoja de datos). Puede
también editar los resultados en una hoja separada o en un nuevo Libro.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Los resultados son visualizados después de especificar algunas opciones
relativas a los gráficos. Están disponibles numerosos detalles, incluido la
prueba del chi-cuadrado de independencia de las làneas y columnas. La
calidad de la representación gráfica puede ser evaluada gracias al
histograma o a la tabla de los valores propios. Si la suma de los dos primeros
(o de los n primeros) valores propios representan una gran parte de la
totalidad de la varianza, la calidad de los gráficos es buena. En nuestro caso
esta calidad es muy buena en la medida en que los dos primeros valores
propios totalizan 97 % de la varianza total.
Haga clic para ver una visualización de los resultados.
El principal interés del análisis de correspondencias es la representación
gráfica simultánea de las variables làneas y de las variables columnas.
Cuando la calidad del análisis es buena (97% en nuestro caso) el mapping
permite interpretar fácilmente los datos. Podemos asà observar que los
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
jóvenes de 16 a 24 años tienen opiniones sensiblemente diferentes de los
otros grupos de edades. Las personas que pertenecen a la clase de los 55-64
años no aprecian la pelàcula.
El análisis de correspondencias es una técnica potente para analizar los và-
nculos entre las diferentes categoràas de dos variables cualitativas. Podemos
utilizar el análisis de correspondencias múltiples (ACM) cuando deseamos
analizar las proximidades entre las categoràas de más de dos variables
cualitativas.
Vea este vídeo para obtener una demostración de este tutorial.
5.1 ANALISIS DE CORREESPONDENCIA EN 3 D
Conjunto de datos para ejecutar un análisis de correspondencias de una
tabla de datos en bruto, Una hoja Excel que contiene los datos y los
resultados puede ser descargado haciendo clic aquí. Los datos corresponden
a la lista de futbolistas extranjeros en la liga premier y su nacionalidad.
Queremos estudiar la distribución de los jugadores extranjeros en los clubes
ingleses
Configuración de un análisis de correspondencias de una tabla de datos en
bruto
Una vez XLSTAT iniciado, elija el comando de análisis de correspondencia
Análisis de datos /, o haga clic en el botón correspondiente de la barra de
herramientas de análisis de datos (véase más adelante).
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo
Análisis de correspondencias.
En la tabla Observaciones / variables de campo, seleccione el Club de
columnas y de la Región en la hoja de Excel.
Los datos están en un formato de Observaciones / variables, marque la
opción correspondiente, .Como se incluyen los nombres de las columnas, la
opción de etiquetas variable se debe seleccionar también.
Elija la opción Hoja de la salida.
En la pestaña Opciones, marque la prueba de independencia y dejar el nivel
de significación de 5.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
En la sección Salidas, seleccionar las siguientes opciones:
 Tabla de contingencia
 Valores propios
 Coordenadas principales
 Coordenadas estándar
 Contribuciones
 Cosenos al cuadrado
Ir a la última pestaña Gráficos y habilitar el:
 Parcelas simétricas
 Parcelas asimétricas
 Etiquetas
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Haga clic sobre Aceptar.
A medida que el modelo necesita más de dos factores. Haga clic primero en
Seleccionar para seleccionar la trama F1-F2. A continuación, cambie la
abscisa a F2. Se va a cambiar las ordenadas a F3. Vuelva a hacer clic en
Seleccionar. De esta manera tendremos dos parcelas: F1-F2 y F2-F3. Haga
clic en Hecho.
Interpretación de los resultados del análisis de correspondencias
El primer resultado es la tabla de contingencia y la prueba de independencia
entre las filas y columnas.
El p-valor de 0.008 es inferior al 5% la hipótesis nula debe rechazarse. Esto
significa que la distribución de la nacionalidad no es al azar en los clubes del
Reino Unido.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Entonces usted tiene las parcelas simétricas. A partir de la primera parcela se
puede ver que los clubes como el Aston Villa y el Stoke City tienen más
norteamericano jugadores que el resto de los equipos. De la misma manera,
Burney tiene un montón de jugadores de Europa del Norte.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Para crear un gráfico 3-D de los resultados de un análisis de correspondencia
Ahora vamos a hacer un gráfico en 3 dimensiones para tener una mejor
representación de los puntos. En primer lugar vamos a hacer una tabla que
contiene tanto los primeros 3 coordenadas principales de los clubes y las
zonas geográficas y la suma de los cosenos para los 3 factores.
La suma de los cosenos al cuadrado para los 3 factores, obtenidos a partir de
la tabla de cosenos al cuadrado, da una idea de lo bien que se representa la
muestra en el espacio 3-D.Agregar una última columna para tener la
información sobre las filas y columnas. Las filas son los clubes y las columnas
de las regiones. Hacer una variable de categoría con R y C para describir
cada muestra
Seleccione la tabla completa y vaya al menú de visualización de datos y
seleccione la opción XLSTAT-3DPlot.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Cuando pronta seleccionar el formato de los datos como tabla.
Usted tendrá que especificar los ejes. Hacerlo mediante un clic derecho y
seleccione en el dropbox la variable adecuada para su uso. Para los 3 ejes que
utilizamos: F1, F2 y F3 horizontalmente verticalmente. También es necesario
establecer el tamaño del eje con el fin de tener una parcela orto normal. Por
ejemplo el uso de todos los ejes: -1,5 y 1,5 como límites
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Por el color y el tamaño del punto puede utilizar la suma de cosenos. Ir a la
ficha Objetos y modificar las secciones de color y tamaño.
Por último podemos añadir las etiquetas por entrar en las Anotaciones ficha
y selcting "Columna1", como la etiqueta
Aquí está su representación en 3-D.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
6 ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES
Una hoja Excel que incluyen los datos y los resultados de este ejemplo puede
ser descargada haciendo clic aquà. Los datos corresponden a una encuesta
efectuada por un concesionario, ante 28 clientes, una semana después que
estos últimos recuperaron su vehàculo tras una reparación mecánica. El
cuestionario incluye cinco preguntas: - ¿Está Ud. globalmente satisfecho de
su visita al garaje? (Sà / No) - ¿Considera Ud. que la reparación fue
correctamente efectuada? (Sà / No / No sabe) - ¿Cómo juzga Ud. la calidad
de la acogida? (de 1 a 5) - ¿Le parece la relación calidad precio correcta? (Sà /
No) - ¿Volverá Ud. a este garaje para una reparación? (Sà / No / No sabe)
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Efectuando un Análisis de Correspondencias Múltiples (ACM), deseamos
identificar las posibles relaciones entre las diferentes respuestas en las
diferentes preguntas.
Una vez XLSTAT iniciado, elija el comando XLSTAT/Análisis de
datos/Análisis de Correspondencias Múltiples o haga clic en el botón
"Análisis de Correspondencias Múltiples" de la barra de herramientas
"Análisis de los datos".
Una vez que haya pulsado sobre el botón, aparece el cuadro de diálogo que
corresponde al análisis de Correspondencia Múltiples. Entonces puede
seleccionar los datos en la hoja Excel. La opción "Etiquetas de variables" se
deja activada ya que la primera fila de las columnas incluye el nombre de las
variables. La opción "Etiquetas de las observaciones" es activada y hemos
seleccionado la columna de las etiquetas de las observaciones.
En la ficha “Opciones” activamos la opción de “datos suplementarios” y
después vamos a la ficha correspondiente. La variable "Volver" se utiliza
como "Variable adicional" ya que no deseamos que influye en los cálculos; en
cambio nos interesa a posteriori su ubicación.
Elegimos la opción 1/p para filtrar los valores propios: no serán exhibidos los
resultados detallados que corresponden a los factores para los cuales el valor
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
propio es menos que 1/p (donde p es el número de variables cualitativas
activas).
Se han activado las opciones siguientes de “Resultados” y de “Graficos”.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez que haya pulsado en el botón "OK", empiezan los cálculos y luego
aparecen los resultados. XLSTAT empieza por visualizar tablas implicadas en
los cálculos (tabla disyuntiva completa y tabla de Burt).
La inercia total vale 2. En ACM, la inercia total depende únicamente del
número de variables y categorías y no de los enlaces entre las variables;
entonces esta cantidad no tiene interpretación estadística aquà.
En la siguiente tabla se visualizan los 8 valores propios y el % de inercia
correspondiente.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Luego una tabla visualiza las coordenadas de las categorías en el espacio
factorial (las diferentes categorías de las variables cualitativas
seleccionadas). Las coordenadas de las observaciones están proporcionadas
más abajo. El gráfico a continuación representa el mapa factorial que
superpone categorías y observaciones.
Con el fin de visualizar lo mejor posible la posición relativa de las categorías,
hemos realizado con XLSTAT-3DPlot una visualización en el espacio de los
tres primeros factores a partir de la tabla de las coordenadas de las
categorías.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
De esos gráficos, confirmamos una evidencia: un cliente volverá si está
globalmente satisfecho de la prestación, de la acogida, del precio y si tiene la
impresión que la reparación se efectuó efectivamente. También se
observará el extraño sentimiento que la reparación no se efectuó
satisfactoriamente coincidiendo con una acogida no satisfactoria. Eso
merecería un amplio análisis: ¿La persona indicó equivocadamente el
problema porque no estaba satisfactoriamente acogida? o bien ¿llamó de
nuevo para señalar que sigue el problema y que no fue acogida
satisfactoriamente en aquel momento?
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
7 MULTIDIMENSIONAL SCALING
El Multidimensional Scaling (MDS) es un método de análisis de datos
ampliamente utilizado en los campos del marketing y de la psicometràa,
especialmente en los paàses anglosajones. El principio del método consiste
en reconstruir un mapa de individuos a partir de una matriz de proximidades
(similaridades o disimilaridades) entre los individuos. En el caso ideal en la
que se dispone de una matriz que proporciona las distancias entre puntos en
el plano (por ejemplo, las distancias entre las ciudades de una región), el
MDS reconstruye el mapa de puntos, con poco más o menos una rotación /
simetràa. Para proporcionar una configuración óptima, el método MDS
minimiza un criterio llamado "STRESS". Mientras más se acerca a 0 mejor es
la representación.
Una hoja Excel que incluye a la vez los datos y resultados puede ser
descargada haciendo clic aquà. Los datos proceden de una encuesta llevada
ante 10 consumidores, a quienes les han pedido de valorar (evaluaciones
incluidas entre 1 y 5) cinco productos, del cual uno solo existe en el mercado
(producto P1). Estos productos son productos alimenticios de tipo barras de
chocolates.
Se trata de mostrar como los productos se ordenan en un mapa, según las
evaluaciones proporcionadas por los 10 consumidores.
Hemos visto que para usar el MDS necesitamos una matriz de proximidad,
pero aquà disponemos de una matriz individuos x productos. Para crear una
matriz de disimilaridades entre los productos, debemos usar en primer lugar
la herramienta "Matriz de similaridad / disimilaridad" de XLSTAT.
Una vez que XLSTAT-Pro esté activado, haga clic en el menú
XLSTAT/Descripción de datos/Matriz de similaridad / disimilaridad, o haga
clic en el botón correspondiente de la barra "Descripción de datos" (ver a
continuación).
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces
seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas
como presentado a continuación. Para activar la parte inferior del cuadro de
diálogo, es necesario hacer clic en el botón "Más" que se convierte después
en "Menos".
Se consigue entonces la matriz de las distancias euclàdeas entre los
productos, a partir de la cual el Multidimensional Scaling puede ser
realizado.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Haga clic entonces en el menú XLSTAT /Análisis de datos/Multidimensional
Scaling, o haga clic en el botón correspondiente de la barra "Análisis de
datos" (ver a continuación).
Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces
seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas
como presentado a continuación. Se eligió la opción Modelo. Este modelo
procura que las distancias obtenidas en la configuración final sean lo más
cercanas posible de las distancias euclàdeas, calculadas a partir de las
evaluaciones de los consumidores.
Otras opciones pueden proporcionar los mismos resultados pero con un
efecto de escala. Por otra parte, hemos solicitado que los espacios de
representación incluyen 2 a 4 dimensiones, con el fin de evaluar la distorsión
asociada a la representación en un espacio de mínima dimensionalidad. Para
poder analizar los resultados relacionados con las diferentes dimensiones,
hemos desactivado la opción "Mejor dimensión". Finalmente, la opción
"Disparidades" no es activada: en efecto, en el caso del modelo absoluto, las
disparidades son idénticas a las disimilaridades y su representación en el
diagrama de Shepard seria entonces redundante.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Comentario: al menos que no se proporciona una configuración inicial al
algoritmo (ver opciones "Más" del cuadro de diálogo MDS), los puntos de
inicio son elegidos de modo aleatorio. Es posible conseguir asà un resultado
levemente diferente del que es visualizado aquà. Para asegurarse de obtener
una solución cercana del óptimo absoluto, puede aumentar el número de
repeticiones, el número de iteraciones máximas y la precisión (ver opciones
"Más" del cuadro de diálogo MDS).
Los cálculos empiezan en el momento que haga clic en el botón "OK".
Después de haber optado representar los gráficos sobre las dos primeras
dimensiones, los resultados se visualizan en la hoja "MDS" del libro Excel. El
primer cuadro muestra la evolución del stress en función del número de
dimensiones del espacio de representación. Se observa una ruptura muy
clara entre las dimensiones 2 y 3, y una estabilidad entre las dimensiones 3 y
4 (es normal que la representación de 5 objetos sea perfecta en un espacio
de 4 dimensiones).
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Un mapa establecido sobre el plano Dim1 x Dim2 es producido para el
espacio de 4 dimensiones porque es en este espacio que la representación
de los datos es la mejor.
Es posible también cruzar otros ejes de coordenadas y obtener asà otros
mapas. En cualquier caso, es peligroso utilizar estos mapas. En efecto, se
trata de proyecciones de una nube de puntos situada en un espacio de 4
dimensiones en planos, y no sabemos a priori si una de esas proyecciones
permite representar escrupulosamente las relaciones de proximidad entre
los puntos de la nube. Solo un ACP calculado a partir del resultado del MDS
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
permitirá construir un mapa que dará cuenta de la nube de puntos lo más
escrupulosamente posible.
Hemos creado el mapa para la representación en dos dimensiones que es
demasiado diferente de aquella obtenida para la configuración en 4
dimensiones, y forzosamente más justo.
Con el fin de tener una representación con una calidad aún superior, y de
evitar una incorrecta interpretación de los datos, hemos utilizado XLSTAT-
3DPlot para representar la configuración en tres dimensiones. Para eso, se
debe seleccionar los datos a continuación, y luego hacer clic en el icono de
XLSTAT-3DPlot de la barra de herramientas "Visualización de datos".
Se consigue entonces el siguiente resultado:
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Asi, resulta que los consumidores han diferenciado bien colectivamente el
conjunto de los productos los unos de los otros puesto que los productos son
esparcidos. Sabemos que el producto P2 incluye más chocolate que el
producto P4 que es el que tiene menos: en el gráfico en 3 dimensiones
aparecen diametralmente opuestos. Observamos que los consumidores han
favorecido sensiblemente el producto P2 en su evaluación. También
observamos, según las imágenes aquà arriba, que los productos P3 y P5,
aunque tienen evaluaciones medias muy cercanas, no son próximas en el
espacio de representación. En efecto, las opiniones entre los consumidores
son a veces opuestas en los productos P3 y P5. Eso se explica por la presencia
de cacahuetes en el producto, sabor apreciado por algunos consumidores y
no por otros.
El método MDS permite asà cartografiar productos juzgados por
consumidores. La interpretación que se deduce puede ser mucho más rica
que un análisis a partir de estadísticas simples.
Comentario: no existe método estadístico riguroso para evaluar la calidad y
fiabilidad de una representación procedente de un MDS. Sin embargo, la
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
observación del diagrama de Shepard permite tener una idea general de la
calidad de la representación.
El diagrama de Shepard corresponde a una nube de puntos, cuyo abscisas
son las disimilaridades observadas, y las ordenadas, las distancias en la
configuración procedente del MDS. Mientras más esparcidos son los puntos,
menos fiable es el gráfico. Si el rango de las abscisas es respectada al de las
ordenadas, el gráfico es muy fiable. Si los puntos son alineados en una recta,
la representación es perfecta. El gráfico de izquierda corresponde, para los
datos de este ejemplo, a la representación en un espacio de 4 dimensiones, y
el de derecha corresponde a la representación en un espacio de 2
dimensiones. Se observa una diferencia sensible en la dispersión de los
puntos entre los dos gráficos
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
8 CLASIFICACIÓN CON EL MÉTODO K-MEANS
Una hoja Excel que contiene a la vez los datos y los resultados puede ser
descargado haciendo clic aquà. Los datos proceden del US Census Bureau
(se puede obtener el archivo de origen en la página web
http://eire.census.gov/popest/states_dataset.csv). Corresponden a la
medición de parámetros demográficos en 51 Estados de los Estados Unidos
en 2000 y 2001.
En el marco de este tutorial, solos los datos del año 2001 fueron
conservados, y con el fin de suprimir los efectos de escala, las variables
iniciales fueron convertidas en àndices por 1000 habitantes. El objetivo aquà
es crear grupos homogéneos de Estados. Estos datos también son utilizados
para el tutorial del Análisis de Componentes Principales (ACP) y en el tutorial
sobre la Clasificación Ascendente Jerárquica (CAJ).
Nota : si pretende hacer el análisis presentado a continuación con los
mismos datos, es seguramente posible que Ud. no obtendrá los mismos
resultados. En efecto, el método de las nubes dinámicas implica un sorteo
aleatorio.
Una vez que XLSTAT-Pro es activado, haga clic en el menú XLSTAT/Análisis
de datos/Nubes dinámicas, o haga clic en el botón correspondiente de la
barra "análisis de datos" (ver a continuación).
Una vez el botón presionado, aparece el cuadro de diálogo que corresponde
a las nubes dinámicas. Puede entonces seleccionar los datos en la hoja Excel.
Existen varias maneras de seleccionar los datos en el cuadro de diálogo
XLSTAT (ver el tutorial sobre este tema). En el ejemplo estudiado aquà, los
datos empiezan desde la primera fila; entonces es más rápido elegir el modo
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
de selección por columnas. Por esta razón, en el cuadro de diálogo a
continuación las selecciones aparecen en forma de columnas.
La variable "Población total" no fue seleccionada ya que solos los aspectos
dinámicos de la población nos interesa aquà. La última columna no fue
seleccionada tampoco, ya que hemos visto con el Análisis de Componentes
Principales que las dos últimas columnas están perfectamente correladas. La
opción "Etiquetas de las columnas" se deja activada, ya que la primera fila de
datos incluye el nombre de las variables, y las etiquetas de las observaciones
están seleccionadas. El número de grupos a crear está fijado a 4.
La opción "Estandarizar" está activada de manera a evitar que la escala de
las variables no influye sobre los resultados. Las opciones avanzadas
(activadas haciendo clic en el botón "Más" que se convierte luego "Menos")
son solicitadas. El número de repeticiones y el número máximo de
iteraciones están fijados a 100 con el fin de aumentar la calidad y la
estabilidad de los resultados.
Los cálculos empiezan cuando haga clic en el botón "OK". Si Usted ha
elegido en el panel de las opciones de XLSTAT la opción " Introducción
asistida ", XLSTAT le pide confirmar el número de filas y columnas.
El primer resultado visualizado es el cuadro de las inercias para la mayor
solución entre las repeticiones. La mayor solución es la que maximiza la
inercia inter-grupos (o que minimiza la inercia intra-grupos: en efecto,
tenemos [ Inercia Total = Inercia Inter-grupos + Inercia Intra-grupos). La
inercia es proporcional a la varianza de la población (basta con dividir la
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
inercia por el tamaño de la población para obtener la varianza da la
población).
Un cuadro presenta luego para cada Estado, el indicador del grupo al cual ha
sido asignado. Una parte del cuadro está presentada a continuación. Este
cuadro presenta también los grupos estables que muestran asà los Estados
que están asignados a menudo a los mismos grupos en el conjunto de las
repeticiones. Podrán después fusionar las informaciones sobre los grupos
con el cuadro inicial para eventuales análisis complementarios (un análisis
discriminante por ejemplo).
El cuadro visualiza para cada grupo las observaciones que le fueron
asignadas.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Si se compara estos resultados con los del tutorial sobre la Clasificación
Ascendente Jerárquica, se nota que los dos métodos dan resultados
diferentes, aunque para la mayoría de los Estados, el grupo de asignación es
el mismo (para comparar se utiliza el tamaño de los grupos). Por ejemplo, en
el grupo que incluye 31 estados en los dos casos, 25 estados son idénticos
entre los dos métodos.
El cuadro a continuación corresponde a los centroides de los grupos. Para
cada grupo las observaciones más cerca del centroide son identificadas.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Por último, aparece una sàntesis para las 10 mejores repeticiones. Se puede
ver que el algoritmo converge muy rápidamente para cada repetición.
Notaremos la evolución de la inercia intra-grupos de la primera a la última
iteración.
9 GRANDES CONJUNTOS DE DATOS - USO K-MEANS CLUSTERING
SEGUIDO DE UN AHC
9.1 CONJUNTO DE DATOS DE CLÚSTER
Una hoja Excel que contiene los datos y los resultados para su uso en este
tutorial se puede descargar haciendo clic aquí.
Los datos son de la Oficina del Censo de EE.UU., y se describen los cambios
en la población de 51 estados entre 2000 y 2001. El conjunto de datos inicial
se ha transformado a las tasas por 1.000 habitantes, con los datos de 2001
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
que sirve como centro para el análisis. Nuestro objetivo es crear grupos
homogéneos de los estados sobre la base de los datos demográficos que
tenemos disponibles. Este conjunto de datos no es muy grande, pero
ilustrará cómo lidiar con el conjunto de datos mucho más grande.
Nota: si intenta volver a ejecutar el mismo análisis que se describe a
continuación en los mismos datos, como el método k-means parte de
grupos seleccionados al azar, puede obtener resultados diferentes de los que
a continuación se indican. Para fijar la semilla, ir a las opciones de XLSTAT,
pestaña Opciones avanzadas y marque la opción "fijar la semilla".
9.2 CONFIGURACIÓN DE LA K-MEANS CLUSTERING
Una vez XLSTAT es activada, elija el comando de clustering k-means
XLSTAT / Análisis de datos /, o haga clic en el botón correspondiente de la
barra de herramientas de análisis de datos (véase más adelante)
Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo de
agrupamiento k-means.
Seleccione los datos en la hoja Excel con el ratón. (Nota: Hay varias formas
de seleccionar los datos con XLSTAT - Para más información, consulte el
tutorial en favor seleccionar datos .) En este ejemplo, los datos empiezan
desde la primera fila, por lo que es más rápido y más fácil de usar la
"selección de la columna "modo. Esto explica por qué las letras
correspondientes a las columnas se muestran en los cuadros de selección (C
a H).
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
No se ha seleccionado la variable de la población total, ya que estamos
interesados principalmente en la dinámica demográfica. La última columna
no se ha seleccionado ya que está totalmente correlacionado con la columna
que lo precede. Las etiquetas observaciones fueron seleccionados ya que
están disponibles.
Hemos establecido el número de grupos que se creen a 25. En el caso del
conjunto de datos mucho más grande que usted puede usar un número más
grande.
El criterio seleccionado es "Determinante (W)" , ya que permite eliminar los
efectos de escala de las variables.
En la pestaña de opciones hemos aumentado el número de repeticiones a 50
con el fin de aumentar la calidad y la estabilidad de los resultados.
En la salidas pestaña seleccionamos sólo los centroides que vamos a utilizar
en la AHC, los resultados por clase, ya que nos dará las muestras dentro de
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
cada clase, y los resultados por el objeto de obtener la tabla de la muestra
con una variable de atribución.
Una vez que ha hecho clic en Aceptar los resultados de la k-means clustering
aparecerán en una nueva hoja.
9.3 AGRUPACIÓN JERÁRQUICA DE LOS RESULTADOS DE LA K-MEANS
CLUSTERING
Vamos a trabajar en la mesa de centroi
des clase.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Otro cuadro importante es la tabla que contiene la información acerca de
qué estados se agrupan juntos.
Seleccione ahora la XLSTAT / Análisis de datos / aglomerativo agrupación
jerárquica de mando, o haga clic en el botón correspondiente de los "Análisis
de datos" barra de herramientas (ver abajo).
En el general ficha deberá seleccionar los datos a agruparse. Seleccione las
variables originales que describen las 25 clases en los centroides de clase.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Vamos a utilizar el tipo de proximidad: desemejanzas y la distancia
euclidiana , así como el método de Ward como el método de aglomeración.
Tenemos el nombre de las variables incluidas en la selección por lo que
marca a la opción etiquetas de columna y seleccionar los nombres de fila que
son el grupo número (1-25).
Vamos a utilizar el peso Row opción y seleccione la columna Suma de los
valores de la misma tabla centroides clase.
En Opciones de pestaña confirmamos que queremos agrupar las filas como
las clases están en filas, pero en este tipo de agrupación (AHC después de k-
medias) es necesario incluir las diferencias dentro de la clase. Encontrará
esta información en la misma mesa que antes: centroides de clase, en la
última columna A diferencia de clase.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Podemos seleccionar todas las salidas de este análisis.
Por último, en la pestaña Gráficos, seleccione todas las tablas. Preste
especial atención al tipo dendrograma y seleccione la opción Vertical.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
9.4 RESULTADOS DE LA AGRUPACIÓN JERÁRQUICA ACUMULATIVA
En los resultados de la AHC, mira las dos dendrogams que le dan a la
composición de los 3 grupos. Usted puede ver cómo se agrupan los 25
grupos en tres grupos finales.
También se puede ver la descomposición de la varianza.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Por fin se puede utilizar la tabla obtenida en el Comité Ad Hoc para
recodificar la tabla obtenida en el k-means clustering para tener los
resultados finales. Ir a XLSTAT / Preparación de datos / Codificación.
Es necesario seleccionar la clase de columna de la tabla de clasificación
obtenida en el k-means clustering como variable a recodificar.Seleccione la
tabla de resultados por el objeto de la AHC, incluyendo el nombre de las
columnas que la tabla de codificación. A continuación, seleccione la opción
de las etiquetas de columna .
Para agregar la nueva columna de la primera tabla seleccione la opción
Rango y la primera celda junto a la mesa. También desmarque la
opción Mostrar encabezado del informe a fin de no tener nada más aparece.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Finalmente obtuvo los resultados de la clasificación para los todos los
estados.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
10 EJECUCIÓN DE UNA MEZCLA MODELO DE CLÚSTERES GAUSSIANO
10.1 MODELOS DE MEZCLAS GAUSSIANAS PARA LA AGRUPACIÓN
Estos modelos se utilizan normalmente para una finalidad
agrupación. Pueden proporcionar un marco para la evaluación de las
particiones de los datos teniendo en cuenta que cada componente
representa un clúster. Estos modelos tienen dos ventajas principales:
Es un método probabilístico para la obtención de una clasificación difusa de
las observaciones. La probabilidad de pertenencia a cada grupo se calcula y
una clasificación generalmente se logra mediante la asignación de cada
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
observación al grupo más probable. Estas probabilidades también pueden
ser utilizados para interpretar sospechosos clasificaciones.
Mezcla de modelado es muy flexible.
10.2 CONJUNTO DE DATOS DE MODELO DE MEZCLA GAUSSIANA
Los datos corresponden a la famosa iris de Fisher presentado en [Fisher, RA
(1936), el uso de múltiples medidas en problemas taxonómicos.Anales de la
eugenesia , 7 , Parte II, 179-188]
Estos datos da las mediciones (en centímetros) de la longitud y la anchura
del pétalo, de 150 flores de 3 especies de iris ( setosa , versicolor , yvirginica) .
Una hoja Excel que contiene los datos y los resultados para su uso en este
tutorial se puede descargar haciendo clic aquí .
El objetivo es ajustar un modelo de mezcla gaussiana y recuperar la
estructura de datos en tres grupos.
10.3 LA CREACIÓN DE UN MODELO DE MEZCLA GAUSSIANA
Una vez XLSTAT iniciado, elija el modelo mezcla XLSTAT / XLSTAT-MX /
Gaussian comando o haga clic en el botón correspondiente de laXLSTAT-
MX barra de herramientas.
Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
Los datos se presentan en una tabla de 150 filas y 2 columnas. Se supone que
las etiquetas son desconocidas y que el peso de cada fila es la misma. Como
la clasificación de los datos se realiza de acuerdo a la longitud y la anchura
del pétalo del iris, la opción multidimensional se elige.
En las opciones (1) ficha , se proponen tres algoritmos de inferencia con
cuatro criterios de selección y los tres métodos de inicialización. El usuario
también puede establecer el número máximo de iteraciones del algoritmo
de inferencia y su umbral de convergencia. En este caso, elegimos una
inicialización al azar con dos repeticiones y dejar el resto de las opciones a
sus valores predeterminados.
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
En los (2) Opciones ficha , una lista de todos los modelos de mezclas
gaussianas disponible. El número máximo y mínimo de clases puede ser
modificado y las proporciones de la mezcla puede ser forzado a ser
igual. Aquí, elegimos para probar los modelos de EEE y EEV para un número
de clases que varía de 2 a 5.
Los cálculos empiezan una vez que haya hecho clic en Aceptar . Los
resultados se mostrarán en una nueva hoja.
Interpretación de los resultados de un modelo de mezcla gaussiana
agrupación
Los primeros resultados que se muestran son las estadísticas de los distintos
variables (largo y ancho). A continuación, se muestra el valor del criterio de
selección para todos los modelos y para un número de clases que varía de 2
a 5.
A continuación se dan los parámetros estimados del modelo seleccionado
(proporciones, medias y varianzas).
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
A continuación se presenta una tabla que muestra las características del
modelo seleccionado (BIC, AIC, logaritmo de verosimilitud, NEC, ).
En la siguiente tabla los resultados en términos de estimación de la
probabilidad y la clasificación de las primeras observaciones de la serie de
datos disponible se mostraron. La clasificación se calcula de acuerdo a las
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
probabilidades mediante la regla MAP (máximo a posteriori). Podemos ver
que 3 clases han sido seleccionadas.
Por último, se proporciona un gráfico de los datos agrupados.
Muchas otras características y opciones están disponibles en los modelos de
mezcla con XLSTAT incluyen pesos de observación, etiquetado parcial, 14
algoritmo de inferencia...
hemos concluido con el análisis espero que me hallan comprendido
MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA
Biólogo Jorge Pablo Cadena
PENSAMIENTO
Terminando este detalle llegue a la conclusión; que la diferencia en hacer
algo más allá de pasión de dar tus clases y que teniendo el afán de querer
hacer las cosas bien para tus alumnos siempre tendrá enemigos gratis
dentro de tu entorno laboral
…y en conclusión por ahora solo tienes una pisca de poder y una tonelada de
arrogancia ya veremos cómo sales de tus andadas
Dedicado a mis ex alumnos por tenerme paciencia y estima saludo y éxitos
No olviden que nadie es dueño de la verdad
Gracias

Más contenido relacionado

La actualidad más candente

Tecnicas funcionales
Tecnicas funcionalesTecnicas funcionales
Tecnicas funcionales
cangrynr
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II
jpgv84
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
jpgv84
 
Diagrama de pareto
Diagrama de paretoDiagrama de pareto
Diagrama de pareto
moca.2346
 

La actualidad más candente (16)

Análisis cluster
Análisis clusterAnálisis cluster
Análisis cluster
 
Analisis de factores ppt
Analisis de factores ppt Analisis de factores ppt
Analisis de factores ppt
 
Tecnicas funcionales
Tecnicas funcionalesTecnicas funcionales
Tecnicas funcionales
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II
 
Analisis multivariante 2012
Analisis multivariante 2012Analisis multivariante 2012
Analisis multivariante 2012
 
Spss
SpssSpss
Spss
 
Métodos de evaluación de riesgos
Métodos de evaluación de riesgosMétodos de evaluación de riesgos
Métodos de evaluación de riesgos
 
cuadro comparativo
cuadro comparativocuadro comparativo
cuadro comparativo
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
Estratificacion spc
Estratificacion spcEstratificacion spc
Estratificacion spc
 
Diagrama de pareto
Diagrama de paretoDiagrama de pareto
Diagrama de pareto
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superior
 
Estadistica aplicada a la educación superior
Estadistica aplicada a la educación superiorEstadistica aplicada a la educación superior
Estadistica aplicada a la educación superior
 
Estratificación
EstratificaciónEstratificación
Estratificación
 
Cómo interpretar un diagrama de causa efecto, diagrama de pareto
Cómo interpretar un diagrama de causa efecto, diagrama de paretoCómo interpretar un diagrama de causa efecto, diagrama de pareto
Cómo interpretar un diagrama de causa efecto, diagrama de pareto
 
Estadística aplicada a la educación superior
Estadística aplicada a la educación superiorEstadística aplicada a la educación superior
Estadística aplicada a la educación superior
 

Similar a Manual de Formulas Estadísticas Biológicas para Biólogos

Spss primeros pasos para estadistica
Spss primeros pasos para estadisticaSpss primeros pasos para estadistica
Spss primeros pasos para estadistica
ubaldopuma
 
Seminario V- tablas de contingencia y gráficos SPSS
Seminario V- tablas de contingencia y gráficos SPSSSeminario V- tablas de contingencia y gráficos SPSS
Seminario V- tablas de contingencia y gráficos SPSS
andrearotri95
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
Mago016
 
Cuadro comparativo. gestion de calidad alexandra serrano
Cuadro comparativo. gestion de calidad alexandra serranoCuadro comparativo. gestion de calidad alexandra serrano
Cuadro comparativo. gestion de calidad alexandra serrano
alexandraserrano74
 

Similar a Manual de Formulas Estadísticas Biológicas para Biólogos (20)

Análisi de epss
Análisi de epssAnálisi de epss
Análisi de epss
 
7 herramietas de calidad
7 herramietas de calidad7 herramietas de calidad
7 herramietas de calidad
 
1.3.3. medidas de tendencia central con datos agrupados
1.3.3. medidas de tendencia central con datos agrupados1.3.3. medidas de tendencia central con datos agrupados
1.3.3. medidas de tendencia central con datos agrupados
 
Actividad 6 Las 7 herramientas Basicas para la Calidad
Actividad 6 Las 7 herramientas Basicas para la CalidadActividad 6 Las 7 herramientas Basicas para la Calidad
Actividad 6 Las 7 herramientas Basicas para la Calidad
 
Spss iniciacion
Spss iniciacionSpss iniciacion
Spss iniciacion
 
Spss primeros pasos para estadistica
Spss primeros pasos para estadisticaSpss primeros pasos para estadistica
Spss primeros pasos para estadistica
 
Spss iniciacion
Spss iniciacionSpss iniciacion
Spss iniciacion
 
Control de calidad
Control de calidadControl de calidad
Control de calidad
 
Sampieri capitulo 10
Sampieri capitulo 10Sampieri capitulo 10
Sampieri capitulo 10
 
Seminario V- tablas de contingencia y gráficos SPSS
Seminario V- tablas de contingencia y gráficos SPSSSeminario V- tablas de contingencia y gráficos SPSS
Seminario V- tablas de contingencia y gráficos SPSS
 
Estadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSSEstadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSS
 
20factor spss
20factor spss20factor spss
20factor spss
 
❃DIAGRAMA DE PARETO❃
❃DIAGRAMA DE PARETO❃❃DIAGRAMA DE PARETO❃
❃DIAGRAMA DE PARETO❃
 
Trabajo tecnología 11-4.docx
Trabajo tecnología 11-4.docxTrabajo tecnología 11-4.docx
Trabajo tecnología 11-4.docx
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
 
Esta12345prueba
Esta12345pruebaEsta12345prueba
Esta12345prueba
 
spssbasico_introduccion_transponerSeleccionar.pdf
spssbasico_introduccion_transponerSeleccionar.pdfspssbasico_introduccion_transponerSeleccionar.pdf
spssbasico_introduccion_transponerSeleccionar.pdf
 
Jesus te bendiga en tu vida diaria las siete herramientas basicas para la mej...
Jesus te bendiga en tu vida diaria las siete herramientas basicas para la mej...Jesus te bendiga en tu vida diaria las siete herramientas basicas para la mej...
Jesus te bendiga en tu vida diaria las siete herramientas basicas para la mej...
 
Trabajo tecnología 11-4.docx
Trabajo tecnología 11-4.docxTrabajo tecnología 11-4.docx
Trabajo tecnología 11-4.docx
 
Cuadro comparativo. gestion de calidad alexandra serrano
Cuadro comparativo. gestion de calidad alexandra serranoCuadro comparativo. gestion de calidad alexandra serrano
Cuadro comparativo. gestion de calidad alexandra serrano
 

Más de JORGE PABLO CADENA A.

Más de JORGE PABLO CADENA A. (16)

Auditoria iso-9001-2015
Auditoria iso-9001-2015Auditoria iso-9001-2015
Auditoria iso-9001-2015
 
Limites Permisible Recurso Agua
Limites Permisible Recurso Agua Limites Permisible Recurso Agua
Limites Permisible Recurso Agua
 
Manual de ArcGis 10.5 para Climatología e Hidrológica
Manual de ArcGis 10.5 para Climatología e Hidrológica Manual de ArcGis 10.5 para Climatología e Hidrológica
Manual de ArcGis 10.5 para Climatología e Hidrológica
 
23- Análisis Multicriterio (AMC) /Clasificación no Supervisada
23- Análisis Multicriterio (AMC) /Clasificación  no Supervisada23- Análisis Multicriterio (AMC) /Clasificación  no Supervisada
23- Análisis Multicriterio (AMC) /Clasificación no Supervisada
 
Comunidades Amazónica del Ecuador
Comunidades  Amazónica del EcuadorComunidades  Amazónica del Ecuador
Comunidades Amazónica del Ecuador
 
PROCESO DE AUTOEVALUACION EN BASE AL MODELO CACCES 2019
PROCESO DE AUTOEVALUACION EN BASE AL MODELO CACCES 2019PROCESO DE AUTOEVALUACION EN BASE AL MODELO CACCES 2019
PROCESO DE AUTOEVALUACION EN BASE AL MODELO CACCES 2019
 
SEGURIDAD Y SALUD OCUPACIONAL PREVENIR PELIGROS
SEGURIDAD Y SALUD OCUPACIONAL PREVENIR PELIGROS SEGURIDAD Y SALUD OCUPACIONAL PREVENIR PELIGROS
SEGURIDAD Y SALUD OCUPACIONAL PREVENIR PELIGROS
 
Elaboración de polígono thiesssen
Elaboración de polígono thiesssenElaboración de polígono thiesssen
Elaboración de polígono thiesssen
 
DELIMITACION DE CUENCA HIDROGRÁFICA CON ARGIS 10.5
DELIMITACION DE CUENCA HIDROGRÁFICA CON ARGIS 10.5DELIMITACION DE CUENCA HIDROGRÁFICA CON ARGIS 10.5
DELIMITACION DE CUENCA HIDROGRÁFICA CON ARGIS 10.5
 
Conectar carpetas en argis 9.5
Conectar  carpetas en argis 9.5Conectar  carpetas en argis 9.5
Conectar carpetas en argis 9.5
 
Macro invertebrado estudio_de_calidad_de Rio Mira
Macro invertebrado estudio_de_calidad_de Rio Mira Macro invertebrado estudio_de_calidad_de Rio Mira
Macro invertebrado estudio_de_calidad_de Rio Mira
 
Estudio de lluvias intensas 2015
Estudio de lluvias intensas 2015Estudio de lluvias intensas 2015
Estudio de lluvias intensas 2015
 
MAMÍFEROS DEL ECUADOR PARA GESTIÓN AMBIENTAL
 MAMÍFEROS DEL ECUADOR  PARA GESTIÓN AMBIENTAL  MAMÍFEROS DEL ECUADOR  PARA GESTIÓN AMBIENTAL
MAMÍFEROS DEL ECUADOR PARA GESTIÓN AMBIENTAL
 
PENSADORES INTRODUCIR DE FLORA Y FAUNA
PENSADORES INTRODUCIR DE FLORA Y FAUNA  PENSADORES INTRODUCIR DE FLORA Y FAUNA
PENSADORES INTRODUCIR DE FLORA Y FAUNA
 
AVES DEL ECUADOR PARA GESTIÓN AMBIENTAL
AVES DEL ECUADOR PARA GESTIÓN AMBIENTAL AVES DEL ECUADOR PARA GESTIÓN AMBIENTAL
AVES DEL ECUADOR PARA GESTIÓN AMBIENTAL
 
PECES DEL ECUADOR PARA GESTIÓN AMBIENTAL
PECES DEL ECUADOR PARA GESTIÓN AMBIENTAL PECES DEL ECUADOR PARA GESTIÓN AMBIENTAL
PECES DEL ECUADOR PARA GESTIÓN AMBIENTAL
 

Último

Inteligencia estrategica en la solucion del problema de desechos solidos en C...
Inteligencia estrategica en la solucion del problema de desechos solidos en C...Inteligencia estrategica en la solucion del problema de desechos solidos en C...
Inteligencia estrategica en la solucion del problema de desechos solidos en C...
Enrique Posada
 
Briofitas, biología general. Características, especie, reino y filum
Briofitas, biología general. Características, especie, reino y filumBriofitas, biología general. Características, especie, reino y filum
Briofitas, biología general. Características, especie, reino y filum
NataliaFlores563038
 
DESCONEXIONES UN GYE 29 de abril 2024pdf.pdf
DESCONEXIONES UN GYE 29 de abril 2024pdf.pdfDESCONEXIONES UN GYE 29 de abril 2024pdf.pdf
DESCONEXIONES UN GYE 29 de abril 2024pdf.pdf
alvaradoliguagabriel
 

Último (20)

CICLOS BIOGEOQUIMICOS en la nutricion vegetal.pptx
CICLOS BIOGEOQUIMICOS en la nutricion vegetal.pptxCICLOS BIOGEOQUIMICOS en la nutricion vegetal.pptx
CICLOS BIOGEOQUIMICOS en la nutricion vegetal.pptx
 
moluscos especialidad conquistadores,,,,
moluscos especialidad conquistadores,,,,moluscos especialidad conquistadores,,,,
moluscos especialidad conquistadores,,,,
 
Desarrollo del tema de epidemiología para estudio.
Desarrollo del tema de epidemiología para estudio.Desarrollo del tema de epidemiología para estudio.
Desarrollo del tema de epidemiología para estudio.
 
domesticación de plantas y evolución genetica
domesticación de plantas y evolución geneticadomesticación de plantas y evolución genetica
domesticación de plantas y evolución genetica
 
Inundación en Santa Cruz rio Pirai 1983.pptx
Inundación en Santa Cruz rio Pirai 1983.pptxInundación en Santa Cruz rio Pirai 1983.pptx
Inundación en Santa Cruz rio Pirai 1983.pptx
 
Inteligencia estrategica en la solucion del problema de desechos solidos en C...
Inteligencia estrategica en la solucion del problema de desechos solidos en C...Inteligencia estrategica en la solucion del problema de desechos solidos en C...
Inteligencia estrategica en la solucion del problema de desechos solidos en C...
 
Medio ambiente en tarija sobre la contaminación
Medio ambiente en tarija sobre la contaminaciónMedio ambiente en tarija sobre la contaminación
Medio ambiente en tarija sobre la contaminación
 
Atlas del socioecosistema Río Grande de Comitán.pptx
Atlas del socioecosistema Río Grande de Comitán.pptxAtlas del socioecosistema Río Grande de Comitán.pptx
Atlas del socioecosistema Río Grande de Comitán.pptx
 
ppt-ciencias-para-la-ciudadanc3ada-4-a-b.pptx
ppt-ciencias-para-la-ciudadanc3ada-4-a-b.pptxppt-ciencias-para-la-ciudadanc3ada-4-a-b.pptx
ppt-ciencias-para-la-ciudadanc3ada-4-a-b.pptx
 
ATLAS DEL SOCIOECOSISTEMA: RÍO GRANDE DE COMITÁN-LAGOS DE MONTEBELLO, CHIAPAS...
ATLAS DEL SOCIOECOSISTEMA: RÍO GRANDE DE COMITÁN-LAGOS DE MONTEBELLO, CHIAPAS...ATLAS DEL SOCIOECOSISTEMA: RÍO GRANDE DE COMITÁN-LAGOS DE MONTEBELLO, CHIAPAS...
ATLAS DEL SOCIOECOSISTEMA: RÍO GRANDE DE COMITÁN-LAGOS DE MONTEBELLO, CHIAPAS...
 
Descripción de la obra Adrián y Fabiola.pptx
Descripción de la obra Adrián y Fabiola.pptxDescripción de la obra Adrián y Fabiola.pptx
Descripción de la obra Adrián y Fabiola.pptx
 
Manual-de-Buenas-Practicas-Ganaderas_2019_ResCA-Guatemala.pdf
Manual-de-Buenas-Practicas-Ganaderas_2019_ResCA-Guatemala.pdfManual-de-Buenas-Practicas-Ganaderas_2019_ResCA-Guatemala.pdf
Manual-de-Buenas-Practicas-Ganaderas_2019_ResCA-Guatemala.pdf
 
PRODUCCION LIMPIA .pptx espero les sirva para sus trabajos
PRODUCCION LIMPIA .pptx espero les sirva para sus trabajosPRODUCCION LIMPIA .pptx espero les sirva para sus trabajos
PRODUCCION LIMPIA .pptx espero les sirva para sus trabajos
 
Ciclo del Azufre de forma natural y quimica.pptx
Ciclo del Azufre de forma natural y quimica.pptxCiclo del Azufre de forma natural y quimica.pptx
Ciclo del Azufre de forma natural y quimica.pptx
 
LCE - RLCE -2024 - PeruCsdddddddddddddddddddompras.pdf
LCE - RLCE -2024 - PeruCsdddddddddddddddddddompras.pdfLCE - RLCE -2024 - PeruCsdddddddddddddddddddompras.pdf
LCE - RLCE -2024 - PeruCsdddddddddddddddddddompras.pdf
 
MECÁNICA DE FLUIDOS y su aplicación física
MECÁNICA DE FLUIDOS y su aplicación físicaMECÁNICA DE FLUIDOS y su aplicación física
MECÁNICA DE FLUIDOS y su aplicación física
 
Briofitas, biología general. Características, especie, reino y filum
Briofitas, biología general. Características, especie, reino y filumBriofitas, biología general. Características, especie, reino y filum
Briofitas, biología general. Características, especie, reino y filum
 
DESCONEXIONES UN GYE 29 de abril 2024pdf.pdf
DESCONEXIONES UN GYE 29 de abril 2024pdf.pdfDESCONEXIONES UN GYE 29 de abril 2024pdf.pdf
DESCONEXIONES UN GYE 29 de abril 2024pdf.pdf
 
La Cuenca del Lagunas de Montebello .pdf
La Cuenca del Lagunas de Montebello .pdfLa Cuenca del Lagunas de Montebello .pdf
La Cuenca del Lagunas de Montebello .pdf
 
Captación de aguas superficiales norma 777 parte 1.pdf
Captación de aguas superficiales norma 777 parte 1.pdfCaptación de aguas superficiales norma 777 parte 1.pdf
Captación de aguas superficiales norma 777 parte 1.pdf
 

Manual de Formulas Estadísticas Biológicas para Biólogos

  • 1. Biólogo. Jorge Pablo Cadena A. Magister en Gestión Ambiental MANUAL DE FORMULAS ESTADISTICAS PARA BIOLOGIA
  • 2. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena MANUAL DE FORMULAS ESTADISTICA PARA BIOLOGIA GESTION AMBIENTAL Nombre del autor Biólogo. Jorge Pablo Cadena A. Magister en Gestión Ambiental Año: 2020 ISBN: Edición: 1-2020
  • 3. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Contenido 1 MANUAL...........................................................................................................................3 1.1 DENDOGRAMA.........................................................................................................3 2 ANALISIS FACTORIAL .......................................................................................................8 3 ANALISIS DE COMPONENETE PRINCIPAL ......................................................................14 4 ANÁLISIS DISCRIMINANTE..............................................................................................21 5 ANÁLISIS DE CORRESPONDENCIAS ...............................................................................28 5.1 ANALISIS DE CORREESPONDENCIA EN 3 D.............................................................30 6 ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES............................................................38 7 MULTIDIMENSIONAL SCALING ......................................................................................44 8 CLASIFICACIÓN CON EL MÉTODO K-MEANS.................................................................52 9 GRANDES CONJUNTOS DE DATOS - USO K-MEANS CLUSTERING SEGUIDO DE UN AHC 56 9.1 CONJUNTO DE DATOS DE CLÚSTER ......................................................................56 9.2 CONFIGURACIÓN DE LA K-MEANS CLUSTERING ...................................................57 9.3 AGRUPACIÓN JERÁRQUICA DE LOS RESULTADOS DE LA K-MEANS CLUSTERING 59 9.4 RESULTADOS DE LA AGRUPACIÓN JERÁRQUICA ACUMULATIVA..........................63 10 EJECUCIÓN DE UNA MEZCLA MODELO DE CLÚSTERES GAUSSIANO .......................66 10.1 MODELOS DE MEZCLAS GAUSSIANAS PARA LA AGRUPACIÓN.............................66 10.2 CONJUNTO DE DATOS DE MODELO DE MEZCLA GAUSSIANA..............................67 10.3 LA CREACIÓN DE UN MODELO DE MEZCLA GAUSSIANA ......................................67
  • 4. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 1 MANUAL 1.1 DENDOGRAMA Una hoja Excel que incluye a la vez los datos y los resultados puede ser descargada haciendo clic aquà. Los datos proceden del US Census Bureau. Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados-Unidos en 2000 y 2001. En el marco de este tutorial, solo los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en àndices por 1000 habitantes. El objetivo aquà es de crear grupos homogéneos de estados. Estos datos son también utilizados por el tutorial del análisis de Componentes Principales (ACP). Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/ Análisis de datos/ Clasificación Ascendente Jerárquica (CAH), o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación). Una vez el botón pulsado, el cuadro de diálogo correspondiente a la CAH aparece. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera de seleccionar los datos en el cuadro de diálogo de XLSTAT (ver el tutorial del asunto). En el ejemplo estudiado aquà los datos empiezan desde la primera lànea; Es entonces más rápido elegir el modo de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas. La variable "Población total" no fue seleccionada ya que solos los aspectos dinámicos de la población nos interesa aquà. La última columna no fue seleccionada tampoco, ya que hemos visto con el análisis de componentes
  • 5. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena principales que las dos últimas columnas están perfectamente correlacionadas. La opción "Etiquetas de las columnas" es activada, ya que la primera lànea de datos incluye el nombre de las variables. Las opciones Centrar/Reducir es activada de manera a evitar que algunas variables no influyen demasiado sobre el resultado con problemas de escala. La opción "Truncamiento automático" es activada para obtener el dendrograma (o árbol de clasificación) truncado. Los cálculos empiezan cuando haga clic en el botón "OK". El primer resultado es el diagrama de los niveles. Su forma proporciona informaciones sobre la estructura de los datos. Cuando son observadas unas variaciones
  • 6. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena importantes, tenemos una agregación de estructuras homogéneas. Es en parte, sobre esta base, que está creado el truncamiento automático que permite determinar el número de grupos homogéneos. El gráfico a continuación es el dendrograma. Representa, de manera clara, la manera de la que el algoritmo procede para reagrupar los individuos y luego los subgrupos. Al final, el algoritmo a reagrupado progresivamente todas las observaciones. La lànea de puntos representa el truncamiento y permite visualizar que dos grupos homogéneos fueron identificados. El primer grupo es muy homogeno, como lo confirman las Varianzas intraclase
  • 7. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Un cuadro que incluye el nombre de cada uno de los Estados y el grupo del cual es vinculado, aparece. Podrá ser reutilizado para otros análisis o para aplicaciones operacionales.
  • 8. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena
  • 9. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 2 ANALISIS FACTORIAL Un libro Excel que incluyen a la vez los datos utilizados en este ejemplo y los resultados obtenidos puede ser descargado haciendo clic aquà. Los datos proceden de [Kendall M. (1975). Multivariate analysis. Griffin, London] y corresponden a 48 candidatos que fueron evaluados sobre 15 criterios para un puesto en empresa: Carta de motivación Presentación Nivel de estudios Simpatàa Confianza en si mismo Lucidez Honestidad Sentido comercial Experiencia Carisma Ambition Comprensión Potencial Motivación para el puesto Adecuación Porque las correlaciones entre los criterios son importantes, es posible que la persona que entrevista a los candidatos haya confundido algunos criterios o que algunos criterios sean redundantes. Se examina un análisis factorial de variables latentes, con el fin de determinar cuales son los criterios (o factores) latentes. Existen varios métodos de análisis factorial de variables latentes. El método propuesto por defecto por XLSTAT es el método del factor principal utilizado iterativamente. Lo aplicamos aquà con el fin de generar siete factores, antes de efectuar una rotación varimax para facilitar la interpretación de los resultados. Para activar el cuadro de diálogo del análisis factorial, inicie XLSTAT, luego elija el comando XLSTAT/análisis de datos/ análisis Factorial, o haga clic en el botón correspondiente de la barra de herramientas "análisis de los datos" (ver a continuación). Una vez que haya pulsado sobre el botón, aparece el cuadro de diálogo. Puede entonces seleccionar los datos en la hoja Excel. Haciendo clic en el botón "Más" del cuadro de diálogo, se puede visualizar la parte inferior en la
  • 10. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena cual se encuentran las opciones de rotación. Para este ejemplo se eligió el método Varimax. Una vez que haga clic en el botón "OK", los cálculos empiezan y luego se visualizan los resultados. Los primeros resultados son el alfa de Cronbach estandarizado, y un resumen de las variables seleccionadas. Después, la matriz de correlación aparece. Se observa que hay numerosas correlaciones significativamente no nulas, algunas de ellas son importantes (0.883 para Comprensión y Lucidez). Se observa que el juez está probablemente influenciado por la experiencia y el carisma del candidato cuando se determina la adecuación entre el candidato y el puesto. En el cuadro siguiente se visualizan los valores propios procedentes del análisis factorial. Comprobamos que con siete factores se conserva 83.9 % de la variabilidad de los datos iniciales.
  • 11. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena A continuación, se nota que la rotación varimax ha cambiado la manera cuyo cada factor representa una parte de la varianza. La rotación varimax proporciona la interpretación más fácil maximizando la varianza del cuadrado de las coordenadas de las variables por columna. Para un factor dado, las coordenadas elevadas lo son más aún, las coordenadas débiles lo son más aún, y las coordenadas intermediarias sean más elevadas o más débiles. A continuación se debe analizar los datos de las variables tras la rotación varimax. Estos resultados son utilizados para interpretar el sentido de los factores tras la rotación. Según el cuadro más arriba, se observa que el primer factor está fuertemente relacionado con la ambición, la Confianza en si mismo, al Sentido comercial y la Lucidez. En cuanto al segundo factor está relacionado con la Carta de motivación, la experiencia y la adecuación. El tercer factor está fuertemente relacionado con la Honestidad. El cuarto factor está positivamente correlado con el Nivel de estudios y negativamente con el Motivación para el puesto. La presentación es más bien relacionada al quinto factor. De estos resultados, se deduce que los candidatos que tienen
  • 12. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena coordenadas elevadas sobre el primer factor son comerciales prometedores, mientras que los que tendràan más bien coordenadas elevadas sobre el segundo y el tercer factor seràan destinados al management. El gráfico a continuación proporciona la posición de las variables iniciales sobre los ejes F1 y F2. Se pueden visualizar otros gráficos cruzando otros factores. Los dos cuadros, a continuación, corresponden a las matrices de correlación reproducida y residual, que sirven para verificar si el modelo del análisis factorial es adecuado o no. El siguiente cuadro proporciona las coordenadas de los individuos tras la rotación varimax sobre los ejes factoriales.
  • 13. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena XLSTAT muestra el mapa factorial de dos dimensiones. El gráfico, a continuación, corresponde al mapa factorial sobre F1 y F2. Con el fin de tomar en cuenta más información, hemos utilizado XLSTAT- 3DPlot para visualizar los datos de 3 dimensiones.
  • 14. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Los mejores candidatos son sin duda alguna los individuos 40 y 39. Si declinan la oferta, los candidatos 8, 20,22,23,24 serán una alternativa.
  • 15. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 3 ANALISIS DE COMPONENETE PRINCIPAL Una hoja Excel que incluye a la vez los datos y los resultados puede ser descargada haciendo clic aquà. Los datos proceden del US Census Bureau (el archivo original puede ser obtenido en la página http://eire.census.gov/popest/states_dataset.csv). Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados-Unidos en 2000 y 2001. En el marco de este tutorial, solo los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en àndices por 1000 habitantes. El objetivo aquà es de analizar las correlaciones entre las variables e identificar Estados que se distinguen fuertemente de los demás. Estos datos son también utilizados por el tutorial de la Clasificación Ascendente Jerárquica (CAH). El ACP es un método muy eficaz para el Análisis de datos cuantitativos (continuos o discretos) que se presentan bajo la forma de cuadros de M observaciones / N variables. Permite: visualizar y analizar rápidamente las correlaciones entre las N variables, visualizar y analizar las M observaciones inicialmente descritas por N variables en un gráfico de dos o tres dimensiones, construido de tal forma que la dispersión entre los datos sea tanto preservada como posible, construir un conjunto de P factores no correlacionadas (P Los làmites del ACP vienen del hecho que es un método de proyección, y que la pérdida de información inducida por la proyección puede provocar interpretaciones erróneas. Unas astucias permiten, sin embargo, evitar estos inconvenientes. Una vez que XLSTAT-Pro éste activado, haga clic en el menú XLSTAT/ Análisis de datos/ Análisis de Componentes Principales, o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación).
  • 16. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Una vez el botón pulsado, la cuadro de diálogo correspondiente al análisis de componentes principales aparece. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera de seleccionar los datos en los cuadros de diálogo XLSTAT (ver el tutorial del asunto). En el ejemplo estudiado aquà, los datos empiezan desde la primera lànea; Es entonces más rápido elegir el modo de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas. Todas las opciones, por defecto, del cuadro de diálogo son dejadas asà. La opción Referencias presentes es activada, ya que la primera lànea de datos incluye el nombre de las variables. Los cálculos empiezan cuando haga clic en el botón "OK". Si habéis elegido en el panel de las opciones de XLSTAT la opción "entrada asistida", XLSTAT le pide confirmar el número de líneas y de columnas. Después un cuadro de diálogo le presenta las opciones para la visualización de los gráficos. En nuestro caso, el % de variabilidad representado por los dos primeros factores
  • 17. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena no es particularmente elevado (67.72%); Para evitar una mala interpretación de los gráficos, es pedido entonces una visualización en los ejes 1 y 3. El primer resultado interesante a analizar es la matriz de las correlaciones. Observamos el resultado evidente que los índices de gente de más y menos de 65 años de edad son perfectamente correlacionados (r = -1). Las dos variables son entonces redundantes. Observamos que la inmigración procedente de otros estados de EE UU es muy poco correlacionada con las otras variables, e incluida con la inmigración procedente de paàses extranjeros. Eso indica que las razones de inmigración son seguramente diferentes para las dos poblaciones concernidas.
  • 18. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena El siguiente cuadro y el gráfico asociado son vinculados a un objeto matemático, los valores propios, que son afortunadamente vinculados a un concepto muy simple : la calidad de la proyección cuando pasamos de N dimensiones (N siendo el número de variables, aquà 7) a un número más debil de dimensiones. En nuestro caso, observamos que el primer valor propio vale 3.567 y representa 51% de la variabilidad. Eso significa que si representamos los datos en un sólo eje, tendremos entonces siempre 51% de la variabilidad total que será preservada. A cada valor propio corresponde un factor. Cada factor es en realidad una combinación lineal de las variables de inicio. Los factores tienen la particularidad de no ser correlacionados entre ellos. Los valores propios y los factores son ordenados en orden descendente de variabilidad representada.
  • 19. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Idealmente, los dos primeros valores propios corresponden a un % elevado de la variabilidad, de manera que la representación sobre los dos primeros ejes factoriales es de buena calidad. En nuestro ejemplo, eso no es exactamente el caso, de donde la necesidad de aprobar las hipótesis formuladas por el uso de los gráficos en los factores F1 y F2, por los gráficos en F1 y F3. Vemos aquà que el número de factores es 6, cuando teníamos al principio 7 variables. Eso es debido a las dos variables redundantes. Comprendemos bien que la información pudiera ser sintetizada en 6 dimensiones. El número de dimensiones "útiles" máximo es automáticamente detectado por el método utilizado. El primer gráfico específico al método es el circulo de las correlaciones (ver a continuación el circulo en los ejes F1 y F2). Corresponde a una proyección de las variables iniciales sobre un plano de dos dimensiones constituido por los dos primeros factores. Cuando dos variables están lejos del centro del gráfico, entonces si están: cercas unas de las otras, entonces están significativamente positivamente correlacionadas (r cerca de 1), ortogonales unas de las otras, entonces están significativamente no- correlacionadas (r cerca de 0), simétricamente opuestas con respecto al centro, entonces están significativamente negativamente correlacionadas (r cerca de -1). Cuando las variables están relativamente cercas del centro del gráfico, entonces cualquiera interpretación es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros planos factoriales para interpretar los resultados. En nuestro ejemplo, podríamos deducir del gráfico a continuación que las variables inmigración doméstica, e inmigración Internacional son correlacionadas, cuando no lo son, lo que podemos ver en
  • 20. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena la matriz de las correlaciones o en el círculo de las correlaciones en los ejes F1 y F3. En cambio, vemos bien la fuerte correlación entre el índice de mortalidad y el índice de personas cuya edad es superior a 65 años. El círculo de las correlaciones es también útil para interpretar la significación de los ejes. En nuestro caso, el eje F1 es claramente vinculado a la edad de la población y a su reemplazo, cuando el eje F2 es esencialmente vinculado a la inmigración doméstica. Estas tendencias son particularmente interesantes a sacar para la interpretación del gráfico de los individuos (ver a continuación). Para confirmar el hecho que una variable es fuertemente vinculada a un factor, debe consultar la tabla de los coseno : mientras más elevado es el coseno (en valor absoluto), más vinculada está la variable al eje. Mientras más cerca está el coseno de cero, menos vinculada está la variable al eje. En nuestro caso, vemos que en lo que se refiere a la inmigración internacional será mejor interpretada en los ejes F2/F3.
  • 21. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena El gráfico a continuación corresponde a uno de los objetivos del ACP. Permite representar los individuos en una carta de dos dimensiones, y asà identificar tendencias. Vemos en nuestro ejemplo que sobre la base de variables demográficas que disponemos, el Nevada y la Florida son bastante particulares, asà como el Utah y Alaska que parecen compartir caracterà- sticas : mirando los datos, percibimos que estos dos Etats tienen una población claramente más joven que la media, y una natalidad muy elevada. Haga clic para ver una visualización en 3 dimensiones creada con XLSTAT- Miner3D sobre los tres primeros ejes.
  • 22. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 4 ANÁLISIS DISCRIMINANTE En una hoja Excel que contiene los datos y los resultados de este ejemplo puede ser descargada haciendo clic aquà. Los datos proceden de [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] y corresponden a 150 flores de la familia Iris, definidas por 4 variables cuantitativas (Longitud-Sépalos, Anchura-Sépalos, Longitud-Pétalos, Anchura-Pétalos) y por su especie. Tres diferentes especies forman parte de este estudio: setosa, versicolor and virginica. Nuestro objetivo es probar si las cuatros variables descriptivas permiten identificar las especies, y visualizar los datos en un gráfico con el fin de comprobar que las tres especies son correctamente diferenciadas Iris setosa, versicolor et virginica. Una vez XLSTAT iniciado, elija el comando XLSTAT/Análisis de los datos/Análisis Factorial Discriminante o haga clic en el botón "Análisis Factorial Discriminante" de la barra de herramientas "Análisis de los datos". Una vez el botón presionado, aparece el cuadro de diálogo correspondiente al análisis Factorial Discriminante (AFD). Puede entonces seleccionar los datos en la hoja Excel. La "Variable dependiente" corresponde a la variable explicada, que es, en este caso preciso, la especie de Iris. Las variables explicativas son las cuatros variables que disponemos. Se deja la opción "Etiquetas de las columnas" activada ya que la primera fila de las columnas incluye el nombre de las variables. Cuando hace clic en el
  • 23. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena botón "Más" del cuadro de diálogo, aparece la parte inferior del cuadro de diálogo (le botón "Más" se convierte entonces en "Menos"). La parte inferior corresponde a las opciones avanzadas. Hemos deshabilitado la opción "Igualdad de las matrices de covarianza entre-grupos", ya que como lo veremos más tarde (Prueba de Box), efectuar una semejante hipótesis será falso.
  • 24. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Una vez que haya pulsado en el botón "OK", empiezan los cálculos y luego se visualizan los resultados. XLSTAT empieza por visualizar las matrices implicadas en los cálculos. Las dos pruebas de Box permiten confirmar que no se puede efectuar la hipótesis que las matrices de covarianza son idénticas para las 3 especies.
  • 25. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena La prueba del Lambda de Wilks permite probar si los vectores de las medias para los diferentes grupos son iguales o no (esta prueba se puede percibir como un equivalente multidimensional de la prueba LSD de Fisher o de la prueba HSD de Tukey). Aquà observamos que la diferencia entre los vectores es significativa al nivel de significación de 0.05. En la siguiente tabla se visualizan las funciones discriminantes. Cuando se supone que las matrices de covarianza son iguales, estas funciones son lineales. En el caso contrario, son cuadráticas, como es el caso aquà. La regla basada sobre estas funciones es tal que se le atribuye una observación al grupo cuya función discriminante da el valor más elevado.
  • 26. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena La siguiente tabla proporciona los valores propios y el % de varianza correspondiente. Se puede ver que 99% de la varianza están representadas por el primer factor. Hay nada más que dos factores: en efecto, el número máximo de factores no nulos vale k-1, cuando n>p>k, donde n es el número de observaciones, p el número de variables explicativas y k el número de grupos. El siguiente gráfico muestra como las cuatro primeras variables están correladas con los dos factores obtenidos (este gráfico está construido a partir de la tabla de las coordenadas de las variables). Se puede observar que el factor F1 está correlado con Long. Sép., Long. Pét. et Anch. Pét. y que F2 está correlado con Anch. Pét.
  • 27. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena La siguiente tabla enumera para cada flor, sus coordenadas factoriales, la probabilidad de asignación a cada grupo, y el cuadrado de las distancias de Mahalanobis en el centroide de cada grupo. Cada observación es reclasificada en el grupo por el cual la probabilidad es máxima. Las probabilidades son probabilidades a posteriori que toman en cuenta las probabilidades a priori a través de la fórmula de Bayes. Se nota que las observaciones (5,9,12) fueron reclasificadas. Puede haber varias razones: la persona que efectuó mis mediciones ha cometido un error cuando medàa, o los iris que corresponden a estos datos han tenido un crecimiento anormal por razones desconocidas, o el criterio de clasificación utilizado por el especialista no es correcto, o falta de información para diferenciar perfectamente las especies entre sà.
  • 28. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena En el siguiente gráfico representa las observaciones sobre los ejes factoriales. Este gráfico permite confirmar que las observaciones están correctamente discriminadas sobre los ejes factoriales obtenidos a partir de las variables explicativas iniciales. Por último, la matriz de confusión resume la información que concierne las reclasificaciones de observaciones, y se puede deducir el àndice de error aparente, que corresponde a la razón del número de observaciones reclasificadas, sobre el número total de observaciones.
  • 29. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 5 ANÁLISIS DE CORRESPONDENCIAS Una hoja Excel que contiene los datos y resultados puede cargarse haciendo clic aquà. Los datos corresponden a una investigación en la cual los entrevistados dan sus opiniones sobre una pelàcula que acaban de ver. Se les pide también sus grupos de edad. Una vez que XLSTAT está abierto, elige XLSTAT/Análisis de los datos/Análisis factorial de correspondencias (XLSTAT/Analyzing data/Correspondence analysis), o haga clic en el botón correspondiente de la barra de herramientas "Análisis de los datos" (Analyzing Data). Una vez el botón pulsado, el cuadro de diálogo del análisis de correspondencias aparece. Puede entonces seleccionar los datos con el ratón en la hoja Excel. Si sus datos están en una tabla cruzada (véase ejemplo), seleccione la opción Tabla de Contingencia (Contingency table). Si sus datos están en una tabla Individuos / variables seleccione la otra opción. La opción "referencias presentes" (Labels included) es elegida porque los nombres de las variables en làneas y columnas están también seleccionadas. Haga clic en una célula de su hoja para colocar los resultados del análisis. Esta célula corresponde a la posición de arriba e izquierda de las tablas (AFC!$J$4 en nuestro ejemplo; AFC es el nombre de la hoja de datos). Puede también editar los resultados en una hoja separada o en un nuevo Libro.
  • 30. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Los resultados son visualizados después de especificar algunas opciones relativas a los gráficos. Están disponibles numerosos detalles, incluido la prueba del chi-cuadrado de independencia de las làneas y columnas. La calidad de la representación gráfica puede ser evaluada gracias al histograma o a la tabla de los valores propios. Si la suma de los dos primeros (o de los n primeros) valores propios representan una gran parte de la totalidad de la varianza, la calidad de los gráficos es buena. En nuestro caso esta calidad es muy buena en la medida en que los dos primeros valores propios totalizan 97 % de la varianza total. Haga clic para ver una visualización de los resultados. El principal interés del análisis de correspondencias es la representación gráfica simultánea de las variables làneas y de las variables columnas. Cuando la calidad del análisis es buena (97% en nuestro caso) el mapping permite interpretar fácilmente los datos. Podemos asà observar que los
  • 31. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena jóvenes de 16 a 24 años tienen opiniones sensiblemente diferentes de los otros grupos de edades. Las personas que pertenecen a la clase de los 55-64 años no aprecian la pelàcula. El análisis de correspondencias es una técnica potente para analizar los và- nculos entre las diferentes categoràas de dos variables cualitativas. Podemos utilizar el análisis de correspondencias múltiples (ACM) cuando deseamos analizar las proximidades entre las categoràas de más de dos variables cualitativas. Vea este vídeo para obtener una demostración de este tutorial. 5.1 ANALISIS DE CORREESPONDENCIA EN 3 D Conjunto de datos para ejecutar un análisis de correspondencias de una tabla de datos en bruto, Una hoja Excel que contiene los datos y los resultados puede ser descargado haciendo clic aquí. Los datos corresponden a la lista de futbolistas extranjeros en la liga premier y su nacionalidad. Queremos estudiar la distribución de los jugadores extranjeros en los clubes ingleses Configuración de un análisis de correspondencias de una tabla de datos en bruto Una vez XLSTAT iniciado, elija el comando de análisis de correspondencia Análisis de datos /, o haga clic en el botón correspondiente de la barra de herramientas de análisis de datos (véase más adelante).
  • 32. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo Análisis de correspondencias. En la tabla Observaciones / variables de campo, seleccione el Club de columnas y de la Región en la hoja de Excel. Los datos están en un formato de Observaciones / variables, marque la opción correspondiente, .Como se incluyen los nombres de las columnas, la opción de etiquetas variable se debe seleccionar también. Elija la opción Hoja de la salida. En la pestaña Opciones, marque la prueba de independencia y dejar el nivel de significación de 5.
  • 33. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena En la sección Salidas, seleccionar las siguientes opciones:  Tabla de contingencia  Valores propios  Coordenadas principales  Coordenadas estándar  Contribuciones  Cosenos al cuadrado Ir a la última pestaña Gráficos y habilitar el:  Parcelas simétricas  Parcelas asimétricas  Etiquetas
  • 34. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Haga clic sobre Aceptar. A medida que el modelo necesita más de dos factores. Haga clic primero en Seleccionar para seleccionar la trama F1-F2. A continuación, cambie la abscisa a F2. Se va a cambiar las ordenadas a F3. Vuelva a hacer clic en Seleccionar. De esta manera tendremos dos parcelas: F1-F2 y F2-F3. Haga clic en Hecho. Interpretación de los resultados del análisis de correspondencias El primer resultado es la tabla de contingencia y la prueba de independencia entre las filas y columnas. El p-valor de 0.008 es inferior al 5% la hipótesis nula debe rechazarse. Esto significa que la distribución de la nacionalidad no es al azar en los clubes del Reino Unido.
  • 35. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Entonces usted tiene las parcelas simétricas. A partir de la primera parcela se puede ver que los clubes como el Aston Villa y el Stoke City tienen más norteamericano jugadores que el resto de los equipos. De la misma manera, Burney tiene un montón de jugadores de Europa del Norte.
  • 36. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Para crear un gráfico 3-D de los resultados de un análisis de correspondencia Ahora vamos a hacer un gráfico en 3 dimensiones para tener una mejor representación de los puntos. En primer lugar vamos a hacer una tabla que contiene tanto los primeros 3 coordenadas principales de los clubes y las zonas geográficas y la suma de los cosenos para los 3 factores. La suma de los cosenos al cuadrado para los 3 factores, obtenidos a partir de la tabla de cosenos al cuadrado, da una idea de lo bien que se representa la muestra en el espacio 3-D.Agregar una última columna para tener la información sobre las filas y columnas. Las filas son los clubes y las columnas de las regiones. Hacer una variable de categoría con R y C para describir cada muestra Seleccione la tabla completa y vaya al menú de visualización de datos y seleccione la opción XLSTAT-3DPlot.
  • 37. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Cuando pronta seleccionar el formato de los datos como tabla. Usted tendrá que especificar los ejes. Hacerlo mediante un clic derecho y seleccione en el dropbox la variable adecuada para su uso. Para los 3 ejes que utilizamos: F1, F2 y F3 horizontalmente verticalmente. También es necesario establecer el tamaño del eje con el fin de tener una parcela orto normal. Por ejemplo el uso de todos los ejes: -1,5 y 1,5 como límites
  • 38. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Por el color y el tamaño del punto puede utilizar la suma de cosenos. Ir a la ficha Objetos y modificar las secciones de color y tamaño. Por último podemos añadir las etiquetas por entrar en las Anotaciones ficha y selcting "Columna1", como la etiqueta Aquí está su representación en 3-D.
  • 39. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 6 ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES Una hoja Excel que incluyen los datos y los resultados de este ejemplo puede ser descargada haciendo clic aquà. Los datos corresponden a una encuesta efectuada por un concesionario, ante 28 clientes, una semana después que estos últimos recuperaron su vehàculo tras una reparación mecánica. El cuestionario incluye cinco preguntas: - ¿Está Ud. globalmente satisfecho de su visita al garaje? (Sà / No) - ¿Considera Ud. que la reparación fue correctamente efectuada? (Sà / No / No sabe) - ¿Cómo juzga Ud. la calidad de la acogida? (de 1 a 5) - ¿Le parece la relación calidad precio correcta? (Sà / No) - ¿Volverá Ud. a este garaje para una reparación? (Sà / No / No sabe)
  • 40. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Efectuando un Análisis de Correspondencias Múltiples (ACM), deseamos identificar las posibles relaciones entre las diferentes respuestas en las diferentes preguntas. Una vez XLSTAT iniciado, elija el comando XLSTAT/Análisis de datos/Análisis de Correspondencias Múltiples o haga clic en el botón "Análisis de Correspondencias Múltiples" de la barra de herramientas "Análisis de los datos". Una vez que haya pulsado sobre el botón, aparece el cuadro de diálogo que corresponde al análisis de Correspondencia Múltiples. Entonces puede seleccionar los datos en la hoja Excel. La opción "Etiquetas de variables" se deja activada ya que la primera fila de las columnas incluye el nombre de las variables. La opción "Etiquetas de las observaciones" es activada y hemos seleccionado la columna de las etiquetas de las observaciones. En la ficha “Opciones” activamos la opción de “datos suplementarios” y después vamos a la ficha correspondiente. La variable "Volver" se utiliza como "Variable adicional" ya que no deseamos que influye en los cálculos; en cambio nos interesa a posteriori su ubicación. Elegimos la opción 1/p para filtrar los valores propios: no serán exhibidos los resultados detallados que corresponden a los factores para los cuales el valor
  • 41. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena propio es menos que 1/p (donde p es el número de variables cualitativas activas). Se han activado las opciones siguientes de “Resultados” y de “Graficos”.
  • 42. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Una vez que haya pulsado en el botón "OK", empiezan los cálculos y luego aparecen los resultados. XLSTAT empieza por visualizar tablas implicadas en los cálculos (tabla disyuntiva completa y tabla de Burt). La inercia total vale 2. En ACM, la inercia total depende únicamente del número de variables y categorías y no de los enlaces entre las variables; entonces esta cantidad no tiene interpretación estadística aquà. En la siguiente tabla se visualizan los 8 valores propios y el % de inercia correspondiente.
  • 43. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Luego una tabla visualiza las coordenadas de las categorías en el espacio factorial (las diferentes categorías de las variables cualitativas seleccionadas). Las coordenadas de las observaciones están proporcionadas más abajo. El gráfico a continuación representa el mapa factorial que superpone categorías y observaciones. Con el fin de visualizar lo mejor posible la posición relativa de las categorías, hemos realizado con XLSTAT-3DPlot una visualización en el espacio de los tres primeros factores a partir de la tabla de las coordenadas de las categorías.
  • 44. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena De esos gráficos, confirmamos una evidencia: un cliente volverá si está globalmente satisfecho de la prestación, de la acogida, del precio y si tiene la impresión que la reparación se efectuó efectivamente. También se observará el extraño sentimiento que la reparación no se efectuó satisfactoriamente coincidiendo con una acogida no satisfactoria. Eso merecería un amplio análisis: ¿La persona indicó equivocadamente el problema porque no estaba satisfactoriamente acogida? o bien ¿llamó de nuevo para señalar que sigue el problema y que no fue acogida satisfactoriamente en aquel momento?
  • 45. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 7 MULTIDIMENSIONAL SCALING El Multidimensional Scaling (MDS) es un método de análisis de datos ampliamente utilizado en los campos del marketing y de la psicometràa, especialmente en los paàses anglosajones. El principio del método consiste en reconstruir un mapa de individuos a partir de una matriz de proximidades (similaridades o disimilaridades) entre los individuos. En el caso ideal en la que se dispone de una matriz que proporciona las distancias entre puntos en el plano (por ejemplo, las distancias entre las ciudades de una región), el MDS reconstruye el mapa de puntos, con poco más o menos una rotación / simetràa. Para proporcionar una configuración óptima, el método MDS minimiza un criterio llamado "STRESS". Mientras más se acerca a 0 mejor es la representación. Una hoja Excel que incluye a la vez los datos y resultados puede ser descargada haciendo clic aquà. Los datos proceden de una encuesta llevada ante 10 consumidores, a quienes les han pedido de valorar (evaluaciones incluidas entre 1 y 5) cinco productos, del cual uno solo existe en el mercado (producto P1). Estos productos son productos alimenticios de tipo barras de chocolates. Se trata de mostrar como los productos se ordenan en un mapa, según las evaluaciones proporcionadas por los 10 consumidores. Hemos visto que para usar el MDS necesitamos una matriz de proximidad, pero aquà disponemos de una matriz individuos x productos. Para crear una matriz de disimilaridades entre los productos, debemos usar en primer lugar la herramienta "Matriz de similaridad / disimilaridad" de XLSTAT. Una vez que XLSTAT-Pro esté activado, haga clic en el menú XLSTAT/Descripción de datos/Matriz de similaridad / disimilaridad, o haga clic en el botón correspondiente de la barra "Descripción de datos" (ver a continuación).
  • 46. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas como presentado a continuación. Para activar la parte inferior del cuadro de diálogo, es necesario hacer clic en el botón "Más" que se convierte después en "Menos". Se consigue entonces la matriz de las distancias euclàdeas entre los productos, a partir de la cual el Multidimensional Scaling puede ser realizado.
  • 47. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Haga clic entonces en el menú XLSTAT /Análisis de datos/Multidimensional Scaling, o haga clic en el botón correspondiente de la barra "Análisis de datos" (ver a continuación). Una vez el botón pulsado, el cuadro de diálogo aparece. Puede entonces seleccionar los datos en la hoja Excel, y luego elegir las opciones adecuadas como presentado a continuación. Se eligió la opción Modelo. Este modelo procura que las distancias obtenidas en la configuración final sean lo más cercanas posible de las distancias euclàdeas, calculadas a partir de las evaluaciones de los consumidores. Otras opciones pueden proporcionar los mismos resultados pero con un efecto de escala. Por otra parte, hemos solicitado que los espacios de representación incluyen 2 a 4 dimensiones, con el fin de evaluar la distorsión asociada a la representación en un espacio de mínima dimensionalidad. Para poder analizar los resultados relacionados con las diferentes dimensiones, hemos desactivado la opción "Mejor dimensión". Finalmente, la opción "Disparidades" no es activada: en efecto, en el caso del modelo absoluto, las disparidades son idénticas a las disimilaridades y su representación en el diagrama de Shepard seria entonces redundante.
  • 48. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Comentario: al menos que no se proporciona una configuración inicial al algoritmo (ver opciones "Más" del cuadro de diálogo MDS), los puntos de inicio son elegidos de modo aleatorio. Es posible conseguir asà un resultado levemente diferente del que es visualizado aquà. Para asegurarse de obtener una solución cercana del óptimo absoluto, puede aumentar el número de repeticiones, el número de iteraciones máximas y la precisión (ver opciones "Más" del cuadro de diálogo MDS). Los cálculos empiezan en el momento que haga clic en el botón "OK". Después de haber optado representar los gráficos sobre las dos primeras dimensiones, los resultados se visualizan en la hoja "MDS" del libro Excel. El primer cuadro muestra la evolución del stress en función del número de dimensiones del espacio de representación. Se observa una ruptura muy clara entre las dimensiones 2 y 3, y una estabilidad entre las dimensiones 3 y 4 (es normal que la representación de 5 objetos sea perfecta en un espacio de 4 dimensiones).
  • 49. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Un mapa establecido sobre el plano Dim1 x Dim2 es producido para el espacio de 4 dimensiones porque es en este espacio que la representación de los datos es la mejor. Es posible también cruzar otros ejes de coordenadas y obtener asà otros mapas. En cualquier caso, es peligroso utilizar estos mapas. En efecto, se trata de proyecciones de una nube de puntos situada en un espacio de 4 dimensiones en planos, y no sabemos a priori si una de esas proyecciones permite representar escrupulosamente las relaciones de proximidad entre los puntos de la nube. Solo un ACP calculado a partir del resultado del MDS
  • 50. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena permitirá construir un mapa que dará cuenta de la nube de puntos lo más escrupulosamente posible. Hemos creado el mapa para la representación en dos dimensiones que es demasiado diferente de aquella obtenida para la configuración en 4 dimensiones, y forzosamente más justo. Con el fin de tener una representación con una calidad aún superior, y de evitar una incorrecta interpretación de los datos, hemos utilizado XLSTAT- 3DPlot para representar la configuración en tres dimensiones. Para eso, se debe seleccionar los datos a continuación, y luego hacer clic en el icono de XLSTAT-3DPlot de la barra de herramientas "Visualización de datos". Se consigue entonces el siguiente resultado:
  • 51. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Asi, resulta que los consumidores han diferenciado bien colectivamente el conjunto de los productos los unos de los otros puesto que los productos son esparcidos. Sabemos que el producto P2 incluye más chocolate que el producto P4 que es el que tiene menos: en el gráfico en 3 dimensiones aparecen diametralmente opuestos. Observamos que los consumidores han favorecido sensiblemente el producto P2 en su evaluación. También observamos, según las imágenes aquà arriba, que los productos P3 y P5, aunque tienen evaluaciones medias muy cercanas, no son próximas en el espacio de representación. En efecto, las opiniones entre los consumidores son a veces opuestas en los productos P3 y P5. Eso se explica por la presencia de cacahuetes en el producto, sabor apreciado por algunos consumidores y no por otros. El método MDS permite asà cartografiar productos juzgados por consumidores. La interpretación que se deduce puede ser mucho más rica que un análisis a partir de estadísticas simples. Comentario: no existe método estadístico riguroso para evaluar la calidad y fiabilidad de una representación procedente de un MDS. Sin embargo, la
  • 52. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena observación del diagrama de Shepard permite tener una idea general de la calidad de la representación. El diagrama de Shepard corresponde a una nube de puntos, cuyo abscisas son las disimilaridades observadas, y las ordenadas, las distancias en la configuración procedente del MDS. Mientras más esparcidos son los puntos, menos fiable es el gráfico. Si el rango de las abscisas es respectada al de las ordenadas, el gráfico es muy fiable. Si los puntos son alineados en una recta, la representación es perfecta. El gráfico de izquierda corresponde, para los datos de este ejemplo, a la representación en un espacio de 4 dimensiones, y el de derecha corresponde a la representación en un espacio de 2 dimensiones. Se observa una diferencia sensible en la dispersión de los puntos entre los dos gráficos
  • 53. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 8 CLASIFICACIÓN CON EL MÉTODO K-MEANS Una hoja Excel que contiene a la vez los datos y los resultados puede ser descargado haciendo clic aquà. Los datos proceden del US Census Bureau (se puede obtener el archivo de origen en la página web http://eire.census.gov/popest/states_dataset.csv). Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados Unidos en 2000 y 2001. En el marco de este tutorial, solos los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en àndices por 1000 habitantes. El objetivo aquà es crear grupos homogéneos de Estados. Estos datos también son utilizados para el tutorial del Análisis de Componentes Principales (ACP) y en el tutorial sobre la Clasificación Ascendente Jerárquica (CAJ). Nota : si pretende hacer el análisis presentado a continuación con los mismos datos, es seguramente posible que Ud. no obtendrá los mismos resultados. En efecto, el método de las nubes dinámicas implica un sorteo aleatorio. Una vez que XLSTAT-Pro es activado, haga clic en el menú XLSTAT/Análisis de datos/Nubes dinámicas, o haga clic en el botón correspondiente de la barra "análisis de datos" (ver a continuación). Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a las nubes dinámicas. Puede entonces seleccionar los datos en la hoja Excel. Existen varias maneras de seleccionar los datos en el cuadro de diálogo XLSTAT (ver el tutorial sobre este tema). En el ejemplo estudiado aquà, los datos empiezan desde la primera fila; entonces es más rápido elegir el modo
  • 54. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas. La variable "Población total" no fue seleccionada ya que solos los aspectos dinámicos de la población nos interesa aquà. La última columna no fue seleccionada tampoco, ya que hemos visto con el Análisis de Componentes Principales que las dos últimas columnas están perfectamente correladas. La opción "Etiquetas de las columnas" se deja activada, ya que la primera fila de datos incluye el nombre de las variables, y las etiquetas de las observaciones están seleccionadas. El número de grupos a crear está fijado a 4. La opción "Estandarizar" está activada de manera a evitar que la escala de las variables no influye sobre los resultados. Las opciones avanzadas (activadas haciendo clic en el botón "Más" que se convierte luego "Menos") son solicitadas. El número de repeticiones y el número máximo de iteraciones están fijados a 100 con el fin de aumentar la calidad y la estabilidad de los resultados. Los cálculos empiezan cuando haga clic en el botón "OK". Si Usted ha elegido en el panel de las opciones de XLSTAT la opción " Introducción asistida ", XLSTAT le pide confirmar el número de filas y columnas. El primer resultado visualizado es el cuadro de las inercias para la mayor solución entre las repeticiones. La mayor solución es la que maximiza la inercia inter-grupos (o que minimiza la inercia intra-grupos: en efecto, tenemos [ Inercia Total = Inercia Inter-grupos + Inercia Intra-grupos). La inercia es proporcional a la varianza de la población (basta con dividir la
  • 55. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena inercia por el tamaño de la población para obtener la varianza da la población). Un cuadro presenta luego para cada Estado, el indicador del grupo al cual ha sido asignado. Una parte del cuadro está presentada a continuación. Este cuadro presenta también los grupos estables que muestran asà los Estados que están asignados a menudo a los mismos grupos en el conjunto de las repeticiones. Podrán después fusionar las informaciones sobre los grupos con el cuadro inicial para eventuales análisis complementarios (un análisis discriminante por ejemplo). El cuadro visualiza para cada grupo las observaciones que le fueron asignadas.
  • 56. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Si se compara estos resultados con los del tutorial sobre la Clasificación Ascendente Jerárquica, se nota que los dos métodos dan resultados diferentes, aunque para la mayoría de los Estados, el grupo de asignación es el mismo (para comparar se utiliza el tamaño de los grupos). Por ejemplo, en el grupo que incluye 31 estados en los dos casos, 25 estados son idénticos entre los dos métodos. El cuadro a continuación corresponde a los centroides de los grupos. Para cada grupo las observaciones más cerca del centroide son identificadas.
  • 57. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Por último, aparece una sàntesis para las 10 mejores repeticiones. Se puede ver que el algoritmo converge muy rápidamente para cada repetición. Notaremos la evolución de la inercia intra-grupos de la primera a la última iteración. 9 GRANDES CONJUNTOS DE DATOS - USO K-MEANS CLUSTERING SEGUIDO DE UN AHC 9.1 CONJUNTO DE DATOS DE CLÚSTER Una hoja Excel que contiene los datos y los resultados para su uso en este tutorial se puede descargar haciendo clic aquí. Los datos son de la Oficina del Censo de EE.UU., y se describen los cambios en la población de 51 estados entre 2000 y 2001. El conjunto de datos inicial se ha transformado a las tasas por 1.000 habitantes, con los datos de 2001
  • 58. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena que sirve como centro para el análisis. Nuestro objetivo es crear grupos homogéneos de los estados sobre la base de los datos demográficos que tenemos disponibles. Este conjunto de datos no es muy grande, pero ilustrará cómo lidiar con el conjunto de datos mucho más grande. Nota: si intenta volver a ejecutar el mismo análisis que se describe a continuación en los mismos datos, como el método k-means parte de grupos seleccionados al azar, puede obtener resultados diferentes de los que a continuación se indican. Para fijar la semilla, ir a las opciones de XLSTAT, pestaña Opciones avanzadas y marque la opción "fijar la semilla". 9.2 CONFIGURACIÓN DE LA K-MEANS CLUSTERING Una vez XLSTAT es activada, elija el comando de clustering k-means XLSTAT / Análisis de datos /, o haga clic en el botón correspondiente de la barra de herramientas de análisis de datos (véase más adelante) Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo de agrupamiento k-means. Seleccione los datos en la hoja Excel con el ratón. (Nota: Hay varias formas de seleccionar los datos con XLSTAT - Para más información, consulte el tutorial en favor seleccionar datos .) En este ejemplo, los datos empiezan desde la primera fila, por lo que es más rápido y más fácil de usar la "selección de la columna "modo. Esto explica por qué las letras correspondientes a las columnas se muestran en los cuadros de selección (C a H).
  • 59. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena No se ha seleccionado la variable de la población total, ya que estamos interesados principalmente en la dinámica demográfica. La última columna no se ha seleccionado ya que está totalmente correlacionado con la columna que lo precede. Las etiquetas observaciones fueron seleccionados ya que están disponibles. Hemos establecido el número de grupos que se creen a 25. En el caso del conjunto de datos mucho más grande que usted puede usar un número más grande. El criterio seleccionado es "Determinante (W)" , ya que permite eliminar los efectos de escala de las variables. En la pestaña de opciones hemos aumentado el número de repeticiones a 50 con el fin de aumentar la calidad y la estabilidad de los resultados. En la salidas pestaña seleccionamos sólo los centroides que vamos a utilizar en la AHC, los resultados por clase, ya que nos dará las muestras dentro de
  • 60. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena cada clase, y los resultados por el objeto de obtener la tabla de la muestra con una variable de atribución. Una vez que ha hecho clic en Aceptar los resultados de la k-means clustering aparecerán en una nueva hoja. 9.3 AGRUPACIÓN JERÁRQUICA DE LOS RESULTADOS DE LA K-MEANS CLUSTERING Vamos a trabajar en la mesa de centroi des clase.
  • 61. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Otro cuadro importante es la tabla que contiene la información acerca de qué estados se agrupan juntos. Seleccione ahora la XLSTAT / Análisis de datos / aglomerativo agrupación jerárquica de mando, o haga clic en el botón correspondiente de los "Análisis de datos" barra de herramientas (ver abajo). En el general ficha deberá seleccionar los datos a agruparse. Seleccione las variables originales que describen las 25 clases en los centroides de clase.
  • 62. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Vamos a utilizar el tipo de proximidad: desemejanzas y la distancia euclidiana , así como el método de Ward como el método de aglomeración. Tenemos el nombre de las variables incluidas en la selección por lo que marca a la opción etiquetas de columna y seleccionar los nombres de fila que son el grupo número (1-25). Vamos a utilizar el peso Row opción y seleccione la columna Suma de los valores de la misma tabla centroides clase. En Opciones de pestaña confirmamos que queremos agrupar las filas como las clases están en filas, pero en este tipo de agrupación (AHC después de k- medias) es necesario incluir las diferencias dentro de la clase. Encontrará esta información en la misma mesa que antes: centroides de clase, en la última columna A diferencia de clase.
  • 63. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Podemos seleccionar todas las salidas de este análisis. Por último, en la pestaña Gráficos, seleccione todas las tablas. Preste especial atención al tipo dendrograma y seleccione la opción Vertical.
  • 64. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 9.4 RESULTADOS DE LA AGRUPACIÓN JERÁRQUICA ACUMULATIVA En los resultados de la AHC, mira las dos dendrogams que le dan a la composición de los 3 grupos. Usted puede ver cómo se agrupan los 25 grupos en tres grupos finales. También se puede ver la descomposición de la varianza.
  • 65. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Por fin se puede utilizar la tabla obtenida en el Comité Ad Hoc para recodificar la tabla obtenida en el k-means clustering para tener los resultados finales. Ir a XLSTAT / Preparación de datos / Codificación. Es necesario seleccionar la clase de columna de la tabla de clasificación obtenida en el k-means clustering como variable a recodificar.Seleccione la tabla de resultados por el objeto de la AHC, incluyendo el nombre de las columnas que la tabla de codificación. A continuación, seleccione la opción de las etiquetas de columna . Para agregar la nueva columna de la primera tabla seleccione la opción Rango y la primera celda junto a la mesa. También desmarque la opción Mostrar encabezado del informe a fin de no tener nada más aparece.
  • 66. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Finalmente obtuvo los resultados de la clasificación para los todos los estados.
  • 67. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena 10 EJECUCIÓN DE UNA MEZCLA MODELO DE CLÚSTERES GAUSSIANO 10.1 MODELOS DE MEZCLAS GAUSSIANAS PARA LA AGRUPACIÓN Estos modelos se utilizan normalmente para una finalidad agrupación. Pueden proporcionar un marco para la evaluación de las particiones de los datos teniendo en cuenta que cada componente representa un clúster. Estos modelos tienen dos ventajas principales: Es un método probabilístico para la obtención de una clasificación difusa de las observaciones. La probabilidad de pertenencia a cada grupo se calcula y una clasificación generalmente se logra mediante la asignación de cada
  • 68. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena observación al grupo más probable. Estas probabilidades también pueden ser utilizados para interpretar sospechosos clasificaciones. Mezcla de modelado es muy flexible. 10.2 CONJUNTO DE DATOS DE MODELO DE MEZCLA GAUSSIANA Los datos corresponden a la famosa iris de Fisher presentado en [Fisher, RA (1936), el uso de múltiples medidas en problemas taxonómicos.Anales de la eugenesia , 7 , Parte II, 179-188] Estos datos da las mediciones (en centímetros) de la longitud y la anchura del pétalo, de 150 flores de 3 especies de iris ( setosa , versicolor , yvirginica) . Una hoja Excel que contiene los datos y los resultados para su uso en este tutorial se puede descargar haciendo clic aquí . El objetivo es ajustar un modelo de mezcla gaussiana y recuperar la estructura de datos en tres grupos. 10.3 LA CREACIÓN DE UN MODELO DE MEZCLA GAUSSIANA Una vez XLSTAT iniciado, elija el modelo mezcla XLSTAT / XLSTAT-MX / Gaussian comando o haga clic en el botón correspondiente de laXLSTAT- MX barra de herramientas. Una vez que haya hecho clic en el botón, aparece el cuadro de diálogo.
  • 69. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena Los datos se presentan en una tabla de 150 filas y 2 columnas. Se supone que las etiquetas son desconocidas y que el peso de cada fila es la misma. Como la clasificación de los datos se realiza de acuerdo a la longitud y la anchura del pétalo del iris, la opción multidimensional se elige. En las opciones (1) ficha , se proponen tres algoritmos de inferencia con cuatro criterios de selección y los tres métodos de inicialización. El usuario también puede establecer el número máximo de iteraciones del algoritmo de inferencia y su umbral de convergencia. En este caso, elegimos una inicialización al azar con dos repeticiones y dejar el resto de las opciones a sus valores predeterminados.
  • 70. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena En los (2) Opciones ficha , una lista de todos los modelos de mezclas gaussianas disponible. El número máximo y mínimo de clases puede ser modificado y las proporciones de la mezcla puede ser forzado a ser igual. Aquí, elegimos para probar los modelos de EEE y EEV para un número de clases que varía de 2 a 5. Los cálculos empiezan una vez que haya hecho clic en Aceptar . Los resultados se mostrarán en una nueva hoja. Interpretación de los resultados de un modelo de mezcla gaussiana agrupación Los primeros resultados que se muestran son las estadísticas de los distintos variables (largo y ancho). A continuación, se muestra el valor del criterio de selección para todos los modelos y para un número de clases que varía de 2 a 5. A continuación se dan los parámetros estimados del modelo seleccionado (proporciones, medias y varianzas).
  • 71. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena A continuación se presenta una tabla que muestra las características del modelo seleccionado (BIC, AIC, logaritmo de verosimilitud, NEC, ). En la siguiente tabla los resultados en términos de estimación de la probabilidad y la clasificación de las primeras observaciones de la serie de datos disponible se mostraron. La clasificación se calcula de acuerdo a las
  • 72. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena probabilidades mediante la regla MAP (máximo a posteriori). Podemos ver que 3 clases han sido seleccionadas. Por último, se proporciona un gráfico de los datos agrupados. Muchas otras características y opciones están disponibles en los modelos de mezcla con XLSTAT incluyen pesos de observación, etiquetado parcial, 14 algoritmo de inferencia... hemos concluido con el análisis espero que me hallan comprendido
  • 73. MANUAL DE FÓRMULAS ESTADISTICAS PARA BIOLOGIA Biólogo Jorge Pablo Cadena PENSAMIENTO Terminando este detalle llegue a la conclusión; que la diferencia en hacer algo más allá de pasión de dar tus clases y que teniendo el afán de querer hacer las cosas bien para tus alumnos siempre tendrá enemigos gratis dentro de tu entorno laboral …y en conclusión por ahora solo tienes una pisca de poder y una tonelada de arrogancia ya veremos cómo sales de tus andadas Dedicado a mis ex alumnos por tenerme paciencia y estima saludo y éxitos No olviden que nadie es dueño de la verdad Gracias