SlideShare una empresa de Scribd logo
1 de 219
Descargar para leer sin conexión
· B I O E S T A D ( S T I C A
Herramienta para la Investigación
ANGEL CANALES
BIOESTADÍSTICA.
Herramient� para la Investigación
Autor-Editor:
© Ángel Canales Gutiérrez
Puno - Perú
Primera Edición, 201 1
Tiraje: 1000 ejemplares
Diagramación y Edición: 1von Rocío Gutierrez Flores
Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2 0 1 1 - 1 2 1 1 6
ISBN: 978-612-00-0700-6
Impreso en:
Corporación MERÚ E.I.R.L.
Jr. Puno 2 1 9 Interior esq. Con Jr. Moquegua, Telef. (051) 363934 - Puno
Puno - Perú
Octubre, 201 I
l
1
t
PRESENTACION
La bioestadística, es una herramienta fundamental para realizar
trabajos de investigación, donde se analiza variables biológicas, que
sirven para plantear y probar hipótesis.
Muchos investigadores poseen limitaciones para aplicar
bioestadística descriptiva e ínferencíal, principalmente en esta
última, siendo una limitante para publicar e interpretar los
resultados obtenidos de la investigación.
El libro Bioestadística: Herramienta para la investigación, permitirá
al investigador encaminar en el campo de la investigación desde una
biocstadístíca descriptiva simple hasta una prueba ínfercncial,
permitiendo una mayor rigurosidad en la interpretación y discusión
de los resultados obtenidos.
La aceptación o rechazo de una hipótesis, no será posible sino no se
aplica una prueba bioestadística adecuada. En el libro existe una
variedad de ejemplos con variables biológicas, que posibilita al
lector-investigador aplicar pruebas inferenciales.
Contrariamente, existirá investigadores que no le dan importancia a
la aplicación de pruebas bioestadísticas, siendo una respuesta a la
limitación del conocimiento y utilidad de las diversas pruebas que
detecten diferencias y/o igualdades en la investigación.
EL AUTOR
ÍNDICE
PÁG.
CAPÍTULO l. Principios de la bioestadística 07
1 . 1 Reseña histórica 07
1.2 Población y muestra 08
1.3 Precisión y exactitude 09
1.4 Parámetro 1 1
1.5 Estadígrafo 1 1
1 . 6 Ciclo metodológico 1 1.
1.7Variables 13
1.8 Distribución de frecuencias 1 5
1.9 Representación gráfica de datos 27
1 . 1 0 Problemas propuestos · 3 1
CAPÍTULO II. Estadística descriptiva 3 3
2.1 Media 33
2 . 2 Mediana 37
2.3 Moda 40
2.4 Desviación estándar 43
2 . 5 Varianza 48
2.6 Coeficiente de variabilidad 49
2.7 Problemas propuestos 50
CAPITULO 111. Probabilidades, distribuciones,
límites de confianza, hipótesis, asimetrías 52
3 . 1 Probabilidades 52
3 . 2 Distribución normal de probabilidad 53
3.3 Distribución de Poisson y espacial 56
3.4 Intervalos de confianza 64
3.SAsimetríayKurtosis 66
3 . 6 Pruebas de hipótesis 69
3.7Tamañodemuestra 75
3.8 Problemas propuestos 82
CAPITULO IV. Pruebas bioestadístícas paramétricas 83
4.1 Supuestos para pruebas bioestadísticas 83
4.2 ANDEVA de clasificación simple 94
4.3 ANDEVA factorial 1 1 0
4.4 Regresión 1 2 7
4.5 Correlación 134
4.5 Problemas propuestos 143
CAPITULO V. Pruebas no paramétricas 14 7
5.1 Ji cuadrado 149
5.2 Tabla de contingencia 154
5.3 Kruskal Wallis 159
5.4 Mann Whitney 169
5.5 Friedman Two Way 1 7 2
5.6 Problemas propuestos 1 7 7
ANEXOS 179
BIBLIOGRAFÍA 2 1 7
_il. Canales G.
CAPITULO I
PRINCIPIOS DE LA BIOESTADISTICA
Bioestadistica
1.1. RESEÑA HISTÓRICA: ETAPA INICIAL DE LA SISTEMATIZACIÓN Y
ETAPA ACTUAL
1.2. POBLACIÓN MUESTRA
1.3. PRECISIÓN Y EXACTITUD
1.4. PARÁMETRO
1.5. ESTADÍGRAFO
1.6. CICLO METODOLÓGICO
1.7. VARIABLESCONTINUAS,DISCRETASYATRIBUTOS
1.8. DISTRIBUCIÓN DE FRECUENCIAS
1.9. HISTOGRAMAENFORMADEFIGURAS
PROBLEMAS PROPUESTOS
1.1. BREVERESEÑAHISTÓRICA
El desarrollo histórico de la estadística atraviesa por 3 etapas.
a) Etapa inicial
Se extiende desde la antigüedad hasta mediados del siglo XVIII. Se
caracteriza porque la estadística está asociada a los censos poblacionales,
registros de bienes y servicios del estado. La palabra estadística deriva del
vocablo "estado".
La cultura egipcia contó con recopilaciones regulares de datos de su
administración estatal, sobresaliendo Saphkit, diosa de los libros y de los
cuentos.
b) Etapa de sistematización
Se caracteriza por la aparición de escuelas que sistematizan la estadística,
destacándose tres:
Escuela alemana: Creó la primera cátedra de la estadística considerando
esta disciplina como la descripción de los fenómenos concernientes a
estado o administración.
Escuela inglesa: Cuantificaron las leyes que rigen los fenómenos sociales,
como consecuencia "aritmetizaron" la estadística.
07
1.2. POBLACIÓNYMUESTRA
Escuela Francesa: Introduce la teoría de las probabilidades como
. fundamento matemático de la estadística.
Bioestadistica
X
08
X
Población
A. Canales G.
e) Etapa actual
Comprendida entre principios del siglo XIX hasta nuestros días. En esta
etapa, la matemática se plasma como la columna vertebral de la
estadística y se caracteriza por el gran desarrollo alcanzado como ciencia
y como metodología de investigación científica aplicada a todas las ramas
del saber humano: biología, medicina, ingeniería, economía, entre otros.
La estadística, es hoy un campo extremadamente activo, cuyas
aplicaciones alcanzan a casi todas las ciencias e incluso a todas las
humanidades.
Conjunto de individuos de la misma especie que tienen las mismas
características que viven en un determinado espacio y tiempo, pueden
ser infinitos o finitos, denominado también universo.
Población
Es el conjunto mayor de objetos (universo) que estos tengan al menos una
característica, acerca de las cuales se desea información.
Muestra
Es una parte de población que puede ser tomado aleatoriamente y debe
ser una parte representativa de la población. Si la muestra no es
representativa, no podemos inferir acerca de la población. Existen
fórmulas para determinar el tamaño de muestra, siendo un dato muy
importante para realizar trabajos de investigación.
A. Canales G. Bioes tadística
1.3. PRECISIÓN Y EXACTITUD
. "Exactitud" y " P r e c i s i ó n " s e u s a n · s i n ó n i m a m e n t e en la c o n v e r s a c i ó n
n o r m a l , p e r o estadísticamente h a r e m o s u n a d i s t i n c i ó n .
Exactitud, es la c e r c a n í a d e un dato m e d i d o o c o m p u t a d o a s u v e r d a d e r o
valor.
Precisión, es la c e r c a n í a entre m e d i d a s r e p e t i d a s d e l m i s m o o b j e t o o ente.
L o s v a l o r e s p r e c i s o s s o n u s u a l e s , a u n q u e n o n e c e s a r i a m e n t e , n ú m e r o s
e n t e r o s . Así, c u a n d o c o n t a m o s cuatro huevos en un n i d o , n o existe
n i n g u n a d u d a a c e r c a d e l n ú m e r o exacto de huevos q u e hay en el n i d o si
h e m o s c o n t a d o c o r r e c t a m e n t e ; s e r á n cuatro, n o c i n c o ni tres, y
c l a r a m e n t e t a m p o c o p o d r á n s e r cuatro m á s o m e n o s u n a p a r t e fraccíonal,
L a s v a r i a b l e s d i s c r e t a s , t a m b i é n s u e l e n m e d i r s e c o m o n ú m e r o s exactos.
D e forma s i m i l a r l a s v a r i a b l e s c o n t i n u a s q u e d e r i v a n d e otras d i s c r e t a s
p u e d e n , b a j o c i e r t a s c o n d i c i o n e s , s e r t a m b i é n n ú m e r o s e x a c t o s . S i e n u n a
c o l o n i a de a n i m a l e s hay 1 8 h e m b r a s y 1 2 m a c h o s , la p r o p o r c i ó n entre
h e m b r a s y m a c h o s es 1 , 5 v a l o r c o n t i n u o y t a m b i é n n ú m e r o e x a c t o .
El ú l t i m o dígito d e la m e d i d a e s t a b l e c i d a d e b e , d e n o t a r p r e c i s i ó n , esto es,
l o s l í m i t e s s o b r e la e s c a l a de m e d i d a s entre l o s q u e n o s o t r o s c r e e m o s q u e
s e e n c u e n t r a e l v a l o r exacto. A s í u n a m e d i d a d e l o n g i t u d 1 2 , 3 mm q u i e r e
d e c i r q u e el v e r d a d e r o v a l o r d e d i c h a l o n g i t u d s e e n c u e n t r a e n a l g ú n l u g a r
e n t r e 1 2 , 2 5 m m y 1 2 , 3 5 m m .
Entre e s t o s d o s l í m i t e s r e a l e s de 1 2 , 2 5 1 2 , 3 5 , s e e n c u e n t r a l a v e r d a d e r a
l o n g i t u d d e l a e s t r u c t u r a que m e d i m o s , n o l o s a b e m o s . Algo p u e d e
o b j e t a r s e al definir, c o m o h e m o s h e c h o , l o s l í m i t e s r e a l e s c o m o 1 2 , 2 5 y
1 2 , 3 5 m m .
E s t o está c l a r o , d a d o q u e l a m e d i d a d e 1 2 , 2 i m p l i c a r í a c o n s i g o límites
r e a l e s de 1 2 , 1 5 y 1 2 , 2 5 m m . ¿ E n t o n c e s , p u e d e c u a l q u i e r a p r e g u n t a r s e ,
c a e r a u n a m e d i d a exacta de 1 2 , 2 5 ? ¿ N o t e n d r í a i g u a l e s p o s i b i l i d a d e s de
s e r e s c o g i d a e n c u a l q u i e r a de l a s d o s c l a s e s 1 2 , 3 y 1 2 , 2 c r e a n d o d e e s t a
m a n e r a un e s t a d o i n s a t i s f a c t o r i o e n el m é t o d o ? Lo m i s m o o c u r r i r í a c o n
u n a m e d i d a de 1 2 , 3 5 m m . ¿ D o n d e l a c l a s i f i c a r í a m o s , e n l a c l a s e 1 2 , 3 d e s d e
2 , 2 5 h a s t a 1 2 , 3 4 9 9 9 9 . . . , a s í c o r n o l o s d e 1 2 , 2 entre 1 2 , 1 5 y 1 2 , 2 4 9 9 9 . . . . .
09
Biocstadisuca
Con error y no
No exacto
1 9 3 , 5
192, 85
192, 765
Sin error, pero no
preciso :::::No exacto
192, 5
192, 75
192 , 7 5 5
192 , 3
192, 8
192, 76
G.
Con error. pero
= No exacto
Sin error y
.A.
J O
Figura 1.2. Diferencias entre error, precisión en la toma de datos
Una regla fácil de recordar, es que el número de pasos de una unidad desde
la más pequeña hasta la más grande de las medidas de una ordenación
debería estar comprendido entre 30 y 3 0 0 . A continuación se presenta en
forma de figuras las diferencias entre precisión y exactitud.
Límites reales
Tal argumento es correcto, pero cuando registramos un número como
. 1 2 , 2 o 12,3 denotamos que la decisión, por supuesto, no es arbitraria, sino
que está basada sobre la medida más válida. Si la escala de medidas es tan
precisa que un valor de 1 2 , 2 5 fuese claramente reconocido, entonces la
medida debería registrarse originalmente con cuatro cifras significantes.
Los límites reales, por consiguiente, tienen una cifra más que la última
cifra significante medida por el observador.
.il. Canales G.
1.4. PARÁMETRO Y ESTADIGRAFO
Bioes tadis tica
¡
¡
¡
J
Parámetro
Es un número que describe alguna característica de la población y para
determinar su valor es necesario utilizar la información poblacional
completa, y por lo tanto, las decisiones se toman con certidumbre total.
Estadígrafo
Es un número que se obtiene a partir de los datos muestrales y describe
alguna característica de la muestra y la toma de decisiones contiene un
grado de incertidumbre.
1.5. ESTÁDÍSTICA DESCRIPTIVA E INFERENCIAL
Estadística: Es la aplicación de los conocimientos de la matemática con la
finalidad de recolectar y analizar datos para obtener información.
Bioestadistica
Está relacionado a la recolección y análisis de datos biológicos o variables
biológicos. Ejemplos: peso, talla, temperatura, número de especies,
individuos, número de enfermedades, número de bacterias, entre otros.
Estadística descriptiva
Trata de la recopilación, clasificación, presentación y descripción de los
datos. No es recomendable utilizar ésta estadística para analizar
diferencias. Hay dos clases de estadística descriptiva, los estadísticos
centrales o de localización y estadísticos de dispersión. Los estadísticos
centrales señalan la posición de una muestra de dimensión dada. Por lo
tanto, un estadístico central debe poseer un valor representativo para la
masa de observaciones.
Estadística inferencial
Nos proporciona la teoría para tomar decisiones frente a la incertidumbre
o afirmar algo acerca de la población a partir de los datos bajo estudio.
Esta estadística, es la que debe de emplearse en trabajos de investigación
y para publicaciones en revistas científicas.
1.6. CICLO METODOLÓGICO
Cuando no sea posible obtener una información completa de la población,
se extraen muestras representativas de dicha población mediante las
1 1
12
Este ciclo se cumple en la mayoría de los trabajos de la bioestadística.
Muestra
0
.
Bioestadística inferencia!
Técnicas de muestreo
Bioestadistica
���-��������·
Provincias Mujeres Hombres
Ayaviri 40 2 0
Azángaro 3 0 2 0
Huancané 6 4
Julia ca 80 70
Puno 1 0 0 80
Otros 5 4
POBLACIÓN
_11. Canales G.
Cuadro 1 . 1 . Procedencia de los Estudiantes de la Facultad de Ciencias
Biológicas de la UNA Puno (2007).
Figura 1.3. Ciclo metodológico de la bíoestadístíca inferencial.
La recolección de los datos, es en forma desordenada, luego procedemos a
ordenarlo y una vez ordenada, procedemos a presentar en forma de
figuras, cuadros y tablas. En este proceso interviene el ciclo metodológico.
Ejemplo:
técnicas de muestreo y en base al estudio o información obtenida de los
. datos muestrales se toman decisiones frente a la incertidumbre, o se
afirma algo acerca de la población total con ayuda de la bioestadística
í n f e r e n c i a l .
iL Canales G. Bioestadistica
1
1
l
1
J
Figura 1.4. Representación en forma de barras de los datos
numéricos de alumnos de la FCCBB-UNA Puno
1.7. VARIABLES
Qué es variable.
Una variable es una propiedad con respecto a la cual los individuos de una
muestra se diferencian en algo verificable y medible. Si la propiedad no
diferencia a los individuos de la muestra bajo estudio, o al menos a las
muestras que han sido estudiadas, p u e d e no s e r de interés estadístico.
Conservándose uniforme, tal propiedad no sería una variable en el
sentido etimológico de la palabra, y p o r tanto, ni siquiera debería ser
llamada así.
Las variables a d q u i e r e n valor para la investigación científica cuando
pueden ser relacionadas con otras (formar parte de una hipótesis o una
teoría).
P o d e m o s dividir variables biológicas como sigue:
13
14
Ejemplos de variables continuas: longitudes, áreas, volúmenes, pesos,
ángulos, temperaturas, períodos de tiempo, porcentajes.
Variables mensurables.
Son todas aquellas cuyos diferentes estados pueden ser expresados de
una manera numérica. Podemos establecer una división en dos clases:
Bioes tadistica_.A. Canales G.
b. Variables discontinuas. discretas o merísticas.
En contraste con las variables continuas existe otro tipo llamado de
variables discontinuas, conocidos también como variables discretas o
merísticas. Éstas son variables que poseen únicamente algunos valores
numéricos fijos y además no pueden tomar valores intermedios entre
dichos valores fijos.
Por ejemplo, entre las medidas longitudinales, 1,5 y 1,6 cm hay un número
infinito de longitudes que podrían ser medidas, si se tuvieran un método
de calibración suficientemente preciso para obtener tales medidas.
a. Las variables continuas
Las cuales teóricamente pueden alcanzar un número infinito de valores
entre dos puntos fijos cualesquiera.
Variable ordinal o atributo
Algunas variables no pueden ser medidas, pero pueden ser ordenadas y _
clasificadas por su magnitud. Así, en un experimento se puede clasificar
ordenadamente la emergencia de 10 pupas sin especificar la hora exacta
en la que cada pupa emergió. En tales casos, registramos los datos como
una variable ordinal, que es el orden de emergencia.
Así el número de artejos del apéndice de un insecto dado puede ser 4; 5 ó 6
pero nunca 5,5 ó 4,3. Ejemplos: El número de una cierta estructura
(segmentos, cerdas, dientes ó glándulas), el número de vástagos o prole, el
número de colonias de microorganismos, animales, número de plantas en
un área determinada, entre otros.
Cualquier lectura de una variable continua, tal como de la longitud
1,5 7mm, es desde luego una aproximación a la lectura exacta, la cual en la
práctica es incognoscible. Para medir este tipo de variables se utiliza
equipos e instrumentos.
...4. Canales G. Bioestadisuca
Las variables que no pueden ser medidas, pero que puede expresarse
cualitativamente, reciben el nombre de atributos.
Todas ellas son propiedades, tales como blanco o negro, preñada o no
preñada, vivo o muerto, macho o hembra. Cuando tales atributos
aparecen combinados con frecuencias pueden tratarse estadísticamente.
De 80 ratones, podemos establecer que cuatro de ellos son negros y el
resto grises. Cuando los atributos se combinan con frecuencias en cuadros
adecuados para su tratamiento, nos referimos a ellos llamándoles datos
de enumeración.
Así, los datosde enumeración sobre el color de los ratones, se dispondrían
como siguen:
Color
Negro
Gris
Total
Frecuencia
4
76
80
En algunos casos, los atributos pueden convertirse en variables, si esto se
considera necesario. Así, cabe sustituir los colores por longitudes de onda
o por valores sobre una figura, los cuales son magnitudes mensurables.
Algunos otros atributos que pueden ser clasificados u ordenados, son
susceptibles de ser codificados a fin de convertirlos en variables
ordinales. Ejemplo: Los tres atributos siguientes que designaremos por
las expresiones "pobremente desarrollado", "bien desarrollado", e
"hipertrófico", podrían ser codificados convenientemente mediante las
cifras 1, 2, 3. Estos valores denotan el orden de desarrollo pero no la
magnitud relativa entre estos estados de crecimiento.
1.8 DISTRIBUCIÓN DE FRECUENCIAS
Cuando se trabaja con conjuntos grandes de datos, con frecuencia es útil
organizarlos y resumirlos por medio de la construcción de una tabla que
liste los distintos valores posibles de los datos (ya sea de forma individual
o por grupos), junto con las frecuencias correspondientes, es decir, el
número de veces que ocurren dichos valores.
Construcción de una distribución defrecuencias
1) Sean las siguientes cifras, los calificativos de un curso de bioestadística,
en el que se han evaluado a n = 56 personas, siendo la escala de evacuación
de O a 100.
15
16
Cuadro 1 . 3 . Ordenamiento de datos del menor al mayor
BioestadisttcaA.. Canales G.
Existen relaciones que no se perciben y para poder percibirlas se
clasificarán los 56 datos en grupos o conjuntos, que en lenguaje
bioestadístico se llaman intervalos de clases, según los siguientes pasos:
2) El siguiente paso es, ordenarlos sea en sentido creciente o en sentido
decreciente. En el presente ejemplo ordenaremos en sentido creciente, es
decir del menor al mayor dato.
En el cuadro ¿qué relaciones podemos distinguir entre los números?
Hay un valor menor o valor mínimo V min = 30
Existe un valor mayor o valor máximo= 9 5
Hay datos que se repiten
1 . ¿cuántas clases o intervalos necesitaremos? Para saber esto, se utiliza la
fórmula de Sturges.
Cuadro 1.2 Datos para la distribución de frecuencias
30 50 61 68 75 84
36 56 62 69 75 87
38 56 63 69 75 87
38 53 63 70 76 89
3 9 , 53 63 72 77 95
43 55 63 72 79 95
43 58 64 73 81
44 59 65 73 82
47 59 66 74 82
48 59 67 75 84
73 81 44 69 30 38
75 66 76 84 72 82
58 89 73 59 87 63
43 59 64 74 63 63
48 52 77 68 47 53
63 72 5 2 55 75 43
67 61 87 39 62
75 69 5 3 79 95
50 38 70 84 82
95 59 75 36 65
¡ '
J
I I i: >es 1 , u Iis t i ,
K = 1 + 3,3 l o g l/
En l a q u e :
K = número de intervalos o clases
N = número de datos (tamaño de la muestra)
La fórmula de Sturges, es de mucha utilidad debido a que orienta y nos da
una idea de cuantos intervalos usar, pero es una fórmula p o c o
conservadora y n o s da un número de intervalos un poco menor del q u e se
utiliza en la práctica.
En este ejemplo:
En la fórmula tenemos:
K = 1 + 3 , 3 log 5 6
K = 1 + 3,3 ( 1 , 7 4 8 )
K = 1 + 5,8
K 6,8
log 5 6 = 1 , 7 4 8
La fórmula es conservadora, entonces para obtener el número que
realmente es necesario, redondeamos al siguiente entero mayor.
K = 7
Nota: En la práctica el número de intervalos debe tomarse alrededor de
10, el número de datos con el que se trabajan, es más o menos alrededor
de 1 0 0 .
Cuando el número de datos es menor que 1 0 0 , el número de intervalos se
debe tomar menor de 1 0 . Para un número de datos bastante grande, el
número de intervalos es mayor a 1 0 , la práctica aconseja los siguientes
límites.
5 < K ;;;;,,. 1 5
Lo que quiere decir, es que se recomienda que el número de clases no debe
ser m e n o r de 5 ni mayor a 1 5 .
2 . Luego se hace el recorrido o extensión de los datos que se denota con la
letra L. Su fórmula e s :
L = valor máximo - valor m í n i m o + 1
Se debe sumar el número 1 cuando l o s datos se expresan en números
enteros, Si los datos son decimales no se toma l .
1 ''"7
� ¡
V m a x = 95
V min = 30
L = 95 - 30 +1
L= 66
Entonces la extensión o recorrido en 66.
3) La idea es resumir los valores para percibir algunas características o
propiedades de los datos, que no se notan a simple vista. Por la fórmula de
Sturges tenemos 7 intervalos, clasificando las 56 notas en 7 grupos.
El recorrido se dividiría en 7 partes iguales o intervalos.
Se debe representar el ancho o amplitud de cada intervalo con la letra C.
Este ancho de intervalo se obtiene mediante la fórmula:
L
C = ­
k
Los valores L y K son conocidos: L = 66 y K = 7.0
Aplicando los datos en la fórmula anterior tenemos:
66
e = - = 9 43
7 1
Redondearemos a 1 O.
El entero inmediato inferior a 10 es 9, y no es conveniente porque el
recorrido de trabajo será:
I = c x K = 9 x 7 = 63 esto daría lugar a que el dato 95 se encuentre fuera de
este recorrido.
Luego C = 10 y por lo tanto el recorrido de trabajo obtenido como
consecuencia de redondear 9.43 a 10 será:
T = c x K = 10 x 7 = 70
� L Canales n. Bioe« uulistica
. 4) Teniendo en cuenta que este recorrido es mayor que el recorrido
original buscaremos el exceso:
Exceso= 7 0 - 76
E x c e s o = 4
El exceso proviene de haber aumentado la amplitud de cada intervalo de
9,43 a 1 0 .
Para buscar la simetría de la distribución de los datos, debemos repartir
este exceso a los dos extremos del recorrido original, mitad para cada
l a d o . vl + Z
Restamos 2 al valor mínimo y sumamos 2 al valor máximo.
9 5 + 2 = 9 7
3 0 - 2 = 2 8
A partir del valor obtenido 2 8 agregamos sucesivamente la amplitud 1 0 y
así obtenemos dos puntos de división que determinan los 7 intervalos
(ver figura)
1 8 38 48 58 68 -g 88 98
Pero se presenta una dificultad cuando algunos de los datos coinciden con
cualquiera de los puntos en división como son:
38, 48, 5 8 y 68
Supongamos que un dato es 3 8 ¿dónde lo colocamos? ¿ E n el primer
intervalo de cuyos extremos son 2 8 y 3 8 ? ó ¿en el segundo que tienen los
extremos 3 8 y 48?
19
Intervalos o clases
El siguiente intervalo [ 3 8 , 4 8 ] > al número 3 8 pero no al 48.
Bioesuuiisticc:
Intervalos o c l a s e s
2 8 � 3 8
3 8 � 4 8
4 8 - 5 8
5 8 - -> 6 8
68 ->78
7 8 · --> 8 8
8 8 - -.. 9 3
Intervalos o c l a s e s
[ 2 8 - 3 8 >
[ 3 8 - 4 8 >
[ 48 - 5 8 >
[ 5 8 - 68>
[ 68 - 7 8 >
[ 78 - 8 8 >
[ 88 - 9 8 >
• l . Canalc« G.
Para hacer más sencilla la representación de los intervalos en la c o l u m n a
matriz, reducimos el tamaño del corchete y del paréntesis a n g u l a r " > " y lo
colocamos entre dos números, y escribimos 2 8 -
4
3 8 en vez de [ 2 8 - 3 8 > .
Para despejar esta duda adoptaremos por acuerdo, el intervalo
cerrado por la izquierda, que incluye el número 2 8 (extremo inferior
del intervalo) y abierto por la derecha que no incluye el número 38
(extremo s u p e r i o r del intervalo). En el lenguaje matemático, un
intervalo de este tipo se representa por el símbolo [ 2 8 , 3 8 > . El número
3 8 s ó l o sirve de frontera superior para indicar que el intervalo puede
contener números anteriores a 3 8 , pero no al 3 8 . Por ejemplo, podrá
contener el número 3 7 , 9 9 9 , pero nunca llegará a i n c l u i r el número 3 8 .
E n la práctica, los intervalos deben colocarse unos debajo del otro,
formando una c o l u m n a base o c o l u m n a matriz, que dará origen a la
distribución de frecuencias. E j e m p l o s :
Procediendo en forma similar para los otros intervalos, se obtiene la
columna matriz que se presenta en el cuadro anterior.
5) El siguiente paso de este proceso de resumen, es ponernos de acuerdo
que todos y cada uno de los datos que se halle dentro de un mismo
intervalo, estén r e p r e s e n t a d o s p o r un m i s m o valor. Este valor
caracterizan a la clase y por eso se llama marca de clase, la m i s m a que se
obtiene promediando los extremos de cada intervalo.
20
, l . Ccu 1.11 lcs ( · D i r 1 f ' S l . 1 u l i s ,
Las marcas de clase de los 7 intervalos son:
2 8 + 38 = 3 3 48 + 5 8 = 5 3 68 + 78 = 73 88 + 98 = 9 3
2 2 2 2
3 8 + 48 = 43 58 + 68 = 63 78 + 88 = 83
2 2 2
Otra manera de obtener la marca de clase, es promediar los extremos del
primer intervalo (28 + 38) "'"" 2 = 3 3 y a continuación sumar la amplitud 1 0 ,
para de esta manera obtener la marca de clase del segundo intervalo que
es 33 + 10 = 43 . Es decir, colocar cada uno de los datos en el intervalo que le
corresponde. A medida que asignemos un dato a un intervalo anterior que
es 43 más la amplitud 10, obteniendo 53, que es .la marca de clase del
tercer intervalo y así podemos continuar hasta acabar con el séptimo
intervalo.
6) Ahora llevaremos a cabo la clasificación y el conteo de los datos, es
decir, colocar cada uno de los datos en el intervalo que le corresponde. A
medida que asignemos un dato a un intervalo representaremos en la
columna de conteo por medio de un palote. Una vez que hemos acabado
de asignar todos los datos a un intervalo determinado, todos ellos estarán
representados por la marca de clase de dicho intervalo. De esta forma,
después de ordenar los datos en forma creciente (también se puede hacer
todo el proceso de construcción de la distribución de frecuencia con los
datos ordenados en forma creciente, lo que dará lugar a otro tipo de
distribución de frecuencias). Tal como están en el cuadro anterior,
tomamos como primer número 30, que está entre 28 y 38, es decir,
pertenece el primer intervalo, a continuación marcamos un palote en la
columna de conteo.
El segundo número 36 también pertenece al intervalo 28 - 38, por lo
tanto marcamos otro palote en el mismo casillero que le corresponde en la
columna de conteo, y así sucesivamente hasta llegar al penúltimo número
89 que pertenece al intervalo de 88 - 98, luego marcaremos un palote e n ·
el casillero de ese intervalo en la columna de conteo y por último el dato 95
que también pertenece a ese intervalo, para el que asignaremos un palote
en el casillero correspondiente de la columna de conteo.
2-1
' S Í U C / l s ! Ü ' U
Cuadro 1.4 Cuantificación y conteo de datos
Intervalos Marcas de clase Conteo Frecuencias
28 ----> 3 8 3 3 1 1 2
38 ->48 43 I I I I I I I 7
4 8 -----> 5 8 53 I I I I I II 7
5 8 - • 6 8 63 I I I I I I I I 11 1 I I I 14
6 8 - > 7 8 I I I II I I I 1 1 I I I I I 1 5
78 --->88 83 I I J I I I I I 8
8 8 -----> 9 8 93 I I I 3
n 56
Contando el número de palotes del primer intervalo, obtenemos dos
palotes, lo que escribimos en la columna de frecuencias con el número 2,
en el segundo intervalo obtenemos 7 palotes lo que expresamos
escribiendo el número 7 en la columna de frecuencias.
A continuación resumimos los pasos (5), (6) y (7) en el Cuadro 1 . 5 , al que
se denomina cuadro de distribución de frecuencias absolutas.
Cuadro 1.5. Distribución de frecuencias absolutas
Intervalos Xi Fi
2 8 - - J. 3 8
3 3 2
3 8 --),48
43 7
4 8 - 5 8
5 3 7
5 8 ---> 68
6 3 1 4
6 8 - 7 8
7 3 1 5
78 -+88
83 8
88 -�98
9 3 3
n == 5 6
El subíndice i es una variable entera que indica un intervalo determinado
y por lo tanto, en este caso, debe variar desde 1 hasta 7 (1 1, 2, 3, 4, 5, 6 y
7).
..J . Canales. G. Bioesuulistica
------------- .-- . .-·-· . ----- · - · - - - -
- Lu e g o :
Xl = 3 3
X2 43
X3 5 3
X4 = 63
X = 9 3
f1 = 2
f2 = 7
f3 = 7
f4 = 1 4
f = 3
Interpretación del cuadro de distribución defrecuencias
Las frecuencias van cambiando a partir del valor 2 en el primer intervalo o
clase, hasta alcanzar los valores mayores: 14 y 1 5 en los intervalos que
están en la parte central de la columna de frecuencias. Al continuar
creciendo la variable x, la frecuencia comienza a disminuir hasta llegar al
valor 3, en el extremo inferior. Esto significa que hay pocos alumnos que
tiene calificativo menor y también que hay pocos alumnos que tienen
calificativo mayor. Así mismo, gran parte del número de alumnos tienen
calificativos intermedios.
Ejemplo 1 . 1 . Sean los siguientes pesos d e n = 50 personas tomadas de un
gimnasio, el peso está expresado en kilogramos.
73 1 0 2 9 0 97 98 1 0 6 1 0 8 93 87 88
1 0 0 8 7 1 0 4 85 90 95 80 98 82 98
1 0 4 1 1 2 90 98 1 0 1 94 1 0 5 98 93 82
9 1 84 93 88 97 1 0 3 84 1 0 5 92 1 1 4
96 1 0 0 1 0 4 9 6 1 0 1 75 93 82 1 0 0 9 5
1) Construir un cuadro de distribución de frecuencias.
Cuadro 1.6. Ordenamiento de datos en forma creciente
73 82 87 90 93 96 98 1 0 0 1 0 3 1 0 5
75 84 88 9 1 93 96 98 100 1 0 4 1 0 6
80 84 88 92 94 9 7 98 1 0 1 1 0 4 1 1 2
82 85 90 93 9 5 97 98 1 0 1 104 1 1 2
82 87 90 93 9 5 98 1 0 0 1 0 2 1 0 5 1 1 4
.28
. J . Canales U. Bio-stcuiissica
2) Calculamos el número de intervalo mediante la fórmula de Sturges
K = 1 + 3,33 log n
K = 1 + 3,3 log 5 0
K = 1 + 3,3 (1,69)
K = 1 + 5 , 5 8
K = 6,58
Como la fórmula de Sturges es un poco conservadora, nos dará un valor
algo m e n o r del necesario, luego redondearemos este valor al entero
inmediato superior.
. K = 7, entonces tendremos 7 intervalos o clases
3) Luego determinaremos el recorrido de extensión de los datos
mediante la siguiente fórmula.
I = valor máximo valor m í n i m o + 1
Valor máximo = 1 1 4
Valor m í n i m o = 7 3
1 = 1 1 4 - 7 3 + 1 = 4 2
4) C o m o con la fórmula de Sturges hemos obtenido 7 intervalos o clases,
tendremos que dividir el recorrido en 7 partes iguales o 7 intervalos.
En la fórmula I = c x k, ya sabemos que I = 42 y K = 7, entonces la amplitud
de cada uno de los intervalos, que llamaremos c será:
1 42
c = - = - = 6
K 7
5) Ahora elaboraremos la columna matriz o columna base de la
distribución de frecuencias.
Comenzaremos a construir el primer intervalo, para lo cual sumamos la
amplitud 6 al valor mínimo, que será el extremo inferior de l primer
intervalo, obteniendo de este modo el extremo superior del primer
intervalo:
Extremo inferior+ amplitud= 73 + 6 = 7 9
Obtenernos de este modo el primer intervalo 7 3 --. 7 9
24
_A. Canales G. Bioestadistica
Para el segundo_intervalo tomaremos como número menor 85 y como
número límite superior 85 + 6 = 9 1 , procediendo en la misma forma para
los demás intervalos, obtenemos el cuadro. Estos intervalos forman la
columna matriz, que se encuentran en el cuadro y es la que se muestra en
el siguiente cuadro de distribución de frecuencias.
+H -H+H-
73 7JJ 85 j'1 lp. 103 101 1 1 �
Observamos. que en los intervalos son del tipo semi-cerrado, luego el
primer intervalo: 73-> 79, contiene como propio al número 7 3 , pero no
contiene el número 79, el cual sirve sólo de referencia superior; puede
contener el número 78,78 o el número 7 8 , 9 9 8 pero no al 7 9 . El siguiente
intervalo si contiene el número 79, como propio, pero no el número 85
que sólo le sirve de referencia superior.
Intervalos
73 ----+ 7 9
79 ----+ 8 5
85 ----+ 9 1
9 1 ----+ 9 7
97 ----+ 1 0 3
1 0 3 ----+ 1 0 9
1 0 9 - 1 1 5
6) A continuación convenimos en que todos y que cada uno de los años
que se hallan dentro de un mismo intervalo, estarán representados por el
mismo valor que se denomina marca de clase. Las marcas de clase se
obtienen promediando los extremos del intervalo.
Las marcas de clase de los 7 intervalos serán:
73 + 79 = 76 85 + 91 = 88 97 + 1 0 3 = 100 109 + 115 = 1 1 2
2 2 2 2
79 + 85 = 82 2.1±_97 = 94 1 0 3 + 109 = 106
2 2 2
Nótese que las marcas de clase se podrían obtener promediando los
extremos del primer intervalo (73 + 79)/2 = 76 y luego, procediendo a
sumar sucesivamente la amplitud seis. Así, para el segundo intervalo
25
26
BioestadisticaA:. Canales G.
Cuadro 1 . 7 . Intervalos, conteo y frecuencias
Después el valor 8 0 que pertenece al intervalo 79 - 8 5 , entonces
d i b u j a m o s un palote en el segundo casillero de la c o l u m n a de conteo y así
continuamos dibujando palotes en l o s casilleros d e la columna de conteo,
hasta llegar al penúltimo dato 1 1 2 que pertenece al intervalo 1 0 9 - 1 1 5 .
Luego dibujamos un palote en el último intervalo de la columna de conteo
y por último tenemos el valor 1 1 4 , que también pertenece al último
intervalo, p o r lo tanto dibujamos un palote en el último casillero de la
columna de conteo.
7) En el siguiente d e b e m o s realizar la clasificación y conteo de los datos, o
sea colocar cada uno de ellos dentro de su restrictiva clase, representando
cada dato por un palote. D e esta manera centramos nuestra atención, en
los datos o r d e n a d o s en forma creciente y así vemos que el primer número,
el 7 3 , pertenece al primer intervalo: 7 3 - 79, luego dibujamos un palote
en el primer casillero de la columna de conteo. A continuación en el
número 7 5 q u e también perítense al primer intervalo, dibujamos un
palote en el primer casillero de la columna de conteo.
tenemos la marca de clase del primer intervalo más la amplitud 6 : 7 6 + 6 =
8 2 , para el tercer intervalo tendremos 8 2 + 6 = 88 y así hasta la marca de
clase del séptimo intervalo.
Luego contamos el número de palotes en cada casillero de la columna de
conteo y lo expresamos en una columna adicional, que será la columna de
frecuencias. Para el primer casillero tenemos 2 palotes, le corresponde la
frecuencia 2 , para el segundo tenemos 6 palotes, le corresponde la
frecuencia 6 . Así continuamos hasta el último casillero, tenemos 8 palotes
que lo expresamos con la frecuencia 8 y el último que tiene 2 palotes lo
expresamos con el 2 .
Intervalos Conteos Frecuencias
73 --> 7 9 l I 2
79 --> 8 5 I I I I I I 6
85 -->91 I I I I I I I I 8
9 1 --.. 97 lI I I I II III I 1 1
97 ··-, 103 I I I I I II I I I I I I 1 3
1 0 3 - � 1 0 9 I I I I I I I 8
1 0 9 --> 1 1 5 II 2
n = S O
:1
l
·i;.,
'i
'
¡ : ¡
n
H
l
¡ :
' : l
,1
'l
1 .
¡
¡
1
 j '
1 1
 i
111
l
: ¡
¡"

1
!
l:l. Canales G. Bioestadistica
Por último, resumimos los pasos (5), (6) y (7) en el siguiente cuadro de
distribución de frecuencias:
Cuadro 1.8. Intervalos, marcas de clase y frecuencias
Intervalos Xi Frecuencias
7 3 - 7 9 76 2
7 9 - 8 5 82 6
8 5 - 9 1 88 8
9 1 - 9 7 94 1 1
97 - 1 0 3 1 0 0 13
103 +: 109 106 8
109 -> 1 1 5 1 1 2 2
n = SO
EL subíndice i aparece en el encabezamiento de la columna Xl y de la
columna fi, es una variable entera cuyos valores son:
i = 1 , 2 , 3 , 4 , 5 , 6 y 7
Xl = 7 6
X2 = 82
X3 = 88
X 7= 1 1 7
1.9 REPRESENTACIÓN GRÁFICA DE DATOS
f1 = 2
f2 = 6
f3 = 8
f 7= 2
Histogramas
Entre los distintos tipos de figuras, los histogramas son particularmente
importantes.
El histograma es una figura de barras, en donde la escala horizontal
representa clases de valores de datos y la escala vertical representa
frecuencias. Las alturas de las barras corresponden a los valores de
frecuencias, en tanto que las barras se dibujan de manera adyacente (sin
espacios entre ellas).
El histograma no es adecuado para determinar si hay cambios a lo largo
del tiempo.
27
_,A. Cuna/es
Bioesuulisiicc:
En la Figura 1.5, se presenta un histograma que corresponde a la
distribución de frecuencia del Cuadro 1 . 5 .
La altura de los puntos corresponde a las frecuencias de clase, en tanto
que los segmentos lineales se extienden hacia la derecha y la izquierda, de
manera que la figura inicia y termina sobre el eje horizontal.
9888786848 58
Figura 1 . 5 . Histograma de frecuencias
28 38
15
Polígono defrecuencias
EL polígono de frecuencia, utiliza segmentos lineales conectados a
puntos que se localizan directamente por encima de los valores de las
marcas de clase.
AsC para el intervalo 28 -�38 le corresponde la altura de 2 (frecuencia). De
esta forma, dibujamos un rectángulo cuya base es el intervalo 28 --� 38 y
cuya altura es 2. Para el siguiente intervalo de frecuencias 38 - - > 48 le
corresponde la altura 7. Para el siguiente intervalo 48 --> 58 tendremos un
rectángulo cuya base es dicho intervalo y cuya altura es el valor 7, porque
7 es la frecuencia que corresponde a ese intervalo. Así procedemos a
dibujar los demás rectángulos hasta llegar al intervalo 88 ---> 98 que se
toma como base del último rectángulo, siendo su altura 3.
Comenzaremos determinando las escalas horizontal y vertical. Luego
sobre el intervalo 88----> 96, dibujamos un rectángulo cuya base es el
rectángulo 8 8 ---> 9 6 y la altura es la frecuencia 5, de esa forma continuamos
hasta el último intervalo y obtenemos la Figura 1 . 6 .
Bioestodistica
f
15
9
6
3
O X
88 96 104 112 120 128 136 144
.A. Canales G.
Figura 1.6. Histograma de frecuencias y polígono de frecuencias
Observación
Si unimos los puntos de la línea superior de cada uno de los rectángulos de
un histograma de frecuencia obtendremos el polígono de frecuencias
correspondiente a la misma distribución de frecuencias.
Ejercicios de polígonos e histogramas defrecuencias
En el papel milimetrado dibujar los polígonos y los histogramas de
frecuencias de las distribuciones de frecuencias.
14
Frecuencias
absolutas
n
10
8
6
4
2
o
/
..___._ .........._Intervalos
..3 79 85 91 �r 103 109 115
Figura 1.7. Polígono de frecuencias absolutas e intervalos
29
;L Canalc» Biocstcu lis iico
3
38 46 62 70 78
Figura 1.8. Polígono de frecuencias absolutas e intervalos
Ahora, realizaremos una figura . c o n barras para las frecuencias
porcentuales. Primero elegiremos la escala horizontal, sistema de
coordenadas rectangulares, señalamos las categorías en el eje horizontal,
y en el eje vertical colocamos la frecuencia absoluta.
Escala horizontal
1 distancia 1,2 cm
Donde la distancia será la separación que hay en el eje horizontal entre
cinco categorías (casados, solteros, divorciados, viudos y categorías de los
que no declaran). No hay ninguna regla particular que señale la magnitud
de la distancia. Como hay 5 categorías, el tamaño de la base será:
B a s e = 5 x 2cm = 10cm.
Determinación de la escala vertical.
Como la altura debe ser % de la base, tendremos:
Altura= .3. ( b a s e ) = .3. ( 1 0 c m ) = 3 0
4 4 4
7,Scm
Por lo tanto la altura máxima de la figura será 7,Scm, hacemos el siguiente
razonamiento:
A Canales G.
(Altura máxima) 7,Scm __ 25 unidades de frecuencia
lcm x
lcm * 2 5 u . d. f
X = = 3 , 3 3
7,Scm
Escala vertical
Bioesuulisiica
lcm = 5 u.d.f.
Luego en la escala vertical para cada cm le corresponde 5 unidades de
frecuencia absoluta (u.d.f.). Se ha aproximado a S por comodidad porque
este número ofrece facilidades para trabajar en el papel milimetrado.
Así, para el valor 2 5 u.d.f. trazamos una línea horizontal, hasta cortar la
barra levantada por la categoría casado, quedando de este modo
determinada la altura de la barra.
e s o V NO
/
. 1
. • 1
Figura 1.9. Barras con frecuencias absolutas de las cinco categorías
1 . 1 0 PROBLEMAS PROPUESTOS
1 . Haga un listado de 20 variables continuas, 20 discretas y 20 atributos,
relacionados con variables estadísticas.
2. Resuelva el siguiente ejercicio de datos desordenados, recolectado de
campo sobre número de plantas silvestres en 1m2, evaluado en el cerro
Huaje de Puno.
31
A . Canales ( x .
a) Calcule los datos en un cuadro
b] Calcule cuántas clases de intervalos se requieren.
liiucstudisticn
3. Haga 1 0 ejemplos de precisión y 1 0 ejemplos de exactitud.
c) Represente en forma de figuras los resultados de los siguientes datos: S,
4 , 3 , 4 , 4 , 8 , 1 1 , 1 2 , 8 , 6 , 6 , 1 3 , 1 6 , 1 7 , 1 4 , 1 7 , 1 9 , 7 , 1 8 , 2 2 , 2 1 , 2 0 , 7 , 9 , 1 4 .
.A. Canales G.
CAPITULO II
ESTADÍSTICA DESCRIPTIVA
Bioestadistica
1
1
2 . 1 . M E D I A
2 . 2 . MEDIANA
2 . 3 . M O D A
2.4. DESVIACION ESTANDAR
2 . 5 . VARIANZA
2.6. COEFICIENTE DE VARIABILIDAD
2.7. PROBLEMAS PROPUESTOS
2 . 1 . M E D I A
La media es en la mayoría de los casos un valor no observable, viene dado
en la misma unidad de medida que la variable.
Es la más usual de las medidas de concentración y la más conocida. Es
llamada también media aritmética o promedio.
Para calcular la media se distingue dos casos:
1. Cuando los datos no están agrupados
2. Cuando los datos están clasificados, formando distribuciones de
frecuencias.
Primer caso:
Cuando los datos no están agrupados, se suman los números y se dividen
entre el número de casos.
Ejemplo 2 . 1 . Los datos son calificaciones del curso de bioestadística, de
un alumno de la Facultad de Ciencias Biológicas de la UNA Puno.
Primer examen 14
Segundo examen 1 3
Prácticas 12
Quizes 1 5
Suma total 54
Nota final (media) 54/5 = 1 3 , 5
3
0
o
.A. Canales U .
Ejemplo 2.2. Hallar la media aritmética de: 5, 7, 9, 3, 4, 6.
B i o es u ui i s ii c c :
La fórmula para calcular la media aritmética para este caso incluye el
símbolo L, que se llama sumatoria e indica operación de adición.
- 1 f,
X = � ¿ X i
i = l
Donde: i, es la variable entera que toma valores desde i = 1, i = 2, i 3 y así
sucesivamente hasta i n. Desarrollando el símbolo sumatoria tenemos:
1
X = - (x l + x2 + x3 + · . . + xn)
n
Volviendo a los datos que teníamos al comenzar el presente ejemplo
tenemos:
Nos dieron 6 números 5, 7, 9, 3, 4 y 6, entonces n = 6.
1 1
X =
6
(S + 7 + 9 + 3 + 4 + 8) =
6
(36) = 6
n
Con respecto al símbolo ¿ x¡ se dan casos en que se simplifica y se escribe
la L x 1, en vez de i X¡ • Es'to se hace cuando no hay posibilidades de crear
confusiones. issl
Ejemplo 2 . 3 . Encontrar el promedio de los siguientes datos:
15, 16, 17, 13, 9, 1 1 , 10, 1 3 , 19, 2 1
Fórmula:
n
X = �Ixi
i = L
X = 1 / 1 0 (15 + 16 + 1 7 + 13 + 9 + 1 1 + 10 + 13 + 19 + 21) 14.4
Segundo caso:
Cuando los datos están agrupados formando cuadros de frecuencias, se
utiliza la fórmula:
""' f. X .
X == L.. 1 1
n
/1. Canales G.
x: Media aritmética
f : frecuencia de cada dato.
X;: cada uno de los datos
BirJcstadistfr·a
Ejemplo 2.4. Datos de la longitud de las de una muestra de población de
mariposas. Calcular la media aritmética.
X¡ (cm) f¡ f¡X¡ (cm)
3,3 1 3 , 3
3,4 o o
3,5 1 3 , 5
3,6 2 7,2
3 , 7 1 3 , 7
3,8 3 1 1 , 4
3,9 3 1 1 , 7
4,0 4 1 6 , 0
4 , 1 3 1 2 , 3
4,2 2 8,4
4,3 2 8,6
4,4 1 4,4
4,5 1 4,5
6Íi = 24 I=:LX¡ = 9 5 , 0
¿f¡ = n = 24
_ 95,0cm
X = = 3 96cm
24
1
Propiedades de la media
1) La suma algebraica de las desviaciones de un conjunto de valores con
respecto a su medía aritmética es O.
Explicación
Sean los números: 1 5 , 2 , 1 0 , 8 , 9 y 7
Su media aritmética:
( 1 5 + 2 + 1 0 + 8 + 9 +7) + 6 = 5 1 + 6 = 8.5
Bioestadistica
Las ideas con los números 12, 5, 7, 8.
2) La suma de los cuadrados de las desviaciones de un conjunto de
números: xl x2 x3 . . . xn con respecto a su media x, es mínimo.
Explicación
Esta propiedad significa que si calculamos la suma de los cuadrados de las
desviaciones con respecto con respecto a otro número cualquiera a,
diferente de la x y comparamos con la suma de cuadrados de Ias
desviaciones con respecto a la media, comprobaremos esta última es
menor.
Primero: calcularemos las desviaciones con respecto a la media.
Su media es: (12 + 5 + 7 + 8) + 4 = 3 2 + 4 = 8, es decir X = 8 sus desviaciones
con respecto a la media son:
1 2 - 8 = 4; 5 - 8 = -3 7 - 8 = 1 8 - 8 = O
La suma de los cuadrados de estas desviaciones es:
4
2
+ (-3)2 + 0
2
= 16 + 9 + 1 + o = 26
Segundo: Calculemos las desviaciones con respecto a cualquier otro
número: 10
(2)2 + (-5)2 + (-3)2 + (-2)2 = 4 + 2 5 + 9 + 4 = 42
Comparando 1 y 2 vemos que:
2 6 < 42, lo que verifica la propiedad.
Sus desviaciones con respecto a la media son:
( 1 5 - 8.5), (2 - 8.5), (10 - 8.5), (8- 8.5), ( 9 - 8 . 5 ) , (7 - 8.5), la suma es:
( 1 5 - 8.5) + (2 - 8.5) + ( 1 0 - 8.5) + ( 8 - 8.5) + (9 - 8.5) + (7 - 8.5) = 6 . 5 - 6.5 +
1 . 5 - 0 . 5 + 0 . 5 - 1 . S = O
Usos de la media
1.- La media de la muestra se usa cuando se necesita una medida de
tendencia central que no varíe mucho entre una y otra muestra extraída
de la misma propiedad, esta es la razón para preferirla, cuando se desea la
máxima confiabilidad en la estimulación de la media poblacional.
2.- También se usa la media cuando la distribución de frecuencias de los
datos es simétrica o tiene poca asimetría. Igualmente cuando se aproxima
a la distribución normal de probabilidades porque esta distribución es
simétrtca.
A . Canales G. Bioes tadis Ucu
3.- Se calcula la media, varianza o la desviación estándar (según medidas
de variabilidad que se estudiarán).
Ejercicios para calcular la media aritmética
Hallar la media aritmética de los siguientes datos:
a) 1 2 , 1 4 , 1 � 9 , 1 4 , 1 2 , 1 3 , 1 8 , 2 1
b) 2 2 , 24, 30, 19, 18, 2 2 , 3 3 , 28, 26, 3 2
Calcule la media aritmética para las siguientes distribuciones de
frecuencias.
Intervalos Frecuencia
2 8 - 3 8 7
3 8 - 4 8 4
4 8 - 5 8 1 2
5 8 ->68 5
68 -;,.78 9
7 8 - 8 8 1 3
8 8 - 9 8 4
Intervalos Frecuencia
88 -¿ 9 6 2 1
9 6 ->104 1 5
1 0 4 - 1 1 2 2 5
1 1 2 - 1 2 0 1 6
1 2 0 - 1 2 8 1 1
1 2 8 - 1 3 6 1 3
1 3 6 - 1 4 4 2 2
¡
2 . 2 . MEDIANA
La mediana es el punto que divide la distribución de los datos en dos
partes iguales. Por debajo de la mediana estará la mitad del número de
casos y por encima de ella estará la otra mitad. La mediana se designa con
el símbolo Md.
Se presentan dos casos
1. Cuando los datos no están agrupados
2. Cuando los datos están clasificados, formando distribuciones de
frecuencias.
Primer caso
a) Cuando el número de elementos de la clasificación es impar.
Ejemplo 2 . 5 .
3, 8, 56, 14, 26, 3 1 , 2, 7, 52 hay nueve elementos.
Lo primero que se hace es ordenar los datos en forma creciente (también
se podría ordenar en forma decreciente).
Ejemplo 2.6.
38, 56, 87, 2 2 , 15, 90, 43, 33
Ordenamos: 1 5 , 2 2 , 3 3 , 39, 43, 56, 87, 90
Bices iad is cicaG..iL
39 + 43
Md = = 4 1
2
Vemos que hay dos valores centrales, la mediana será la media de esos
valores centrales.
2, 3, 7, 8, 14, 24, 3 1 , 52, 56
La mediana es el número que ocupa el centro de la distribución.
Observamos que hay cuatro valores menores que 14 y 4 valores mayores
que 14, entonces la mediana es 14.
B) Cuando el número de elementos de la distribución es par.
Segundo caso
Ejemplo2. 7. Calcular la median de la distribución de valores.
i·
1 ·
:j
i
1
!
j
Intervalos fi Fi
i = 1 2 8 --" 3 8 2 2
i = 2 3 8 --" 4 8 7 9
i = 3 4 8 --" 5 8 7 16
i = 4 5 8 --" 6 8 14 30
i = 5 68 ->78 15 45
i = 6 7 8 - 8 8 8 53
i = 7 88 ->98 3 56
n = 56
Se debe seguir la siguiente regla
1) Se obtiene las frecuencias acumuladas.
Estas frecuencias acumuladas presentan un ordenamiento de los 56
elementos de la distribución, así:
En el primer intervalo están los elementos: 1 º - 2º
En el segundo intervalo están los elementos:
3º - 4 º - 5º - 6º - 7º - 8º - 9º
En el tercer intervalo están los elementos:
1 7 º - 1 8 º - 1 9 º . . . 29º - 3 0 º
38
En la quinta clase están los elementos:
3 1 º - 3 2 º - 3 3 º . ..44º - 45º
En la sexta clase están los elementos:
46º - 47º - 48º . . . 5 2 º - 5 3 º
y en la séptima y última clase están los elementos:
54º - S S º y 5 6 º
2) Se determina la clase en donde se encuentra la mediana, para esto se
hace la división:
n 56
- = - = 28
2 2
Luego, la media no ocupa el lugar 2 8 º y por lo tanto, debe encontrarse en
la clase cuarta (i = 4) puesto que en esta clase están los elementos que
ocupan los lugares 1 7 º hasta el 3 0 º .
3) Se aplica la fórmula:
( g - Fi - 1)
Md extremo inferior+
2
fi c
Datos
Extremo inferior del intervalo (i = 4) es 58
n/2 = 29
f4 = 14 en la frecuencia del intervalo donde están Md.
C = 10 amplitud del intervalo.
Fi - 1 = F4 1 = F3 = 16, frecuencia acumulada hasta la tercera clase, es
decir, acumulada hasta la clase anterior o clase en donde está la mediana (i
= 4 ) .
Reemplazamos los datos en la fórmula y obtenemos:
(29 - 16)
Md = 56 + 10
14
M d = 56 + 9,29 6 5 , 2 9
A . Canales G.
· E j e m p l o 2.8.
n 40
- = - = 20
2 2
Luego la mediana está en la clase tercera (i = 3)
Luego se aplica la siguiente fórmula:
Btoestadistica
(� - Fi - 1)
Md
. .e . + 2
= extremointerior ---f-i--c
Intervalos fi F
i = 1 28 -> 3 8 5 5
i = 2 3 8 - > 4 8 8 13
i = 3 4 8 --> 5 8 1 5 8
i = 4 5 8 --> 6 8 3 3 1
i = 5 6 8 - > 7 8 5 3 6
i = 6 78 ->88 2 38
i = 7 88 ->98 2 40
n = 40
Datos:
Extremo inferior= 48
N/2 = 2 0
F i = f3 = 1 5
C = S
F i- 1 = F 3 - 1 = F 2 = 1 3
(20 - 1 3 )
Md = 4 8 +
1 5
8 = 5 1 , 7 3
2 . 3 . M O D A
Llamaremos moda de una distribución de frecuencias, al valor de las
variables correspondiente a la mayor frecuencia de datos o lo que es lo
mismo el valor representado o el máximo de individuos. Cuando el
número de observaciones es pequeño, no debe calcularse la moda, ya que
no puede apreciarse si existe una decidida tendencia de los valores
concentrarse en uno solo.
Si se trata de una distribución de frecuencias con datos discretos, no
agrupados, el cálculo es inmediato: basta con mirar la columna de
frecuencias absolutas, y el valor de la variable correspondiente a la
máxima frecuencia, es la moda.
40
A. Canale: G. Bioesuulistic«
.:__,:_ �_" ., �····-------------·-··-------·-----�--------------------------------------·-·--
. La m o d a de u n c o n j u n t o d e d a t o s es el v a l o r más r e p e t i d o . S e r e p r e s e n t a
. p o r el s í m b o l o M o ,
Primer caso:
1 ) D e t e r m i n a r l a m o d a d e l s i g u i e n t e c o n j u n t o d e d a t o s : 2 , 2 , 3 , 4, 5 , 6 ,
7 , 7 , 7 , 9 , 9 , 1 2 .
La m o d a e s e l n ú m e r o 7, p o r q u e s o n l o s m á s r e p e t i d o s ( 3 v e c e s ) . E s t a
d i s t r i b u c i ó n s e l l a m a u n i m o d a l , p o r q u e s ó l o p o s e e u n a m o d a .
2 ) E l s i g u i e n t e c o n j u n t o d e d a t o s n o t i e n e m o d a : 1 5 , 1 9 , 2 0 , 3 5 , 4 7 ,
5 9 , 6 5 .
P o r q u e n i n g u n o d e e l l o s está r e p e t i d o
3 ) La s i g u i e n t e d i s t r i b u c i ó n e s b i m o d a l , e s d e c i r , t i e n e d o s m o d a s : 8 ,
9 , 9, 1 3 , 1 3 , 1 3 , 1 3 , 1 8 , 2 0 , 2 4 , 2 4 , 2 4 , 3 3 , 5 9 , 7 8 , 7 8 .
M o = 1 3 y t a m b i é n M o = 2 4 .
4) La s i g u i e n t e e s t r i m o d a l : 4, 8 , . 8 , 8 , 1 5 , 1 5 , 1 5 , 2 0 , 2 0 , 2 1 , 2 1 , 2 1 , 2 1 ,
3 2 , 4 0 , 4 0 , 4 0 , 4 0 , 8 0 , 8 0 , 9 0 .
M o = 8, M o = 2 1 , M o = 4 0
Segundo caso:
C u a n d o l o s d a t o s e s t á n a g r u p a d o s f o r m a n d o u n a d i s t r i b u c i ó n d e
f r e c u e n cia s , l a m o d a s e c al c u l a p o r l a s i g u i e n t e f ó r m u l a :
Mo = Extremo i n f e r i o r + [
61
] e
61 + 62
En do n d e :
El e xt r e m o i n fe ri o r r e p r es e n t a e l v a l o r i n f e r i o r d e l a c l a s e m o d a l .
61- Re pr e s e n t a e l e xc e s o d e la fr e c u e n c ia d e l a c l a s e m o d a l , c on
r e s p e c t o a l a c l a s e c o n t i g u a p o s t e r i o r a e l l a.
62-- Re p r e s e n t a el e xc e s o d e la fr e c u e n c i a d e l a c l a s e m o d a l c o n
r e s p e c t o a la c l a s e c o n t i gu a p o s t e r i o r a e l l a .
C ---- Re pr e s e n t a a la a m pl i t ud d e c a da i n t e r v al o .
Ll am a m o s c l a s e m o d a l a qu e l l a q u e t i e n e l a m a y o r fr e c u e n c i a .
Ejemplo 2.9. E n l a d i s t r i b u c i ó n d e f r e c u e n c i a s d e l c u a d r o s ig u i e n t e,
c a l cul a r l a m o d a :
41
/L Canales G. Bioestadisuca
Extremo inferior; es el valor inferior de la clase 68 -----> 78 o clase modal,
entonces el extremo inferior es 68.
Para el cuadro de arriba (izquierda), buscamos cuál es el intervalo o clase
que tiene la mayor frecuencia, siendo 15 y corresponde a la clase 68 � 78
llamándose clase modal.
¡
1
s
:1
�
l�.
l·
�
JI
i'
Intervalos f
28 ----> 3 8 2
38 --> 4 8 7
48 ----> 5 8 7
58 ----> 6 8 14
68 ----> 7 8 1 5
78 ----> 8 8 8
88 ----> 9 8 3
Intervalos f
88 ----> 9 6
5
96 - � 1 0 4
8
1 0 4 ----> 1 1 2
1 5
1 1 2 ->120
3
1 2 0 ----> 1 2 8
5
1 2 8 - -* 1 3 6
2
1 3 6 - 1 4 4
2
LH-15 - 14 - 1; jj,2 - 1 5 -8 - 7
C - 1 0
X, Md, Mo
42
Tercero: En general la moda es la menos usada.
M o = Extremo inferior+ [ .D.i ] e
.D.1 + .D.z
Mo = 68 + [-
1-]
1 0
1 + 7
M o - 6 8 + 1 0 / 8 - 6 8 + 1 , 2 5 - 6 9 , 2 5
Mo --- 6 9 , 2 5
Segundo: Cuando se desea conocer el punto de máxima frecuencia en una
distribución asimétrica de datos, esto es el valor más repetido d e · un
conjunto de datos.
Usos de la moda
Primero: Cuando se necesita una estimación rápida de la tendencia
central.
Aplicado la fórmula:
Bioes uuiistico.
. O b s e r v a c i ó n : E n l a s d i s t r i b u c i o n e s d e f r e c u e n c i a s s i m é t r i c a s , l a s t r e s
m e d i d a s a n t e r i o r e s c o i n c i d e n :
X - M d - - M o .
Cuadro 2 . 1 . Comparación de la media, mediana y la moda
Medida Definición ¿Qué tan Existencia ¿Torna ¿Seve Ventajas y
de común es? en afectada desventajas
tendencia cuenta por
central cada valores
valor? extremos?
Media µ = í:x/n "promedio" Siempre Sí Sí Funciona
más existe bien con
conocido muchos
1
métodos
¡Mediana
estadísticos.
Valor en De uso Siempre No No Suele ser
medio común existe una buena
opción si
hay algunos
valores
extremos
Moda Valor más Se usa en Podría no No No Apropiada
frecuente ocasiones existir; para datos
podría en el nivel
haber más nominal
de una
--·
2.4 DESVIACIÓN ESTÁNDAR O DESVIACIÓN TÍPICA
La d e s v i a c i ó n e s t á n d a r d e u n c o n j u n t o d e d a t o s m u e s t r a l e s , e s l a m e d i d a
d e v a r i a c i ó n d e l o s v a l o r e s c o n r e s p e c t o a l a m e d i a . E s u n t i p o d e
d e s v i a c i ó n p r o m e d i o d e l o s v a l o r e s , c o n r e s p e c t o a l a m e d i a .
A co n t i n u a c i ó n s e c i t a p r o p i e d a d e s i m p o r t a n t e s q u e s o n c o n s e c u e n c i a d e
la forma e n q u e s e d e f i n e la d e s v i a c i ó n e s t á n d a r :
1. La d e s v i a c i ó n e s t á n d a r , e s u n a m e d i d a d e v a r i a c i ó n d e t o d o s l o s
v a l o r e s c o n r e s p e c t o a l a m e d i a .
2 . E l v a l o r d e l a d e s v i a c i ó n e s t á n d a r s s u e l e s e r p o s i t i v o . S ó l o e s
i g u a l a c e r o c u a n d o t o d o s l o s v a l o r e s d e l o s d a t o s s o n el m i s m o
n ú m e r o . A d e m á s , v a l o r e s g r a n d e s s i n d i c a n m a y o r e s c a n t i d a d e s
d e v a r i a c i ó n .
43
Calcular la desviación estándar del siguiente conjunto de números: 3, 5, 7,
1 0 , 18, 1 5 .
Aplicaremos la anterior fórmula, dónde el promedio (media aritmética)
del conjunto de números es X - 9,67
9,67)
2
Bioesuulistica
6
S = j17�34
S = � 28,56 = 5,34
44-
(-6,67)
2
+ (-4,67)
2
+ (2,67)
2
+ . . . + ( 5 , 3 3 )
2
6
4 1 , 5 + 21,8 + 7 , 1 3 + 0,11 + 69,39 + 28,41
s = 6
S =
(3 - 9,67)
2
+ (5 - 9,67)
2
+ (7 - 9 , 6 7 )
2
+ . . . + ( 1 5
S =
. A . Caruilcs G-.
3. El valor de la desviación estándar (s) se puede incrementar de
manera drástica con la inclusión de uno o más datos distantes
(valores de datos que se encuentran muy lejos de los demás).
4. Las unidades de la desviación estándar s (como minutos, pies,
libras) son las mismas de los datos originales.
s = Jí:C: X)2
Dado el conjunto de números Xi -- X2, X3, . . . Xn, donde i es una variable
entera que toma los valores 1, 2, 3, hasta n. Sea el X la media aritmética de
este conjunto de valores, entonces definimos la desviación estándar del
conjunto de números Xi, mediante la siguiente fórmula:
En donde S representa la desviación estándar, siendo la raíz cuadrada de
la suma de los cuadrados de las desviaciones de cada valor con respecto a
la media, dividida entre el número de valores. Ejemplo:
S = -) 7 0 6 , 6 9 = 2 6 , 5 8
1
S
9
( 2 5 0 3 8 ) - 2 0 7 5 , 3 1 = -) 2 7 8 2 - 2 0 7 5 , 3 1
Ejemplo 2 . 1 1 . Calcular desviación estándar del siguiente conjunto de
números, aplicando la fórmula anterior:
BicestadisticaA. Canales O.
n
1 "' -s = ; ¿ X
2
i - X
2
i = l
1
S = 1 0 ( 1 4 9 9 6 ) - 1 0 2 4 = -) 1 4 9 9 , 6 - 1 0 2 4
S = -) 4 7 5 , 6 = 2 1 , 8 0
Ejemplo 2 . 1 0 . Calcular la desviación estándar del siguiente conjunto de
números, aplicando la siguiente fórmula
-3, -22, -20, - 1 0 , 6, 9, 1 5 , 40
x - - - 1 , s 1 5 3F - 3 , 5 1 6
.í:f==l X
2
= ( - 3 ) 2 + ( - 2 2 ) 2 + ( - 2 0 ) 2 + ( - 1 0 ) 2 + 62 + 92 + 1 5 2 + 402
1
S =
8
( 2 9 3 5 ) - 3 , 5 1 6 = -) 3 6 6 , 8 1 5 - 3 , 5 1 6
S = -) 3 6 3 , 3 5 9 = 1 9 , 0 6
Ejemplo 2 . 1 2 . Calcular la desviación estándar del siguiente conjunto de
números:
3, 8, 2 5 , 40, 55, 60, 65, 73, 8 1
X - 4 5 . 5 6 x2 - - 2 0 7 5 . 3 1
Li==I X
2
-3
2
+ 82 + 2 5
2
+ 40
2
+ 5 5 2 + 6 0 2 + 6 5
2
+ 7 3
2
+ 8 1
2
- 2 5 0 3 8
� 9 . 1� 1 9 , 2 3 , 2 8 , 3 7 , 5 4 , 6 2 , 7 0
x --32 ; x
2
- 1 0 2 4
2:1':! X 2
---42 + 92 + 14
2
+ 2 3 2 + 2 8 2 + 3 7 2 + 542 + 6 2 2 + 7 0
2
= 1 4 9 9 6
. Ejercicios resueltos del cálculo de la desviación estándar para datos
no agrupados.
Bioc« (mi ís tic«
Ejemplo 2 . 1 3 . Calcular desviación estándar del siguiente conjunto de
números.
- 1 5 , - 1 2 , -3, 5, 8, 10, 16, 2 0
x - - 3 . 6 2 s X
2
- 1 3 . 1 4 1
= -} 1 5 2 . 8 7 5 - 1 3 , 1 4 1
1
s = 8 ( 1 2 2 3 ) - 1 3 , 1 4 1
S = -} 1 3 9 , 7 3 4 = 1 1 , 8 2
Ejemplo 2 . 1 4 . Calcular la desviación estándar del siguiente conjunto de
números, aplicando la fórmula
- 2 5 0 , - 1 3 4 , - 5 9 , - 3 2 , 1, 1 5 , 2 3 2 , 458
If=1
x
2
- 3 4 8 7 7 5
1
S =
8
( 3 4 8 7 7 5 ) - 8 3 3 , 7 6 = -} 4 3 5 9 6 , 8 7 5 - 833,76
S = -} 4 2 7 6 , 1 1 5 = 2 0 6 , 7 9
Cálculo de la desviación estándar para datos agrupados
Cuando los datos se encuentran agrupados formando distribuciones de
frecuencias; donde no se tiene en cuenta el número de datos que hay en
cada clase, es decir, la frecuencia de la clase. Para este caso se tiene la
siguiente fórmula.
X
2
---833,76X - 2 8 , 8 7 5 ;
S = o S =
n - 1
En donde fi representa la frecuencia de cada clase.
Ejemplo2.14. Calcular la desviación estándar de la siguiente clase de
frecuencias:
46
[fo ws uulis iica
Inte.rvalos Xi fi X i - µ (Xi - µ)2 fi(Xi - µ)2
40 --+ S O 45
3 - 1 7 , S 306,25
9 1 8 , 7 5
so --+ 6 0 SS
s -7,S 56,25
2 8 1 , 2 5
60 -->70 65
7 2,5 6,25
43,75
70 ->80 75
4 1 2 , S 1 5 6 , 2 5
6 2 5 , 0 0
80 -->90 85
1 2 2 , S 5 0 6 , 2 5
5 0 6 , 2 5
20
2 3 7 5
Según los métodos aprendidos al tratar la media aritmética, observamos
que:
- IP-1 fi * Xi 1 2 5 0
X = - n =
20
= 62,S
En la columna Xi, restamos a cada valor la media aritmética µ y
obtenemos:
45 62,5 = - 1 7 , 5
S S - 6 2 , 5 = -7,5
65 - 62,5 = 2,2
75 - 6 2 , 5 = 1 2 , 5
86 - 6 2 , 5 = 2 2 , 5
Entonces, aplicando la fórmula:
S � = S = fi18,75 = 1 0 , 9
Método clave
Todo el proceso anterior puede simplificarse utilizando el método clave,
que emplea la siguiente fórmula.
S = C ¿ fi: U 2 _ ¡z: f� * Ur
En el mismo ejemplo anterior aplicaremos el método clave en el siguiente
cuadro:
'Intervalos Xi u fi fi*u uz fi*u2
40 -->50 45 -2 3 -6 4 12
-·
50 -*60 55 -1 5 -5 1 5
--
60 -->70 65 o 7 o o o
->80 75 1 4 4 1 4
B 0 - - > 9 0 85 2 1 2 4 4
sn- 20 í::fi*u ----5 í::fi*u2
25
;C  . Ccuuuc«
e-amplitud de los intervalos-10
n-I:fi-20 número de elementos
Los valores de la columna u (-2, -1, O, 1, 2) pueden interpretarse de la
misma manera.
X i - A
u = - - ­
e
La elección del valor A se hace entre los valores de las marcas de clase Xi en
forma arbitraria. En el presente caso elegimos A - 65 porque entre las
marcas de clase es el valor que está en medio. De esa forma obtenemos
que u:
45 65 - 2 0
u = = - 2
1 0 1 0
5 5 65 - 1 0
u = = - 1
1 0 1 0
En la práctica se pone u·- O para el intervalo donde se ha elegido el valor
de A, que es 65 en este caso. Para los valores menores de las marcas de
clase: 56, 45 se pone u -·-1 --2 respectivamente.
Aplicando la fórmula anterior obtenemos:
2 5 ( - 5 )
s = 1 0 2 0 - 20
S = 1 0 .j l , 1 8 7 5 = 1 0 ( 1 , 0 9 ) = 1 0 , 9
= 1 0 .J 1 , 2 5 - 0 , 0 6 1 5
65 65 O 75 - 65 85 - 65
_1_0_ = 1 0 = O; =-1-0-= l; =-1-0-= 2
2.5 LA VARIANZA
Se define como el cuadrado de la desviación estándar. Entonces para
calcular la varianza, previamente haremos u so de los métodos para
calcular la desviación estándar. S e representa con el símbolo s',
Los valores altos de la varianza en datos biológicos, no son recomendables
para fines de interpretación científica. Es importante que dichos valores
deban ser b aj os.
49
Y su valor está comprendido entre el 0% y el 1 0 0 % .
¿En cuál de las variables existe mayor dispersión?
Bioestadistica
Variable Y = peso
Y = 69kg
Sy = Skg
Curwles G.
Variable X = talla
X = 1 , 7 0 m
Sx = O , S m
Ejemplo 2 . 1 5 . Datos de tallas y peso de estudiantes. Después de calcular
la media y la desviación típica de esas medidas, se obtuvieron los
siguientes resultados:
s
C V = M
Un CV superior al 50% debe hacernos pensar en una población estadística
no homogénea.
En muestras no demasiadas pequeñas, extraídas de poblaciones
normales el CV no suele ser mayor del 3 0 % .
2.6 COEFICIENTE DE VARIABILIDAD
El coeficiente de variación es una medida de dispersión relativa, sin
dimensiones, y cuya unidad es la media:
Si la media es cero, está claro que esta medida no puede utilizarse. A
menudo se utiliza también expresada en forma de porcentaje:
s
cv fµf * 1 0 0
s
2
- ( 1 0 , 9 ) 2 - - 1 1 8 , 8 1
Este coeficiente resulta también muy adecuado, en el caso que las
medidas de las distribuciones a comparar difieren mucho, aunque estén
expresadas en las mismas unidades.
, En el ejercicio anterior se calculó la desviación estándar-10.9
'La varianza será:
2.7 PROBLEMAS PROPUESTOS
Esto implica que la variable "pesos" está menos dispersada que la
Bioes iad ís tica
0,5
CV(tallas) = -_- * 100 = 29,41
1,70
5
CV(pesos) =
69
* 1 0 0 = 7, 2
..A. Canales G-.
Ordenar los datos en forma ascendente.
1. 1 , 2 , 2 , 3 , 3 , 3 , 3 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 5 , 5 , S , S , S , 5 , 5 , 5 ,
5 , 5 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 7 , 7 , 7 , 7 , 8 , 8 , 8 , 9 , 9 , 9 , 9 .
SOLUCIÓN:
Como las variables están expresadas en unidades diferentes (m y kg)
utilizamos el coeficiente de variación que es una medida de dispersión
adimensional:
2. Calcular la mediana de los siguientes datos
a) 14, 15, 16, 19, 23
b) 1 4 , 1 5 , 1 6 , 1 9
3. Calcular el promedio, desviación estándar, varianza y coeficiente
de variabilidad de los datos que se presentan en los siguientes
cuadros.
a) Calcule la moda en el siguiente cuadro de distribuciones de
frecuencias.
Intervalos f
1 1 7 � 1 2 6 2
1 2 6 � 1 3 5 3
1 3 5 --+ 144 1 0
1 4 4 �153 1 3
1 5 3 � 1 6 2 6
1 6 2 � 1 7 1 4
1 7 1 � 1 8 0 2
50
Muestra Talla (cm) Peso (kg) Edad
1 1 5 2 46 17
2 150 48 18
3 1 5 3 , 5 46 2 0
4 149 44 18
5 457 47 18
6 1 5 2 46 19
7 1 5 4 45 19
>-·
8 160 57 18
9 147 54 19
1 0 1 5 5 48 19
1 1 146 49 19
1 2 1 5 7 , 5 5 1 2 0
,---
1 3 148 44 18
14 155,5 44 20
1 5 1 5 0 47 22
16 154 50 19
17 160,5 53 19
18 147 45 18
19 144,5 43 18
20 156,5 44 19
2 1 1 5 1 46 18
22 161,5 54 18
23 165 58 19
24 157,5 59 20
2 5 1 6 7 57 18
26 1 5 7 61 24
2 7 1 5 3 47 18
28 1 5 7 56 20
29 160 5 1 20
30 155,5 58 19
b) Datos tomados de estudiantes del 2do nivel de la Facultad de
Ciencias Biológicas de la UNA Puno ( 2 0 0 7 ) .
Bioes tadis iicaG...A .
5 1
13 ioes uul istica
CAPITULOIII
PROBABILIDADES, DISTRIBUCIONES, LÍMITES DE CONFIANZA,
HIPÓTESIS, ASIMETRÍAS
3 . 1 . PROBABILIDADES
3 . 2 . DISTRIBUCIÓN NORMAL DE PROBABILIDAD
3 . 3 . DISTRIBUCIÓN DE POISSON Y ESPACIAL
3.4. INTERVALOS DE CONFIANZA
3.5.ASIMETRÍA YCURTOSIS
3.6. PRUEBAS DE HIPÓTESIS
3. 7. TAMAÑO DE MUESTRA
3.8. PROBLEMAS PROPUESTOS
3 . 1 PROBABILIDADES
Es una medida de ocurrencia de un evento o suceso (P), que se obtiene
dividiendo el número de resultados favorables para la ocurrencia entre el
número total de posibilidades.
Un experimento es determinístico si se obtiene el mismo
resultado a repetirlo en igualdad de condiciones. · Por
ejemplo, un objeto cae siempre con una gravedad de
9,8m/seg
2 •
Un experimento es aleatorio cuando al repetirlo en igualdad
de condiciones, los resultados varían. Por ejemplo, el
lanzamiento de una moneda.
Las características de los fenómenos aleatorios son:
a) Son fenómenos tales, que al repetirlos indefinidamente y en
igualdad de condiciones, presenta resultados distintos en cada
experiencia particular.
b) Si repetimos una experiencia n veces y anotamos el número de
veces que aparece un determinado fenómeno.
En el caso del lanzamiento de una moneda, nunca podemos predecir
en un determinado lanzamiento si va ha salir cara o sello, pero a
medida que aumenten, el valor Nº de caras/Nº total de lanzamientos
tiende a estabilizarse a medida que n aumente.
53
Ejemplo 3 . 1 . ¿Cuál es la probabilidad de obtener un número determinado
al lanzar un dado?
Ejemplo 3 . 2 . ¿Cuál es la probabilidad de obtener una combinación de
números que sumados sean menores que 4 al lanzar dos dados?
" Bioesuulistica
1 , 1 1,2 1,3 1,4 1,5 1,6
2,1 2,2 2,3 2,4 2,5 2,6
3 , 1 3,2 3,3 3,4 3,5 3,6
4,1 4,2 4,3 4,4 4,5 4,6
5,1 5,2 5,3 5,4 5,5 5,6
6,1 6,2 6,3 6,4 6,5 6,6
Canales Cí.
Espacio muestral
Conjunto formado por todos los sucesos elementales, recibe el
nombre de espacio muestral.
Suceso if""*
En general llamamos suceso a todo subconjunto del espacio muestral.
Merece especial atención el suceso seguro, que es el propio espacio
muestral y el suceso imposible.
·�f
Más tarde, en 1 8 0 9 GAUSS y posteriormente Laplace ( 1 8 1 2 ) , la estudian
en relación a trabajos sobre la teoría de errores con datos experimentales.
A finales del siglo XVIII y principios del XIX, los astrónomos encontraban
siempre la desagradable situación de que los resultados de sus medidas,
eran distintas unos a otros, y se podía resolver por la imperfección de los
instrumentos de medida disponibles. Era pues, necesario averiguar
valores posibles. Primero GAUSS, pensó que la media aritmética de todos
los valores observados sería el valor correcto.
3
PA = (2,4,6) =
6
= 0,5; 50%
3}�· '
P ( N ) = ( 1.1 ; 1 . 2 ; 2 . 1 ) =
3
.
6
= 0,08; 8%
3.2 DISTRIBUCIÓN NORMAL DE PROBABILIDADES
Distribución normal, aparece por primera vez en 1 7 3 3 en los trabajos de
Moivre relativos a cálculos de distribución límite de una variable
binomial.
P(N)
54
Btoes iadis tica.il. Canales G·.
Donde:
X: variables aleatoria
µ: es la media de los valores de la variable X
o: desviación estándar de la variable aleatoria X
rt: 3 , 1 4 1 6
e: 2 , 7 1 8
1 ¡-1 (x. x)
2]
y = crV2rre 2 �
Figura3.1 Curva normal general
Quetelet descubrió que la distribución normal para la biometría de las
anchuras de tórax de 5 738 soldados escoceses. El valor más frecuente fue
aproximadamente 40 pulgadas, 39 pulgadas se presentaban casi con la
misma frecuencia, 41 y 38 fueron más raros, 42 y 3 7 más aún, hasta que
por fin 3 3 y 48 pulgadas resultaron ser valores extremos aislados.
La distribución normal se define de la ecuación:
Regla empírica para datos con distribución normal (Figura 3.1)
Aproximadamente el 68% de todos los valores, están dentro
de una desviación estándar de la media.
Aproximadamente el 9 5 % de todos los valores, están dentro
de dos desviaciones estándar de la media.
Aproximadamente el 99.7% de todos los valores, están dentro de tres
desviaciones estándar de la media.
Más tarde, GAUSS y LAPLACE se les ocurrió pintar la distribución de
frecuencias de los resultados. Observaron cómo los valores extremos eran
correctos, y cada vez las medidas se hacen más iguales y más numerosas
. hasta concentrarse en un valor medio que es el valor más frecuente. Por
esta razón, la distribución normal es como distribución de GAUSS y
LAPLACE. Se creyó entonces, que en la práctica la mayoría de las
distribuciones eran de este tipo y por eso se le puso "distribución
normal", llamando a las restantes distribuciones anormales.
l
!
1
1
J
l
·I
¡l
y¡·:_l_¡.
1
i¡
:I
Bioes tadis iica
La curva tiene la forma acampanada con un máximo en X . Es simétrica en
torno a :X ya que el valor de la densidad es idéntico en X + c y en X - c, para
todo valor de e.
La curva es cóncava hacia abajo en :X y en sus proximidades, se vuelve
cóncava hacia arriba al alejarse de X , suficientemente en cualquier
dirección. Es decir, la curva presenta dos puntos de inflexión en X = X - o y
en X = X + c. Tiene como eje X como asíntota.
Las medidas de partida, se convierten en números expresados en
desviaciones estándar, como unidades a la derecha o a la izquierda de la
media.
Si se define una variable Z =X - µ/ o, Z tiene esa propiedad, es decir, si x,
Z = O; si X = X +O, Z = 1, si X = X + 2 o, Z = 2.
I Valores X
X - 2 a X - a X X + O X + 2 a
Valores Z -2 1 o 1 2
Como X es una variable aleatoria, Z también lo es.
Existe la tabla de probabilidades normales, las cuales son expresadas
como valores de la variable estandarizada "Z".
Ejemplos 3.3. Calcular la probabilidad del evento: que la variable toma
valores c o m p r e n d i d o s entre O y 1 , 2 7 . B u s q u e en la tabla de
probabilidades.
P ( O < Z < 1 , 2 7 )
U7
P ( O < Z < 1,27) = 0 , 3 9 8 0 = 39,80%
a) Calcular
P ( O < Z < 3,45). Respuesta: 0,4997 = 49,97%
b) Calcular
P ( O < Z < 0,8). Respuesta: 0 , 2 8 8 1 = 2 8 , 8 1 o/o
55
/l. Canales G. Bioestadisuca
c) Calcular la probabilidad del evento "Z" tome valores comprendidos
entre-2,4 y - 0 , 8 5
P (-2,4 < Z < 0,85)
Área entre (-2,4 y - 0 , 8 5 ) = área entre (-2,4 y O) - área entre (-0,85 y O)
- 0 , 4 9 1 8 - 0 , 3 0 2 3 = 0 , 1 8 9 5
Luego: P (-2,4 < Z < 0,85) = 0 , 1 8 9 5 = 1 8 , 9 5 % .
3.3 DISTRIBUCIÓN DE POISSON Y ESPACIAL
a) Distribución de Poisson
La distribución de Poisson es de importancia fundamental en el estudio
de fenómenos aleatorios: físicos, químicos, biológicos, astronómicos
entre otros, ya que representa un modelo probabilístico apropiado para
la descripción de tales fenómenos.
Siguen esta distribución una gran cantidad de variables. Por ejemplo, la
distribución de Poisson puede representar adecuadamente valores tan
dispersos como número de partículas radiactivas emitidas por unidad de
tiempo, un número de llamadas que entran en una central telefónica
durante cierta periodo de tiempo, cantidad de plancton, recuento de
colonias bacterianas por placa petrí, en estudios microbiológicos y en
estudios de ecología.
Hay, pues, dos modelos generales que llevan a una distribución Poisson,
aquellos en los que se estudia un medio (agua, aire, sangre entre otros) en
el encuentran números elevados de entidades pequeñas discretas
(plancton, bacterias, hematíes, levaduras, plantas, individuos, entre
otros).
El propósito de ajustar una distribución de Poisson a varios de los
acontecimientos raros que ocurren en la naturaleza, es comprobar si los
acontecimientos raros ocurren independientemente unos de otros. Si es
así, seguirán una distribución de Poisson. Si la aparición de un
56
Bioeeuulísiica
acontecimiento aumenta la probabilidad de que ocurra un segundo
acontecimiento igual al primero, obtenemos una distribución de contagio.
Si el éxito de un acontecimiento impide que se dé un segundo, obtenemos
una distribución espacialmente uniforme. La distribución de Poisson
puede ser usada como prueba para comprobar la aleatoriedad o
independencia de los sucesos, no sólo espacialmente, sino también en el
tiempo.
Para determinar la distribución espacial, no solamente contabilizamos en
forma directa los individuos de una determinada especie, sino también,
podemos contabilizar nidos, madrigueras, huellas, fecas, plumas, pieles,
cráneos y todo indicio de la presencia de la especie.
bJ Distribución Espacial
La distribución espacial, trabaja en espacios pequeños, donde se
contabiliza el número de individuos de una especie que se encuentra en
un hábitat y en un tiempo determinado. La metodología recomendada son
los cuadrantes aleatorios, que pueden variar desde Irn' hasta 25m
2
de
acuerdo a la especie que se está investigando. No confundir la distribución
espacial con la distribución geográfica, que es totalmente diferente,
trabaja con espacios grandes, relacionando con las zonas de vida y
coordenadas geográficas.
Para determinar la distribución espacial, se requieren 09 parámetros
importantes, como son:
L Frecuencia observada
2 . Frecuencias Esperada
3 . Media = (X)
4 V
. - s- - 1 [e" · 2 f ' ) (¿ Xífi)Z]
. ananza - - I fi L, Xl 1 - �
S. Índice de Dispersión (ID = rr
2
/X)
6. Grados de Libertad (n 1)
7. Nonograma de Clapham
8. Prueba de Hipótesis
9. Prueba Bioestadística de X
2
= ID (n 1)
No es recomendable, con solamente hallar el índice de dispersión, la
misma que ayuda a inferir el tipo de distribución espacial, se debe realizar
A. Canales O. F3ü >es tadis tica
otras pruebas como la pruebas de hipótesis y la comprobación a través de
una prueba bioestadística.
En la naturaleza, en forma general encontramos tres tipos de distribución
especial.
Distribución Uniforme
Se presenta cuando los individuos de una determinada especie de flora o
fauna silvestre, se encuentran en altas concentraciones de individuos en
un espacio limitado, permitiendo que los individuos tengan antagonismo
por acceder a un espacio y alimento.
Para demostrar este tipo de distribución, se debe realizar no menos de 20
repeticiones. Esta cantidad puede incrementarse de acuerdo al área de
muestreo.
if
j
q ,
''
.l,¡
l
lt
j
. ¡
11
11
11
•
•
•
•
•
•
•
•
•
•
11
•
•
•
Es probable si se presenta. este tipo de distribución, el hábitat tenga
perturbación y/ o transformación inducida por la actividad del hombre,
por lo es necesario considerar programas de manejo del hábitat o
estrategias de recuperación de la especie de flora y fauna silvestre.
Figura 3 . 2 . Representación de la distribución uniforme
Este tipo de distribución se presenta también, cuando los datos
recolectados del campo y analizadas a través de frecuencias observadas)
esperadas, presenta una varianza mucho menor que la Media (Varianza=
1,4; M e d i a = 4, 7). Así mismo se puede calcular el índice de dispersión cor
los Grados de Libertad del número mayor de individuos.
58
N
······••·
, .... ....
'
l
'
:
;

:
: i
¡
:
r . s
¡
· :
i
11,.
. 7
• 
•
:
:
,_ .... ,...•.•..
,. . ¡
l o !�� !e
-···
,. . • . . ,
.....
•··-··-·
1 . 6
D I . s
; T
R i l
: s , u : ( l o : �
i!' . . . ,
l(i. l . o
: s : A
.s , 
;
: :
1A
'",,,.
. 3
'"�, •.
2
:
:
J D
1 : s T R I
s u e j
l o N A l. i E itl. T t o i R I iA
1
'
¡
;
.9
,,,,;,w·
:
.1l" :
¡
. 7
..l
:
.6
lf
i
:,¡
:
, :, l : ¡
:
. 4
i/(
t o ! s T : R
i l : 8 u
: ( : ! ! O , N
: u i N if i o I R I M f
. 3
f�Yf•
¡
----
2
··-··
o. i
: :
¡
:
(J
! i
: ;
¡
i
' 1
'
En este tipo de distribución espacial, el Índice de Dispersión (ID), debe
estar cercano a O ( I D = 0,3; GL = 40). También, como estos datos se puede
platear en el Nomograma de Clapham, tal como se presenta en la figura
que se presenta a continuación (Diseño original de N omograma de
ClaphamA. Canales, 1 9 9 6 ) .
G
[) o
ioo
O E l H
200
T A
Figura 3 . 3 . Representación de la distribución uniforme en el
Nomograma de Claphan
Distribución Aleatoria
Este tipo de distribución espacial, se presenta cuando los individuos de la
especie en investigación, no tienen inconvenientes con la disponibilidad
de alimentos ni de hábitat, esto implica que el hábitat es de buena calidad
y con alimentos disponibles para la alimentación de individuos. Entonces
los individuos pueden ocupar cualquier espacio dentro del hábitat, sin
ningún riesgo de ser excluido o presentar antagonismo.
Este tipo de distribución, es la más recomendable, por esta razón se
recomienda plantear las hipótesis de que los individuos se encuentran en
una distribución aleatoria.
Biocstadistia:
10 so 1eo no 200 ase
60
l
i
L I B E R T A OO E
•
lll
•
11 • •11!1
•1111
11 •
• 1
•111
•11
• •
• •!11
•1
1
1'11
lfj 1 11
..
..
111
• •
•
1
• llt 11
lll • 11
• •
G R .A O O S
Figura 3.4. Representación de la distribución aleatoria
1 
N 1.9 
O 1.S -1-··-fllL,.....¡..•-;,..••••+-···+·-··-·····-j.···--- ............... ·-· --4-·+--·+--·+--·-+--1·-·- ----..¡...¡-· ! -�· _¡_
1 1.7 . ,1-,
C 1.6 ' 'l. O _ '-·· s.. T .....R•• 1 B J C l Ó .!:!-+--+(-..¡.(_)-+N,-+T-·.¡.A--¡.G._,J1 . 2.-�=
E 1.5;..-i-----...........;-""'!l,---i---+--+--+---+--+--+-+ ·¡-- _
1.4 ,. 1
O 1.3 ......_ ···- --:-·>···---- ·- --t--- - - >-- >- ·
E l . 2 .111 1t.. l 1 1
O 1-�E·_·__ - - � .. 0 1 S T R I efu C · I lº·+·N-+-+-A.....¡...L......¡...E,_jA T º ¡ R . l l _ � - - -
+-4··--····+--+-·-i. __i ���l-=j,--,""""*�=-+=-1-1
o.9+-I-+--+--·--+--+-·-,,,F--'-+--+--...--1-+--+'......+........--i-·--+'_
o.al __ /l 1 1
p o.7r 1 / 1 1
! �::�--1-+---..l-/!_---+--ti·-·+---+--+--+-l----+--+- : ' ·-- -- F-_1i _..... .-.--+---+--+--+--!
0.4l___l f j o 1 : 5 T i H Íl 6 U le I Ó N U N J i j F O R M E
l 0.3¡ l , , J
Ó 0.2i 1 / :
N 0.1 _J__ J ........L.--+·--l--+·--+--+---t--1---..;,.---+..··-+-··l-····+--·-+-·-+·-·-+-.!
o -17 i 1 : +-··+··-�----·�--�-·1·---,---�-i
Figura 3 . 5 . Representación de la distribución aleatoria en el
Nomograma de Claphan
Este tipo de distribución, es cuando después de un análisis de frecuencias
observadas y esperadas, presentan una varianza similar o igual que la
Media (Varianza= 1,4; M e d i a = 1,7). Así mismo se puede calcular el índice
de dispersión con los Grados de libertad. En este caso, el Índice de
Dispersión con los Grados de Libertad, debe estar cercano a 1 o un poco
más que 1 (l.D. = 1, 1; G.L. = 2 0 ) . También con estos datos se puede platear
en el Nomograma de Clapham, tal como se presenta en la figura que se
presenta a continuación.
!
¡ :
61
Bioes tadis UcaCanales Cr.
Figura 3.6. Representación de la distribución contagiosa
Este tipo de distribución, es cuando después de un análisis de frecuencias
observadas y esperadas, presentan una Varianza mucho mayor que la
Media (Varianza= 2,4; M e d i a = 0,9). Así mismo se puede calcular el Índice
de Díspersión con los Grados de Libertad. En este caso, el Índice de
Dispersión debe ser mucho mayor que 1 (I.D. = 2,3; G.L. = 40). También,
con estos datos se puede plotear en el Nomograma de Clapham, tal como
se presenta en la siguiente figura.
Distribución Contagiosa o Amontonada
Este tipo de distribución, se presenta cuando los individuos de una
especie, se encuentran en forma agrupada o amontonada, formando
grupos· dentro del hábitat. Este comportamiento puede tener varias
razones, pudiendo ser por comportamiento reproductivo, defensa
territorial, o debido a que solo en los lugares de agrupamiento se
encuentran los alimentos necesarios y espacio disponible. Sin embargo,
este tipo de comportamiento no es de mucho riesgo para la especie, pero
se debe tener cuidado con las poblaciones y el hábitat.
Figura 3 . 7. Representación de la distribución contagiosa en el
Nomograma de Clapham
t--.
! 1
Btoes iad is l tea
!
1
l ¡
1 .Li.Lí..
l
U N l i f O R M E
¡
L I B E R T A D
1 ¡
O EG R
50
¡  ! !
10
.iL Canales G·.
f '. .
f
1
1
1
1
Resumen:
62
Para hallar el tipo de distribución espacial, empleamos las siguientes
formulas.
Ejemplo 3.4. Numero de madrigueras de vizcacha evaluados en la
localidad de Llalli, Prov. Lampa, 2 0 0 8 (Cada cuadrante= S ü m 2 ) .
8 5 3 4 9 4 8 3 7 6 6
7 9 5 5 6 9 4 4 5 7 4
5 4 2 6 6 6 7 6 4 8 4
4 4 3 4 6 5 5 2 4 6 5
5 4 5 3 9 4 4 1 6 6 6
V<M = D. Uniforme
V = M = D. Poisson o Aleatoria
V> M = D. Contagiosa.
a) I D = menor a 1 cercano a O
b) I D = cercano 1
c) I D = m u c h o m a y o r q u e l
l
!
1
1 1
l l
! I
1 1
¡ I
¡ ;
! : {
¡ j
l í
1 ,
¡
1
I •
1
¡ .
Respuesta: La disposición de las madrigueras de las vizcachas, presentan
una distribución uniforme, esto implica que tienen problemas con el
hábitat. Es probable que exista una perturbación del hábitat, la que tiene
sus efectos en la falta de alimento y lugares para construir sus
ma,drigueras.
63
Bioestadisuca
X
I D =
�. [e� · 2 · ) - (¿ X i f í ) Z ]
:E fí L X I ñ :E fi
:E xifi
M e d i a (X) = :E fi
sz
s- =
G.
Xi Fi Xi2 Xi2fi Xifi
o o o o o
1 1 1 1 1
2 2 4 8 4
3 4 9 3 6 1 2
4 1 5 1 6 240 60
5 1 0 2 5 2 5 0 5 0
6 1 2 3 6 4 3 2 72
7 4 49 1 9 6 2 8
8 3 64 1 9 2 24
9 4 8 1 3 2 4 3 6
¿ 5 5 2 8 5 1 6 7 8 2 8 7
Luego se tabula los datos acuerdo al cuadro presentado.
2 1 [ 2 8 7
2 ]
s = 5 5 1 6 7 9 - 55
2 8 7
Media(X) =
55
= 5 , 2 1 8
G.L. = ( n - 1 )
xz = ID (n --1)
.A.
s2
= 3 , 3 5
3 , 3 5
I D = - - = 0 6 3
5 , 2 1 8
1
G . L . = ( n - 1 ) = 9 1 = 8
xz = 0 , 6 3 ( 8 ) = 5,04
il. Canales (i. Bioestcuiistica
3.4 INTERVALOS DE CONFIANZA
Es definido como la probabilidad de que el parámetro se encuentra dentro
del intervalo dado. También se puede denominar niveles de confianza. Los
más usuales son el 9 5 % y el 99%.
Nivel de confianza al 95%
Implica que de 1 0 0 datos, se espera que 9 5 de ellos se encuentren dentro
del intervalo construido del parámetro evaluado. También se espera que 5
de ellos se encuentren fuera del intervalo, ya sea a la derecha o a la
izquierda.
b
Nivel de confianza al 99%
Significa que de 1 0 0 casos o datos, se espera que 99 de ellos estén dentro
del intervalo construido del parámetro evaluado. También se espera que i
esté fuera del intervalo construido.
Intervalo de confianza para estimar la media poblacional
Es necesario que la muestra sea tomada en forma aleatoria, con los datos
de la muestra se calcula la media y la desviación estándar.
Se emplea la siguiente fórmula:
X ± Zo e X, donde:
X = Es la media aritmética de la muestra
Zo = Es el coeficiente de confianza.
a Es el error estándar de la media y su valor depende de la
desviación estándar poblacional.
El extremo izquierdo del intervalo se llama, límite de confianza inferior, el
extremo derecho, se llama límite de confianza superior.
Intervalo de confianza de 95% para estimar la medía poblacional
9 5 % = 0 , 9 5
Determinar los intervalos de confianza de 9 5 % y 99% para estimar el
parámetro indicado.
Para el 9 5 % de confianza
166,13
Bioesiadistica
65
o
S = 6 , 0 9 6
·2.SS
X ± 1,96 o x = 164,3 ± 1,96 * o,93 = 164,3 ± 1,83
G.
162,,47
Ejemplo 3.5. A partir de la estatura (cm) media de 600 estudiantes, se
tomó una muestra representativa de 40 estudiantes.
De esta manera se obtuvo:
X ± 1 , 9 6 o :X
dX = :OJ� = � = 6:06 = �oºo��o
(J * x = ü.93
n > 0 , 0 5 N
40 > 0,05 (600)
4 0 > 3 0
X = 1 6 4 , 3 c m
� = 0 4 7 5 0
2 J
En la tabla de probabilidades normales, para el área de O ,4 7 5 0 se obtiene el
puntaje Z = 1, 96
La fórmula para el intervalo de confianza es:
x ± 1 , 9 6 o x
Intervalo de confianza de 99% para estimar la media poblacional 99% = 0,99:
·º'
99
=0 4950
2 1
Luego: X ± 2,58 o X
Para el 99% de confianza
x ± 2,58 o x = 164,3 ± 2,58 * o,93 = 164,3 ± 2,4
1 6 1 , 9 0
3.5ASIMETRÍAYCURTOSIS
Asimetría
Es la deformación horizontal de las curvas de frecuencias. Cuando la curva
está inclinada hacia la derecha se denomina asimetría a la derecha o
asimetría positiva.
Observamos que la Md aritmética que era hacia el lado más largo (el
derecho) y que x > Md > Mo,
O l'.lo lId X
O X 1-Id Iv!o
Curtosis
Bioes tadis tica
o
�·---X
X
'.Md
!fo
67
X < Md > Mo
X = Md = Mo.
Es la deformación vertical de una curva de frecuencias. Se define como el
grado de apuntamiento muy pronunciado. Se aplica en la prueba de
normalidad de datos, debiendo estar entre -z a +z. Existen tres
deformaciones que a continuación describiremos:
En la figura, vemos que la curva está igualmente inclinada hacia ambos
lados, a este tipo de distribución se llama curva simétrica. Es importante
observar que la Media (X), mediana (Md) y la moda (Mo) coinciden en el
mismo eje horizontal, en este caso:
Cuando la curva está alargada o inclinada al lado izquierdo se llama
asimetría a la izquierda o negativo. Notamos que la Md está del lado más
largo (el izquierdo) y que:
a) Leptocúrtica:
Aplastamiento horizontal y la curva con apuntamiento pronunciado,
,-:; · puesto que los datos se encuentrnn en las colas y en la parte media.
b) Platicúrtica
Una curva achatada, es decir, que tienen muy poco apuntamiento, los -
datos se encuentran en las partes medias.
BioestadisücaA.. Canales G.
e) Mesocúrtica
Una curva que tiene una situación intermedia entre las dos anteriores, es
decir, no tiene un fuerte apuntamiento pero que tampoco es muy
espaciada. Los datos se encuentran en la parte media.
68
En donde:
69
K = Q
P90 - P 1 0
Bioes tadis ticaA. Canales G.
0 . 1 2 5 0.25 0.375 0 . 5
ol 1 1 1
1
platicúrticas mesocúrtica leptocúrtica
3.6 PRUEBA DE HIPÓTESIS
K = coeficiente de curto sis
P90 = percentil 90
P 1 0 = percentil 10
Q = Q3-Q12 es el rango semicuartil
Las pruebas de hipótesis fueron creadas entre el periodo 1915 y 1 9 3 3 ,
como resultado de la labor de dos grupos o tendencias: por un lado,
Ronald Fisher ( 1 8 9 0 - 1 9 6 2 ) y por el otro, Jerzy Neyman (1894 - 1 9 8 1 ) en
conjunto con Egon Pearson ( 1 8 9 5 - 1 9 8 0 ) . Ambas tendencias tuvieron
como antecedente la famosa prueba de ji al cuadrado de Karl Pearson
( 1 8 5 7 - 1 9 3 6 ) .
Seguramente, existen investigadores que no plantean ninguna hipótesis,
por tanto, su investigación es meramente descriptiva, al no probar
ninguna hipótesis. Esto no implica que no sirva la investigación, pudiendo
Para la curva normal de probabilidades K = 0,263
Orienta tener las siguientes pautas:
a) Si K tiende a 0,5 se dice que la curva es leptocúrtica.
b) Si K tiende a 0,25 se dice que la curva es mesocúrtíca,
Si K tiende a O, se dice que la curva e� platicúrtica.
El planteamiento de la hipótesis en la investigación, es un componente
fundamental que permite inferir sobre el problema. La aceptación y/ o
rechazo de hipótesis, permitirá plantear o mejorar nuevos conocimientos
como principios, leyes, teorías o mejorar una metodología empleada por
otro investigador.
· Goeficiente·de·ourtosis pertentílíco
Es una medida de la curtos is basada en 'los cuartiles y percentiles que se
define por la fórmula.
il. Canales G. Biocs tculisiica
servir de base para continuar una investigación ínferencial, donde es
posible probar una hipótesis.
Consideramos que es fundamental tener en cuenta la hipótesis nula y
alterna, lo usual es que siempre deseamos comprobar una hipótesis
alterna, esto implica detectar diferencias a través del uso de alguna
prueba bioestadística.
Otros autores consideran, hipótesis de trabajo e hipótesis estadística, lo
cual no es recomendable. Es adecuado que la hipótesis sea la unión de
ambas y no por separado.
Lo que deseamos en un trabajo de investigación, es demostrar nuevas
teorías, leyes y principios, o al menos mejorarlas. Entonces, el resultado
de la aceptación o rechazo de las hipótesis de la investigación, permitirá
que la ciencia avance con estas nuevas acepciones inferenciales.
Las hipótesis deben cumplir algunos requisitos.
a) Referencia a hechos reales. Toda hipótesis se refiere siempre a los
hechos reales, de otro modo las hipótesis serian especulativos y
carecerían de fundamento práctico.
bJ Fundamentación teórica. Toda hipótesis esta incluida en el contexto de
una teoría, o, fundamentada por conocimientos logrados por la ciencia.
Por esta razón, se afirma que las hipótesis científicas son supuestos
razonables en la medida en que la sustentan en teorías, cuya consistencia
esta probada.
Es posible que una hipótesis, en si consistente pero totalmente nueva,
pueda contradecir una teoría vigente. Se trata en este caso, de una
hipótesis que siendo consistente en si misma, hace apertura a una nueva
teoría. Estos casos se dan en la ciencia de manera excepcional.
e) Fundamentación lógica. Las hipótesis científicas deben ser razonables
y lo son si cumplen con las exigencias de la lógica.
Respetan y expresan formalmente los principios lógicos, por ejemplo el
principio de no contradicción.
d) Predictividad. Las hipótesis son supuestos con los cuales el
investigador puede adentrarse a los hechos.
70
71
, e) Comprensible. Deben ser entendible por la comunidad científica. Los
científicos prefieren evitar el lenguaje misterioso.
BioesiadisticaG.
La exigencia de que una hipótesis sea compresible, platea que el
investigador utilice un lenguaje de tal manera, que no sea subjetivo ni
contenga juicios de valor.
Existen varias definiciones de hipótesis planteados por diversas autores,
pero al final todos mantienen la definición principal de la hipótesis.
La predicción científica, es condicional y por lo tanto es una aplicación de
la teoría científica (anticipa nuevo conocimiento y es contrastada).
+ Mientras, que la conjetura y la profecía, son enunciados
incondicionales de la forma "ocurrirá p"
+ En la hipótesis, esta implícita la predicción.
+ Un experimento prueba una hipótesis verificando si las
predicciones que se derivan de la misma son correctas.
A las respuestas de estas preguntas se llama predicción, que en el sentido
común, es una previsión basada en generalizaciones empíricas tácticas,
fundamentada en teorías.
Predicción
Bunge ( 1 9 7 3 ) , Sokal y Rohlf (1981) y Baker &Allen (1980).
+ ¿ C u a l s e r á l a c a u s a d e x s o b r e y ? ,
+ ¿Que ocurriría si X = Y?
Definiciones de hipótesis
- Es una proposición enunciada para responder tentativamente a un
problema (Pardinas, 1987).
Son conjeturas basados en leyes y teorías (Bunge, 1997).
Enunciado afirmativo y condicional que establece una relación entre
hechos, r e s p o n d i e n d o así provisionalmente un problema de
investigación y sujetándose a comprobación (Tafur, 1 9 9 7 ) .
Nos indican lo que estamos buscando o tratando de probar, y puede
definirse como explicaciones tentativas del fenómeno investigado,
formuladas a manera de proposiciones (Fernández et al., 1 9 9 7 ) .
Es un enunciado condicional de posible respuesta a un problema,
basado en hechos, teorías, leyes y principios, que puede ser aceptado o
rechazado a través de la aplicación de pruebas bioestadísticas
adecuadas (Canales, 1999).
A. Canales G.
Tabla de la verdad
+ Hipótesis
Correcta
Falsa
Predicción
Correcta
Correcta o falsa
Bioestadistíca
Ejemplos de hipótesis con predicciones:
+ Hipótesis: Si... el salmón, utiliza solo el estimulo visual para
encontrar el arroyo donde nació, para poner sus huevos ...
+ P R E D I C C I O N : entonces .... un salmón al que se le impide ver
mediante una venda, no puede retornar al arroyo donde nació.
+ Hipótesis: Si... el salmón encuentra la ruta de vuelta a su arroyo
natal mediante el olor especifico de sus aguas ...
+ PREDICCION: entonces ... obstruyendo los sacos olfatorios,
podemos evitar que el salmón encuentre su arroyo natal.
+ Hipótesis l : El beriberi es el resultado de un desorden dietético,
y no se debe a una infección bacteríal,
+ Hipótesis I I : Un factor presente en la cáscara del arroz parece
evitar la manifestación de este trastorno.
+ Eijkman pudo hacer una predicción sencilla mediante estas
dos hipótesis.
+ Hipótesis 1 : Si...el beriberi es un transtorno dietético, ...
+ Hipótesis I I : Si... el beriberi es el resultado de alimentarse con
arroz descascarado ...
P R E D I C C I O N : entonces ... el darle arroz descascarado a los pollos
debe producir esta dolencia. Por el contrario, alimentarlos con
arroz con cáscara debe mantenerlos saludables.
Propuestas de hipótesis con predicción
1) Hipótesis: Si... el acceso a una revista científica indexada,
limita las publicaciones de las investigaciones de los docentes
de las universidades,
P R E D I C C I O N : entonces la creación de una revista científica de
distribución a nivel internacional propia de las universidades,
elevara el número de publicaciones. ,
2) Hipótesis: Si... la falta de publicaciones científicas de los
profesores de las universidades, esta limitada por el tipo de
formato propuesto por la dirección de Investigación ... ,
72
73
Hipótesis considerando diferencias o igualdades.
Hablando en el lenguaje de la biología, puede decirse que la predicción es
el tipo más alto de adaptación -del hombre. Mediante ella, el hombre se
BioestudisticaCanales G.
PREDICCIÓN: Entonces ... la modificación de formato de acuerdo
a una revista científica indexada, posibilitará un mayor número
de publicaciones.
Es importante que las hipótesis estén basados en teorías, leyes,
publicaciones por científicos en libros, revistas científicas, por ello se
debe colocar el nombre del autor.
Vale la pena distinguir los siguientes términos:
(i) Expectativa, es una actitud automática de anticipación que se
encuentra en todo los animales. La expectativa, es una operación
consciente, pero carece de fundamento.
(ii) Conjetura, intento consciente pero no racionalmente justificado sin
fundamentos. La conjetura, puede ser juego divertido, una
superstición peligrosa.
(iii) Profecía, en gran escala, basada en el supuesto fundamento de la
revelación o de otra fuente esotérica "ciencia oculta". Nunca es
contrastada.
Con igualdades
La diversidad de especies de fauna silvestre, será igual conforme la altitud
(msnm) se incremente, es decir a menores y mayores altitudes existirá
similar cantidad de diversidad de especies, esto d e b i d o a la
homogeneidad de hábitat y a la selección natural (adaptación y
especialización) (Caughley, 1994).
Con diferencia
La diversidad de especies de fauna silvestre, disminuirá conforme la
altitud (msnm) se incremente, es decir a menores altitudes existirá una
mayor diversidad que a los mayores altitudes, esto debido a las
condiciones favorables de factores climáticos y de competencia por
hábitat y alimentos que ocurre en zonas bajas, mientras que en zonas con
mayores altitudes, las condiciones de los factores climáticos son adversos
(temperatura, humedad, precipitación pluvial entre otros) (Primack,
1994, Pianka, 1978).
/L Canales G. Bioes iadis iico
1 1
adapta anticipadamente a las nuevas condiciones que el mismo configura.
Las, profecías, o conjeturas de gran escala como las del Apocalipsis, de
Nostradamus y de ciertos políticos, son tan infundadas como las
conjeturas.
Cuando Creso Preguntó al oráculo de Belfos, qué ocurriría si atacaba a los
Persas, la respuesta fue: "Un gran reino será destruido". Creso no se dio
cuenta de la ambigüedad de la sentencia y atacó: un reíno, el suyo quedo
destruido, como estaba profetizado.
Predicción con regresión
Sokál yRohtf(1981).
Una función, es una relación matemática que nos permite predecir que los
valores de una variable Y, corresponden a valores dados de una variable X.
El tipo más simple de regresión sigue la ecuación Y = X (relación entre el
Número de anillos de crecimiento de un árbol como una función de la
edad).
Para poder rechazar y/ o aceptar una hipótesis, es necesario utilizar
pruebas bioestadísticas, caso contrario se puede incurrir en errores que
pueden ser negativos para el avance científico.
El uso de la pruebas bioestadísticas son una herramienta de ayuda para el
investigador y no una limitante.
La bioestadística, provee las herramientas para discernir con mayor
claridad las causas, efectos, diferencias, asociaciones de los datos, y por lo
tanto, es más sencilla la interpretación y discusión de las resultados.
Al hacer una prueba bioestadística, puede haber dos resultados:
Aceptar la hipótesis nula (no hay diferencia) o rechazarla (si hay
diferencia). Existen dos tipos posibles de errores: rechazar la hipótesis
nula cuando es verdadera (error tipo 1) o aceptarla cuando es falso (error
tipo II). A menudo la hipótesis es aceptada cuando es falsa, debido al
pequeño tamaño de muestra. El error tipo II puede ser común en estudios
de conservación ya que generalmente las poblaciones son pequeñas. La
aceptación de una hipótesis puede tener consecuencias muy serias en
proyectos de conservación por ejemplo: Imaginemos que una especie está
disminuyendo, pero que nuestras estimaciones poblacionales no
7,4
ii. G. Biocntadisiica
detectan ninguna diferencia. Si concluimos que no hay diferencia
(cometiendo un error de tipo H), entonces no habrá medidas de
conservación para modificar la tendencia.
La forma de conocer si el diseño es adecuado para no cometer un error de
tipo II, es mediante el cálculo del poder estadístico. El poder estadístico es
la probabilidad de rechazar una hipótesis nula falsa. Se calcula como 1
beta.
Cuadro 3 . 1 . Definiciones de Hipótesis y errores de tipo I y II.
r Parámetros Definiciones
Hipótesis nula (Ho) Hipótesis que generalmente indica que no
existe diferencias
-I�ipótesis alternativa (Ha) Hipótesis que generalmente indica que
existe diferencias
----
Error Tipo I Rechazo' de una Hipótesis nula verdadera
-·
Aceptación de una hipótesis nula falsaError Tipo II
-·
Alfa Probabilidad de cometer un error Tipo I
Beta Probabilidad de cometer un error Tipo II
Poder Capacidad de una prueba bioestadística
L
para rechazar la hipótesis nula cuando no
es verdadera. Grado de disminución de
errores de Tipo 11.
3.7. TAMAÑO DE MUESTRA
Tamaño de muestra en el muestreo aleatorio simple, cuando la
variable es continua.
Partimos de la fórmula del intervalo de confianza, para estimar la media
poblacional de la variable:
·-----E-----
Canales (}.
En donde:
x = media de la varianza
Z = coeficiente de confianza, que depende del nivel de confianza asumido.
a x = error estándar de la media. Es la desviación estándar de la
distribución muestra} de la media.
E = error al estimar la media poblacional. Es la distancia o separación
entre un extremo del intervalo y el centro del mismo, se tienen:
E = z-x
Consideramos dos casos:
1) Cuando el tamaño de la población (N) es grande, n < 0 . 0 5 N
2) Cuando el tamaño de la población, no es muy grande, n > O.OS N.
Estudiaremos el caso 1) cuando N es grande se utiliza la fórmula:
O'
CJX = -
Fn
En donde, a es la desviación estándar poblacional n es el tamaño de la
muestra.
Reemplazándose se tiene:
Zcr
E = -
Fn
Elevamos al cuadrado ambos miembros de la fórmula:
z2
E z = - cr z
n
Despejando n.
z2
n = - cr
2
Ez
Esta es la fórmula para el caso de población grande (n< O,OSN)
El valor de n varía en forma directamente proporcional a los valores que
están en el numerador. Además, n varía en forma inversamente
proporcional al valor del denominador de la fórmula.
Cuando el nivel de confianza asumido es 99%, según la tabla de
probabilidades normales Z = 2,58.
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales
Libro bioestadistica canales

Más contenido relacionado

La actualidad más candente

Manual fenologico --senahmi manual de observaciones fenlogicas
Manual fenologico --senahmi manual de observaciones fenlogicasManual fenologico --senahmi manual de observaciones fenlogicas
Manual fenologico --senahmi manual de observaciones fenlogicasHaydee Melo Javier
 
Biologia del arbol frutal 2011
Biologia del arbol frutal 2011Biologia del arbol frutal 2011
Biologia del arbol frutal 2011Agrounica Blogspot
 
Guía deficiencia nutrientes Maíz
Guía deficiencia nutrientes MaízGuía deficiencia nutrientes Maíz
Guía deficiencia nutrientes MaízCortevaBolivia
 
EVALUACIÓN DE PLAGAS EN CULTIVO DE PALTO
EVALUACIÓN DE PLAGAS EN CULTIVO DE PALTOEVALUACIÓN DE PLAGAS EN CULTIVO DE PALTO
EVALUACIÓN DE PLAGAS EN CULTIVO DE PALTOANTONIO VARGAS LINARES
 
ENFERMEDADES DEL CULTIVO. CAMOTE.pptx
ENFERMEDADES DEL CULTIVO. CAMOTE.pptxENFERMEDADES DEL CULTIVO. CAMOTE.pptx
ENFERMEDADES DEL CULTIVO. CAMOTE.pptxANGIEMARIELSAAVEDRAM
 
Ponencia 5 mipe de palma aceitera en perú - yurimaguas
Ponencia 5   mipe de palma aceitera en perú - yurimaguasPonencia 5   mipe de palma aceitera en perú - yurimaguas
Ponencia 5 mipe de palma aceitera en perú - yurimaguasMarco Antonio Lavado Ferrer
 
Bacterias y fitoplasmas
Bacterias y fitoplasmasBacterias y fitoplasmas
Bacterias y fitoplasmasnoemi vadillo
 
Tema 1 Introducción a la Fitopatología
Tema 1 Introducción a la FitopatologíaTema 1 Introducción a la Fitopatología
Tema 1 Introducción a la FitopatologíaFCA UNER
 

La actualidad más candente (20)

Manual fenologico --senahmi manual de observaciones fenlogicas
Manual fenologico --senahmi manual de observaciones fenlogicasManual fenologico --senahmi manual de observaciones fenlogicas
Manual fenologico --senahmi manual de observaciones fenlogicas
 
SESION3.pdf
SESION3.pdfSESION3.pdf
SESION3.pdf
 
Sistemas de un insecto
Sistemas de un insectoSistemas de un insecto
Sistemas de un insecto
 
Bovinos lecheros
Bovinos lecherosBovinos lecheros
Bovinos lecheros
 
Biologia del arbol frutal 2011
Biologia del arbol frutal 2011Biologia del arbol frutal 2011
Biologia del arbol frutal 2011
 
Girasol
GirasolGirasol
Girasol
 
Guía deficiencia nutrientes Maíz
Guía deficiencia nutrientes MaízGuía deficiencia nutrientes Maíz
Guía deficiencia nutrientes Maíz
 
Informe injertos genetica
Informe injertos geneticaInforme injertos genetica
Informe injertos genetica
 
EVALUACIÓN DE PLAGAS EN CULTIVO DE PALTO
EVALUACIÓN DE PLAGAS EN CULTIVO DE PALTOEVALUACIÓN DE PLAGAS EN CULTIVO DE PALTO
EVALUACIÓN DE PLAGAS EN CULTIVO DE PALTO
 
ENFERMEDADES DEL CULTIVO. CAMOTE.pptx
ENFERMEDADES DEL CULTIVO. CAMOTE.pptxENFERMEDADES DEL CULTIVO. CAMOTE.pptx
ENFERMEDADES DEL CULTIVO. CAMOTE.pptx
 
Manual mip
Manual mip Manual mip
Manual mip
 
Viveros de plátano
Viveros de plátanoViveros de plátano
Viveros de plátano
 
MALEZAS DE HOJA ANGOSTA
MALEZAS DE HOJA ANGOSTAMALEZAS DE HOJA ANGOSTA
MALEZAS DE HOJA ANGOSTA
 
Enfermedades del maiz choclo avl
Enfermedades del maiz choclo avlEnfermedades del maiz choclo avl
Enfermedades del maiz choclo avl
 
Plagas en el Cultivo de Palto
Plagas en el Cultivo de PaltoPlagas en el Cultivo de Palto
Plagas en el Cultivo de Palto
 
Ponencia 5 mipe de palma aceitera en perú - yurimaguas
Ponencia 5   mipe de palma aceitera en perú - yurimaguasPonencia 5   mipe de palma aceitera en perú - yurimaguas
Ponencia 5 mipe de palma aceitera en perú - yurimaguas
 
Cultivo de apio
Cultivo de apioCultivo de apio
Cultivo de apio
 
Bacterias y fitoplasmas
Bacterias y fitoplasmasBacterias y fitoplasmas
Bacterias y fitoplasmas
 
Tema 1 Introducción a la Fitopatología
Tema 1 Introducción a la FitopatologíaTema 1 Introducción a la Fitopatología
Tema 1 Introducción a la Fitopatología
 
Seleccion de semilla caña
Seleccion de semilla cañaSeleccion de semilla caña
Seleccion de semilla caña
 

Similar a Libro bioestadistica canales

Tabladedat1436559997 (1)
Tabladedat1436559997 (1)Tabladedat1436559997 (1)
Tabladedat1436559997 (1)tocxon
 
Tabladedat1436559997
Tabladedat1436559997Tabladedat1436559997
Tabladedat1436559997tocxon
 
Cuaderno de analisis. cat a abreviado
Cuaderno de analisis. cat a abreviadoCuaderno de analisis. cat a abreviado
Cuaderno de analisis. cat a abreviadoSusana Diaz
 
Informe deuda morosa 2° trimestre 2021 presentación
Informe deuda morosa 2° trimestre 2021  presentaciónInforme deuda morosa 2° trimestre 2021  presentación
Informe deuda morosa 2° trimestre 2021 presentaciónEmisor Digital
 
4 perfil de paciente derivado a consulta de suelo pelvico
4 perfil de paciente derivado a consulta de suelo pelvico4 perfil de paciente derivado a consulta de suelo pelvico
4 perfil de paciente derivado a consulta de suelo pelvicoSAMFYRE
 
Teorías de falla y sus aplicaciones.
Teorías de falla y sus aplicaciones.Teorías de falla y sus aplicaciones.
Teorías de falla y sus aplicaciones.Miguel Gachuz
 
Informe deuda morosa 3 trimestre 2020 ppt 03.12.2020
Informe deuda morosa 3 trimestre 2020  ppt 03.12.2020Informe deuda morosa 3 trimestre 2020  ppt 03.12.2020
Informe deuda morosa 3 trimestre 2020 ppt 03.12.2020Emisor Digital
 
XXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom Equifax
XXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom EquifaxXXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom Equifax
XXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom EquifaxEmisor Digital
 
Caries dental y ecología bucal, aspectos importantes
Caries dental y ecología bucal, aspectos importantesCaries dental y ecología bucal, aspectos importantes
Caries dental y ecología bucal, aspectos importantesAlejandra Blanco
 
Refistros Radioactivos..pdf
Refistros Radioactivos..pdfRefistros Radioactivos..pdf
Refistros Radioactivos..pdfAaaa Apelli
 
Psicologia-y-medicina-china
Psicologia-y-medicina-chinaPsicologia-y-medicina-china
Psicologia-y-medicina-chinaLupita Salas
 
Proyecto de investigacion
Proyecto de investigacionProyecto de investigacion
Proyecto de investigacionmilagroatacho
 

Similar a Libro bioestadistica canales (20)

Trabajo final de estadistica corregido
Trabajo final de estadistica corregidoTrabajo final de estadistica corregido
Trabajo final de estadistica corregido
 
Practica 2
Practica 2 Practica 2
Practica 2
 
Practica 2
Practica 2Practica 2
Practica 2
 
Refuerzo matemáticas noveno
Refuerzo matemáticas novenoRefuerzo matemáticas noveno
Refuerzo matemáticas noveno
 
5 raz. matem.
5 raz. matem.5 raz. matem.
5 raz. matem.
 
Tabladedat1436559997 (1)
Tabladedat1436559997 (1)Tabladedat1436559997 (1)
Tabladedat1436559997 (1)
 
Tabladedat1436559997
Tabladedat1436559997Tabladedat1436559997
Tabladedat1436559997
 
Cuaderno de analisis. cat a abreviado
Cuaderno de analisis. cat a abreviadoCuaderno de analisis. cat a abreviado
Cuaderno de analisis. cat a abreviado
 
Informe deuda morosa 2° trimestre 2021 presentación
Informe deuda morosa 2° trimestre 2021  presentaciónInforme deuda morosa 2° trimestre 2021  presentación
Informe deuda morosa 2° trimestre 2021 presentación
 
4 perfil de paciente derivado a consulta de suelo pelvico
4 perfil de paciente derivado a consulta de suelo pelvico4 perfil de paciente derivado a consulta de suelo pelvico
4 perfil de paciente derivado a consulta de suelo pelvico
 
Teorías de falla y sus aplicaciones.
Teorías de falla y sus aplicaciones.Teorías de falla y sus aplicaciones.
Teorías de falla y sus aplicaciones.
 
Informe deuda morosa 3 trimestre 2020 ppt 03.12.2020
Informe deuda morosa 3 trimestre 2020  ppt 03.12.2020Informe deuda morosa 3 trimestre 2020  ppt 03.12.2020
Informe deuda morosa 3 trimestre 2020 ppt 03.12.2020
 
XXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom Equifax
XXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom EquifaxXXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom Equifax
XXXII Informe Deuda Morosa 1 Trimestre 2021 Dicom Equifax
 
Informatica
InformaticaInformatica
Informatica
 
Serrano briseño maríaguadalupe_m3s1_sucesohistorico
Serrano briseño maríaguadalupe_m3s1_sucesohistoricoSerrano briseño maríaguadalupe_m3s1_sucesohistorico
Serrano briseño maríaguadalupe_m3s1_sucesohistorico
 
Caries dental y ecología bucal, aspectos importantes
Caries dental y ecología bucal, aspectos importantesCaries dental y ecología bucal, aspectos importantes
Caries dental y ecología bucal, aspectos importantes
 
Case
CaseCase
Case
 
Refistros Radioactivos..pdf
Refistros Radioactivos..pdfRefistros Radioactivos..pdf
Refistros Radioactivos..pdf
 
Psicologia-y-medicina-china
Psicologia-y-medicina-chinaPsicologia-y-medicina-china
Psicologia-y-medicina-china
 
Proyecto de investigacion
Proyecto de investigacionProyecto de investigacion
Proyecto de investigacion
 

Último

6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docxCeciliaGuerreroGonza1
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfMaryRotonda1
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSjlorentemartos
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arteRaquel Martín Contreras
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdfgimenanahuel
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfMARIAPAULAMAHECHAMOR
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFlor Idalia Espinoza Ortega
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 

Último (20)

6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdf
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arte
 
30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf30-de-abril-plebiscito-1902_240420_104511.pdf
30-de-abril-plebiscito-1902_240420_104511.pdf
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdf
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamica
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 

Libro bioestadistica canales

  • 1. · B I O E S T A D ( S T I C A Herramienta para la Investigación ANGEL CANALES
  • 2. BIOESTADÍSTICA. Herramient� para la Investigación Autor-Editor: © Ángel Canales Gutiérrez Puno - Perú Primera Edición, 201 1 Tiraje: 1000 ejemplares Diagramación y Edición: 1von Rocío Gutierrez Flores Hecho el Depósito Legal en la Biblioteca Nacional del Perú Nº 2 0 1 1 - 1 2 1 1 6 ISBN: 978-612-00-0700-6 Impreso en: Corporación MERÚ E.I.R.L. Jr. Puno 2 1 9 Interior esq. Con Jr. Moquegua, Telef. (051) 363934 - Puno Puno - Perú Octubre, 201 I
  • 3. l 1 t PRESENTACION La bioestadística, es una herramienta fundamental para realizar trabajos de investigación, donde se analiza variables biológicas, que sirven para plantear y probar hipótesis. Muchos investigadores poseen limitaciones para aplicar bioestadística descriptiva e ínferencíal, principalmente en esta última, siendo una limitante para publicar e interpretar los resultados obtenidos de la investigación. El libro Bioestadística: Herramienta para la investigación, permitirá al investigador encaminar en el campo de la investigación desde una biocstadístíca descriptiva simple hasta una prueba ínfercncial, permitiendo una mayor rigurosidad en la interpretación y discusión de los resultados obtenidos. La aceptación o rechazo de una hipótesis, no será posible sino no se aplica una prueba bioestadística adecuada. En el libro existe una variedad de ejemplos con variables biológicas, que posibilita al lector-investigador aplicar pruebas inferenciales. Contrariamente, existirá investigadores que no le dan importancia a la aplicación de pruebas bioestadísticas, siendo una respuesta a la limitación del conocimiento y utilidad de las diversas pruebas que detecten diferencias y/o igualdades en la investigación. EL AUTOR
  • 4.
  • 5. ÍNDICE PÁG. CAPÍTULO l. Principios de la bioestadística 07 1 . 1 Reseña histórica 07 1.2 Población y muestra 08 1.3 Precisión y exactitude 09 1.4 Parámetro 1 1 1.5 Estadígrafo 1 1 1 . 6 Ciclo metodológico 1 1. 1.7Variables 13 1.8 Distribución de frecuencias 1 5 1.9 Representación gráfica de datos 27 1 . 1 0 Problemas propuestos · 3 1 CAPÍTULO II. Estadística descriptiva 3 3 2.1 Media 33 2 . 2 Mediana 37 2.3 Moda 40 2.4 Desviación estándar 43 2 . 5 Varianza 48 2.6 Coeficiente de variabilidad 49 2.7 Problemas propuestos 50 CAPITULO 111. Probabilidades, distribuciones, límites de confianza, hipótesis, asimetrías 52 3 . 1 Probabilidades 52 3 . 2 Distribución normal de probabilidad 53 3.3 Distribución de Poisson y espacial 56 3.4 Intervalos de confianza 64 3.SAsimetríayKurtosis 66 3 . 6 Pruebas de hipótesis 69 3.7Tamañodemuestra 75 3.8 Problemas propuestos 82
  • 6. CAPITULO IV. Pruebas bioestadístícas paramétricas 83 4.1 Supuestos para pruebas bioestadísticas 83 4.2 ANDEVA de clasificación simple 94 4.3 ANDEVA factorial 1 1 0 4.4 Regresión 1 2 7 4.5 Correlación 134 4.5 Problemas propuestos 143 CAPITULO V. Pruebas no paramétricas 14 7 5.1 Ji cuadrado 149 5.2 Tabla de contingencia 154 5.3 Kruskal Wallis 159 5.4 Mann Whitney 169 5.5 Friedman Two Way 1 7 2 5.6 Problemas propuestos 1 7 7 ANEXOS 179 BIBLIOGRAFÍA 2 1 7
  • 7. _il. Canales G. CAPITULO I PRINCIPIOS DE LA BIOESTADISTICA Bioestadistica 1.1. RESEÑA HISTÓRICA: ETAPA INICIAL DE LA SISTEMATIZACIÓN Y ETAPA ACTUAL 1.2. POBLACIÓN MUESTRA 1.3. PRECISIÓN Y EXACTITUD 1.4. PARÁMETRO 1.5. ESTADÍGRAFO 1.6. CICLO METODOLÓGICO 1.7. VARIABLESCONTINUAS,DISCRETASYATRIBUTOS 1.8. DISTRIBUCIÓN DE FRECUENCIAS 1.9. HISTOGRAMAENFORMADEFIGURAS PROBLEMAS PROPUESTOS 1.1. BREVERESEÑAHISTÓRICA El desarrollo histórico de la estadística atraviesa por 3 etapas. a) Etapa inicial Se extiende desde la antigüedad hasta mediados del siglo XVIII. Se caracteriza porque la estadística está asociada a los censos poblacionales, registros de bienes y servicios del estado. La palabra estadística deriva del vocablo "estado". La cultura egipcia contó con recopilaciones regulares de datos de su administración estatal, sobresaliendo Saphkit, diosa de los libros y de los cuentos. b) Etapa de sistematización Se caracteriza por la aparición de escuelas que sistematizan la estadística, destacándose tres: Escuela alemana: Creó la primera cátedra de la estadística considerando esta disciplina como la descripción de los fenómenos concernientes a estado o administración. Escuela inglesa: Cuantificaron las leyes que rigen los fenómenos sociales, como consecuencia "aritmetizaron" la estadística. 07
  • 8. 1.2. POBLACIÓNYMUESTRA Escuela Francesa: Introduce la teoría de las probabilidades como . fundamento matemático de la estadística. Bioestadistica X 08 X Población A. Canales G. e) Etapa actual Comprendida entre principios del siglo XIX hasta nuestros días. En esta etapa, la matemática se plasma como la columna vertebral de la estadística y se caracteriza por el gran desarrollo alcanzado como ciencia y como metodología de investigación científica aplicada a todas las ramas del saber humano: biología, medicina, ingeniería, economía, entre otros. La estadística, es hoy un campo extremadamente activo, cuyas aplicaciones alcanzan a casi todas las ciencias e incluso a todas las humanidades. Conjunto de individuos de la misma especie que tienen las mismas características que viven en un determinado espacio y tiempo, pueden ser infinitos o finitos, denominado también universo. Población Es el conjunto mayor de objetos (universo) que estos tengan al menos una característica, acerca de las cuales se desea información. Muestra Es una parte de población que puede ser tomado aleatoriamente y debe ser una parte representativa de la población. Si la muestra no es representativa, no podemos inferir acerca de la población. Existen fórmulas para determinar el tamaño de muestra, siendo un dato muy importante para realizar trabajos de investigación.
  • 9. A. Canales G. Bioes tadística 1.3. PRECISIÓN Y EXACTITUD . "Exactitud" y " P r e c i s i ó n " s e u s a n · s i n ó n i m a m e n t e en la c o n v e r s a c i ó n n o r m a l , p e r o estadísticamente h a r e m o s u n a d i s t i n c i ó n . Exactitud, es la c e r c a n í a d e un dato m e d i d o o c o m p u t a d o a s u v e r d a d e r o valor. Precisión, es la c e r c a n í a entre m e d i d a s r e p e t i d a s d e l m i s m o o b j e t o o ente. L o s v a l o r e s p r e c i s o s s o n u s u a l e s , a u n q u e n o n e c e s a r i a m e n t e , n ú m e r o s e n t e r o s . Así, c u a n d o c o n t a m o s cuatro huevos en un n i d o , n o existe n i n g u n a d u d a a c e r c a d e l n ú m e r o exacto de huevos q u e hay en el n i d o si h e m o s c o n t a d o c o r r e c t a m e n t e ; s e r á n cuatro, n o c i n c o ni tres, y c l a r a m e n t e t a m p o c o p o d r á n s e r cuatro m á s o m e n o s u n a p a r t e fraccíonal, L a s v a r i a b l e s d i s c r e t a s , t a m b i é n s u e l e n m e d i r s e c o m o n ú m e r o s exactos. D e forma s i m i l a r l a s v a r i a b l e s c o n t i n u a s q u e d e r i v a n d e otras d i s c r e t a s p u e d e n , b a j o c i e r t a s c o n d i c i o n e s , s e r t a m b i é n n ú m e r o s e x a c t o s . S i e n u n a c o l o n i a de a n i m a l e s hay 1 8 h e m b r a s y 1 2 m a c h o s , la p r o p o r c i ó n entre h e m b r a s y m a c h o s es 1 , 5 v a l o r c o n t i n u o y t a m b i é n n ú m e r o e x a c t o . El ú l t i m o dígito d e la m e d i d a e s t a b l e c i d a d e b e , d e n o t a r p r e c i s i ó n , esto es, l o s l í m i t e s s o b r e la e s c a l a de m e d i d a s entre l o s q u e n o s o t r o s c r e e m o s q u e s e e n c u e n t r a e l v a l o r exacto. A s í u n a m e d i d a d e l o n g i t u d 1 2 , 3 mm q u i e r e d e c i r q u e el v e r d a d e r o v a l o r d e d i c h a l o n g i t u d s e e n c u e n t r a e n a l g ú n l u g a r e n t r e 1 2 , 2 5 m m y 1 2 , 3 5 m m . Entre e s t o s d o s l í m i t e s r e a l e s de 1 2 , 2 5 1 2 , 3 5 , s e e n c u e n t r a l a v e r d a d e r a l o n g i t u d d e l a e s t r u c t u r a que m e d i m o s , n o l o s a b e m o s . Algo p u e d e o b j e t a r s e al definir, c o m o h e m o s h e c h o , l o s l í m i t e s r e a l e s c o m o 1 2 , 2 5 y 1 2 , 3 5 m m . E s t o está c l a r o , d a d o q u e l a m e d i d a d e 1 2 , 2 i m p l i c a r í a c o n s i g o límites r e a l e s de 1 2 , 1 5 y 1 2 , 2 5 m m . ¿ E n t o n c e s , p u e d e c u a l q u i e r a p r e g u n t a r s e , c a e r a u n a m e d i d a exacta de 1 2 , 2 5 ? ¿ N o t e n d r í a i g u a l e s p o s i b i l i d a d e s de s e r e s c o g i d a e n c u a l q u i e r a de l a s d o s c l a s e s 1 2 , 3 y 1 2 , 2 c r e a n d o d e e s t a m a n e r a un e s t a d o i n s a t i s f a c t o r i o e n el m é t o d o ? Lo m i s m o o c u r r i r í a c o n u n a m e d i d a de 1 2 , 3 5 m m . ¿ D o n d e l a c l a s i f i c a r í a m o s , e n l a c l a s e 1 2 , 3 d e s d e 2 , 2 5 h a s t a 1 2 , 3 4 9 9 9 9 . . . , a s í c o r n o l o s d e 1 2 , 2 entre 1 2 , 1 5 y 1 2 , 2 4 9 9 9 . . . . . 09
  • 10. Biocstadisuca Con error y no No exacto 1 9 3 , 5 192, 85 192, 765 Sin error, pero no preciso :::::No exacto 192, 5 192, 75 192 , 7 5 5 192 , 3 192, 8 192, 76 G. Con error. pero = No exacto Sin error y .A. J O Figura 1.2. Diferencias entre error, precisión en la toma de datos Una regla fácil de recordar, es que el número de pasos de una unidad desde la más pequeña hasta la más grande de las medidas de una ordenación debería estar comprendido entre 30 y 3 0 0 . A continuación se presenta en forma de figuras las diferencias entre precisión y exactitud. Límites reales Tal argumento es correcto, pero cuando registramos un número como . 1 2 , 2 o 12,3 denotamos que la decisión, por supuesto, no es arbitraria, sino que está basada sobre la medida más válida. Si la escala de medidas es tan precisa que un valor de 1 2 , 2 5 fuese claramente reconocido, entonces la medida debería registrarse originalmente con cuatro cifras significantes. Los límites reales, por consiguiente, tienen una cifra más que la última cifra significante medida por el observador.
  • 11. .il. Canales G. 1.4. PARÁMETRO Y ESTADIGRAFO Bioes tadis tica ¡ ¡ ¡ J Parámetro Es un número que describe alguna característica de la población y para determinar su valor es necesario utilizar la información poblacional completa, y por lo tanto, las decisiones se toman con certidumbre total. Estadígrafo Es un número que se obtiene a partir de los datos muestrales y describe alguna característica de la muestra y la toma de decisiones contiene un grado de incertidumbre. 1.5. ESTÁDÍSTICA DESCRIPTIVA E INFERENCIAL Estadística: Es la aplicación de los conocimientos de la matemática con la finalidad de recolectar y analizar datos para obtener información. Bioestadistica Está relacionado a la recolección y análisis de datos biológicos o variables biológicos. Ejemplos: peso, talla, temperatura, número de especies, individuos, número de enfermedades, número de bacterias, entre otros. Estadística descriptiva Trata de la recopilación, clasificación, presentación y descripción de los datos. No es recomendable utilizar ésta estadística para analizar diferencias. Hay dos clases de estadística descriptiva, los estadísticos centrales o de localización y estadísticos de dispersión. Los estadísticos centrales señalan la posición de una muestra de dimensión dada. Por lo tanto, un estadístico central debe poseer un valor representativo para la masa de observaciones. Estadística inferencial Nos proporciona la teoría para tomar decisiones frente a la incertidumbre o afirmar algo acerca de la población a partir de los datos bajo estudio. Esta estadística, es la que debe de emplearse en trabajos de investigación y para publicaciones en revistas científicas. 1.6. CICLO METODOLÓGICO Cuando no sea posible obtener una información completa de la población, se extraen muestras representativas de dicha población mediante las 1 1
  • 12. 12 Este ciclo se cumple en la mayoría de los trabajos de la bioestadística. Muestra 0 . Bioestadística inferencia! Técnicas de muestreo Bioestadistica ���-��������· Provincias Mujeres Hombres Ayaviri 40 2 0 Azángaro 3 0 2 0 Huancané 6 4 Julia ca 80 70 Puno 1 0 0 80 Otros 5 4 POBLACIÓN _11. Canales G. Cuadro 1 . 1 . Procedencia de los Estudiantes de la Facultad de Ciencias Biológicas de la UNA Puno (2007). Figura 1.3. Ciclo metodológico de la bíoestadístíca inferencial. La recolección de los datos, es en forma desordenada, luego procedemos a ordenarlo y una vez ordenada, procedemos a presentar en forma de figuras, cuadros y tablas. En este proceso interviene el ciclo metodológico. Ejemplo: técnicas de muestreo y en base al estudio o información obtenida de los . datos muestrales se toman decisiones frente a la incertidumbre, o se afirma algo acerca de la población total con ayuda de la bioestadística í n f e r e n c i a l .
  • 13. iL Canales G. Bioestadistica 1 1 l 1 J Figura 1.4. Representación en forma de barras de los datos numéricos de alumnos de la FCCBB-UNA Puno 1.7. VARIABLES Qué es variable. Una variable es una propiedad con respecto a la cual los individuos de una muestra se diferencian en algo verificable y medible. Si la propiedad no diferencia a los individuos de la muestra bajo estudio, o al menos a las muestras que han sido estudiadas, p u e d e no s e r de interés estadístico. Conservándose uniforme, tal propiedad no sería una variable en el sentido etimológico de la palabra, y p o r tanto, ni siquiera debería ser llamada así. Las variables a d q u i e r e n valor para la investigación científica cuando pueden ser relacionadas con otras (formar parte de una hipótesis o una teoría). P o d e m o s dividir variables biológicas como sigue: 13
  • 14. 14 Ejemplos de variables continuas: longitudes, áreas, volúmenes, pesos, ángulos, temperaturas, períodos de tiempo, porcentajes. Variables mensurables. Son todas aquellas cuyos diferentes estados pueden ser expresados de una manera numérica. Podemos establecer una división en dos clases: Bioes tadistica_.A. Canales G. b. Variables discontinuas. discretas o merísticas. En contraste con las variables continuas existe otro tipo llamado de variables discontinuas, conocidos también como variables discretas o merísticas. Éstas son variables que poseen únicamente algunos valores numéricos fijos y además no pueden tomar valores intermedios entre dichos valores fijos. Por ejemplo, entre las medidas longitudinales, 1,5 y 1,6 cm hay un número infinito de longitudes que podrían ser medidas, si se tuvieran un método de calibración suficientemente preciso para obtener tales medidas. a. Las variables continuas Las cuales teóricamente pueden alcanzar un número infinito de valores entre dos puntos fijos cualesquiera. Variable ordinal o atributo Algunas variables no pueden ser medidas, pero pueden ser ordenadas y _ clasificadas por su magnitud. Así, en un experimento se puede clasificar ordenadamente la emergencia de 10 pupas sin especificar la hora exacta en la que cada pupa emergió. En tales casos, registramos los datos como una variable ordinal, que es el orden de emergencia. Así el número de artejos del apéndice de un insecto dado puede ser 4; 5 ó 6 pero nunca 5,5 ó 4,3. Ejemplos: El número de una cierta estructura (segmentos, cerdas, dientes ó glándulas), el número de vástagos o prole, el número de colonias de microorganismos, animales, número de plantas en un área determinada, entre otros. Cualquier lectura de una variable continua, tal como de la longitud 1,5 7mm, es desde luego una aproximación a la lectura exacta, la cual en la práctica es incognoscible. Para medir este tipo de variables se utiliza equipos e instrumentos.
  • 15. ...4. Canales G. Bioestadisuca Las variables que no pueden ser medidas, pero que puede expresarse cualitativamente, reciben el nombre de atributos. Todas ellas son propiedades, tales como blanco o negro, preñada o no preñada, vivo o muerto, macho o hembra. Cuando tales atributos aparecen combinados con frecuencias pueden tratarse estadísticamente. De 80 ratones, podemos establecer que cuatro de ellos son negros y el resto grises. Cuando los atributos se combinan con frecuencias en cuadros adecuados para su tratamiento, nos referimos a ellos llamándoles datos de enumeración. Así, los datosde enumeración sobre el color de los ratones, se dispondrían como siguen: Color Negro Gris Total Frecuencia 4 76 80 En algunos casos, los atributos pueden convertirse en variables, si esto se considera necesario. Así, cabe sustituir los colores por longitudes de onda o por valores sobre una figura, los cuales son magnitudes mensurables. Algunos otros atributos que pueden ser clasificados u ordenados, son susceptibles de ser codificados a fin de convertirlos en variables ordinales. Ejemplo: Los tres atributos siguientes que designaremos por las expresiones "pobremente desarrollado", "bien desarrollado", e "hipertrófico", podrían ser codificados convenientemente mediante las cifras 1, 2, 3. Estos valores denotan el orden de desarrollo pero no la magnitud relativa entre estos estados de crecimiento. 1.8 DISTRIBUCIÓN DE FRECUENCIAS Cuando se trabaja con conjuntos grandes de datos, con frecuencia es útil organizarlos y resumirlos por medio de la construcción de una tabla que liste los distintos valores posibles de los datos (ya sea de forma individual o por grupos), junto con las frecuencias correspondientes, es decir, el número de veces que ocurren dichos valores. Construcción de una distribución defrecuencias 1) Sean las siguientes cifras, los calificativos de un curso de bioestadística, en el que se han evaluado a n = 56 personas, siendo la escala de evacuación de O a 100. 15
  • 16. 16 Cuadro 1 . 3 . Ordenamiento de datos del menor al mayor BioestadisttcaA.. Canales G. Existen relaciones que no se perciben y para poder percibirlas se clasificarán los 56 datos en grupos o conjuntos, que en lenguaje bioestadístico se llaman intervalos de clases, según los siguientes pasos: 2) El siguiente paso es, ordenarlos sea en sentido creciente o en sentido decreciente. En el presente ejemplo ordenaremos en sentido creciente, es decir del menor al mayor dato. En el cuadro ¿qué relaciones podemos distinguir entre los números? Hay un valor menor o valor mínimo V min = 30 Existe un valor mayor o valor máximo= 9 5 Hay datos que se repiten 1 . ¿cuántas clases o intervalos necesitaremos? Para saber esto, se utiliza la fórmula de Sturges. Cuadro 1.2 Datos para la distribución de frecuencias 30 50 61 68 75 84 36 56 62 69 75 87 38 56 63 69 75 87 38 53 63 70 76 89 3 9 , 53 63 72 77 95 43 55 63 72 79 95 43 58 64 73 81 44 59 65 73 82 47 59 66 74 82 48 59 67 75 84 73 81 44 69 30 38 75 66 76 84 72 82 58 89 73 59 87 63 43 59 64 74 63 63 48 52 77 68 47 53 63 72 5 2 55 75 43 67 61 87 39 62 75 69 5 3 79 95 50 38 70 84 82 95 59 75 36 65 ¡ ' J
  • 17. I I i: >es 1 , u Iis t i , K = 1 + 3,3 l o g l/ En l a q u e : K = número de intervalos o clases N = número de datos (tamaño de la muestra) La fórmula de Sturges, es de mucha utilidad debido a que orienta y nos da una idea de cuantos intervalos usar, pero es una fórmula p o c o conservadora y n o s da un número de intervalos un poco menor del q u e se utiliza en la práctica. En este ejemplo: En la fórmula tenemos: K = 1 + 3 , 3 log 5 6 K = 1 + 3,3 ( 1 , 7 4 8 ) K = 1 + 5,8 K 6,8 log 5 6 = 1 , 7 4 8 La fórmula es conservadora, entonces para obtener el número que realmente es necesario, redondeamos al siguiente entero mayor. K = 7 Nota: En la práctica el número de intervalos debe tomarse alrededor de 10, el número de datos con el que se trabajan, es más o menos alrededor de 1 0 0 . Cuando el número de datos es menor que 1 0 0 , el número de intervalos se debe tomar menor de 1 0 . Para un número de datos bastante grande, el número de intervalos es mayor a 1 0 , la práctica aconseja los siguientes límites. 5 < K ;;;;,,. 1 5 Lo que quiere decir, es que se recomienda que el número de clases no debe ser m e n o r de 5 ni mayor a 1 5 . 2 . Luego se hace el recorrido o extensión de los datos que se denota con la letra L. Su fórmula e s : L = valor máximo - valor m í n i m o + 1 Se debe sumar el número 1 cuando l o s datos se expresan en números enteros, Si los datos son decimales no se toma l . 1 ''"7 � ¡
  • 18. V m a x = 95 V min = 30 L = 95 - 30 +1 L= 66 Entonces la extensión o recorrido en 66. 3) La idea es resumir los valores para percibir algunas características o propiedades de los datos, que no se notan a simple vista. Por la fórmula de Sturges tenemos 7 intervalos, clasificando las 56 notas en 7 grupos. El recorrido se dividiría en 7 partes iguales o intervalos. Se debe representar el ancho o amplitud de cada intervalo con la letra C. Este ancho de intervalo se obtiene mediante la fórmula: L C = ­ k Los valores L y K son conocidos: L = 66 y K = 7.0 Aplicando los datos en la fórmula anterior tenemos: 66 e = - = 9 43 7 1 Redondearemos a 1 O. El entero inmediato inferior a 10 es 9, y no es conveniente porque el recorrido de trabajo será: I = c x K = 9 x 7 = 63 esto daría lugar a que el dato 95 se encuentre fuera de este recorrido. Luego C = 10 y por lo tanto el recorrido de trabajo obtenido como consecuencia de redondear 9.43 a 10 será: T = c x K = 10 x 7 = 70
  • 19. � L Canales n. Bioe« uulistica . 4) Teniendo en cuenta que este recorrido es mayor que el recorrido original buscaremos el exceso: Exceso= 7 0 - 76 E x c e s o = 4 El exceso proviene de haber aumentado la amplitud de cada intervalo de 9,43 a 1 0 . Para buscar la simetría de la distribución de los datos, debemos repartir este exceso a los dos extremos del recorrido original, mitad para cada l a d o . vl + Z Restamos 2 al valor mínimo y sumamos 2 al valor máximo. 9 5 + 2 = 9 7 3 0 - 2 = 2 8 A partir del valor obtenido 2 8 agregamos sucesivamente la amplitud 1 0 y así obtenemos dos puntos de división que determinan los 7 intervalos (ver figura) 1 8 38 48 58 68 -g 88 98 Pero se presenta una dificultad cuando algunos de los datos coinciden con cualquiera de los puntos en división como son: 38, 48, 5 8 y 68 Supongamos que un dato es 3 8 ¿dónde lo colocamos? ¿ E n el primer intervalo de cuyos extremos son 2 8 y 3 8 ? ó ¿en el segundo que tienen los extremos 3 8 y 48? 19
  • 20. Intervalos o clases El siguiente intervalo [ 3 8 , 4 8 ] > al número 3 8 pero no al 48. Bioesuuiisticc: Intervalos o c l a s e s 2 8 � 3 8 3 8 � 4 8 4 8 - 5 8 5 8 - -> 6 8 68 ->78 7 8 · --> 8 8 8 8 - -.. 9 3 Intervalos o c l a s e s [ 2 8 - 3 8 > [ 3 8 - 4 8 > [ 48 - 5 8 > [ 5 8 - 68> [ 68 - 7 8 > [ 78 - 8 8 > [ 88 - 9 8 > • l . Canalc« G. Para hacer más sencilla la representación de los intervalos en la c o l u m n a matriz, reducimos el tamaño del corchete y del paréntesis a n g u l a r " > " y lo colocamos entre dos números, y escribimos 2 8 - 4 3 8 en vez de [ 2 8 - 3 8 > . Para despejar esta duda adoptaremos por acuerdo, el intervalo cerrado por la izquierda, que incluye el número 2 8 (extremo inferior del intervalo) y abierto por la derecha que no incluye el número 38 (extremo s u p e r i o r del intervalo). En el lenguaje matemático, un intervalo de este tipo se representa por el símbolo [ 2 8 , 3 8 > . El número 3 8 s ó l o sirve de frontera superior para indicar que el intervalo puede contener números anteriores a 3 8 , pero no al 3 8 . Por ejemplo, podrá contener el número 3 7 , 9 9 9 , pero nunca llegará a i n c l u i r el número 3 8 . E n la práctica, los intervalos deben colocarse unos debajo del otro, formando una c o l u m n a base o c o l u m n a matriz, que dará origen a la distribución de frecuencias. E j e m p l o s : Procediendo en forma similar para los otros intervalos, se obtiene la columna matriz que se presenta en el cuadro anterior. 5) El siguiente paso de este proceso de resumen, es ponernos de acuerdo que todos y cada uno de los datos que se halle dentro de un mismo intervalo, estén r e p r e s e n t a d o s p o r un m i s m o valor. Este valor caracterizan a la clase y por eso se llama marca de clase, la m i s m a que se obtiene promediando los extremos de cada intervalo. 20
  • 21. , l . Ccu 1.11 lcs ( · D i r 1 f ' S l . 1 u l i s , Las marcas de clase de los 7 intervalos son: 2 8 + 38 = 3 3 48 + 5 8 = 5 3 68 + 78 = 73 88 + 98 = 9 3 2 2 2 2 3 8 + 48 = 43 58 + 68 = 63 78 + 88 = 83 2 2 2 Otra manera de obtener la marca de clase, es promediar los extremos del primer intervalo (28 + 38) "'"" 2 = 3 3 y a continuación sumar la amplitud 1 0 , para de esta manera obtener la marca de clase del segundo intervalo que es 33 + 10 = 43 . Es decir, colocar cada uno de los datos en el intervalo que le corresponde. A medida que asignemos un dato a un intervalo anterior que es 43 más la amplitud 10, obteniendo 53, que es .la marca de clase del tercer intervalo y así podemos continuar hasta acabar con el séptimo intervalo. 6) Ahora llevaremos a cabo la clasificación y el conteo de los datos, es decir, colocar cada uno de los datos en el intervalo que le corresponde. A medida que asignemos un dato a un intervalo representaremos en la columna de conteo por medio de un palote. Una vez que hemos acabado de asignar todos los datos a un intervalo determinado, todos ellos estarán representados por la marca de clase de dicho intervalo. De esta forma, después de ordenar los datos en forma creciente (también se puede hacer todo el proceso de construcción de la distribución de frecuencia con los datos ordenados en forma creciente, lo que dará lugar a otro tipo de distribución de frecuencias). Tal como están en el cuadro anterior, tomamos como primer número 30, que está entre 28 y 38, es decir, pertenece el primer intervalo, a continuación marcamos un palote en la columna de conteo. El segundo número 36 también pertenece al intervalo 28 - 38, por lo tanto marcamos otro palote en el mismo casillero que le corresponde en la columna de conteo, y así sucesivamente hasta llegar al penúltimo número 89 que pertenece al intervalo de 88 - 98, luego marcaremos un palote e n · el casillero de ese intervalo en la columna de conteo y por último el dato 95 que también pertenece a ese intervalo, para el que asignaremos un palote en el casillero correspondiente de la columna de conteo. 2-1
  • 22. ' S Í U C / l s ! Ü ' U Cuadro 1.4 Cuantificación y conteo de datos Intervalos Marcas de clase Conteo Frecuencias 28 ----> 3 8 3 3 1 1 2 38 ->48 43 I I I I I I I 7 4 8 -----> 5 8 53 I I I I I II 7 5 8 - • 6 8 63 I I I I I I I I 11 1 I I I 14 6 8 - > 7 8 I I I II I I I 1 1 I I I I I 1 5 78 --->88 83 I I J I I I I I 8 8 8 -----> 9 8 93 I I I 3 n 56 Contando el número de palotes del primer intervalo, obtenemos dos palotes, lo que escribimos en la columna de frecuencias con el número 2, en el segundo intervalo obtenemos 7 palotes lo que expresamos escribiendo el número 7 en la columna de frecuencias. A continuación resumimos los pasos (5), (6) y (7) en el Cuadro 1 . 5 , al que se denomina cuadro de distribución de frecuencias absolutas. Cuadro 1.5. Distribución de frecuencias absolutas Intervalos Xi Fi 2 8 - - J. 3 8 3 3 2 3 8 --),48 43 7 4 8 - 5 8 5 3 7 5 8 ---> 68 6 3 1 4 6 8 - 7 8 7 3 1 5 78 -+88 83 8 88 -�98 9 3 3 n == 5 6 El subíndice i es una variable entera que indica un intervalo determinado y por lo tanto, en este caso, debe variar desde 1 hasta 7 (1 1, 2, 3, 4, 5, 6 y 7).
  • 23. ..J . Canales. G. Bioesuulistica ------------- .-- . .-·-· . ----- · - · - - - - - Lu e g o : Xl = 3 3 X2 43 X3 5 3 X4 = 63 X = 9 3 f1 = 2 f2 = 7 f3 = 7 f4 = 1 4 f = 3 Interpretación del cuadro de distribución defrecuencias Las frecuencias van cambiando a partir del valor 2 en el primer intervalo o clase, hasta alcanzar los valores mayores: 14 y 1 5 en los intervalos que están en la parte central de la columna de frecuencias. Al continuar creciendo la variable x, la frecuencia comienza a disminuir hasta llegar al valor 3, en el extremo inferior. Esto significa que hay pocos alumnos que tiene calificativo menor y también que hay pocos alumnos que tienen calificativo mayor. Así mismo, gran parte del número de alumnos tienen calificativos intermedios. Ejemplo 1 . 1 . Sean los siguientes pesos d e n = 50 personas tomadas de un gimnasio, el peso está expresado en kilogramos. 73 1 0 2 9 0 97 98 1 0 6 1 0 8 93 87 88 1 0 0 8 7 1 0 4 85 90 95 80 98 82 98 1 0 4 1 1 2 90 98 1 0 1 94 1 0 5 98 93 82 9 1 84 93 88 97 1 0 3 84 1 0 5 92 1 1 4 96 1 0 0 1 0 4 9 6 1 0 1 75 93 82 1 0 0 9 5 1) Construir un cuadro de distribución de frecuencias. Cuadro 1.6. Ordenamiento de datos en forma creciente 73 82 87 90 93 96 98 1 0 0 1 0 3 1 0 5 75 84 88 9 1 93 96 98 100 1 0 4 1 0 6 80 84 88 92 94 9 7 98 1 0 1 1 0 4 1 1 2 82 85 90 93 9 5 97 98 1 0 1 104 1 1 2 82 87 90 93 9 5 98 1 0 0 1 0 2 1 0 5 1 1 4 .28
  • 24. . J . Canales U. Bio-stcuiissica 2) Calculamos el número de intervalo mediante la fórmula de Sturges K = 1 + 3,33 log n K = 1 + 3,3 log 5 0 K = 1 + 3,3 (1,69) K = 1 + 5 , 5 8 K = 6,58 Como la fórmula de Sturges es un poco conservadora, nos dará un valor algo m e n o r del necesario, luego redondearemos este valor al entero inmediato superior. . K = 7, entonces tendremos 7 intervalos o clases 3) Luego determinaremos el recorrido de extensión de los datos mediante la siguiente fórmula. I = valor máximo valor m í n i m o + 1 Valor máximo = 1 1 4 Valor m í n i m o = 7 3 1 = 1 1 4 - 7 3 + 1 = 4 2 4) C o m o con la fórmula de Sturges hemos obtenido 7 intervalos o clases, tendremos que dividir el recorrido en 7 partes iguales o 7 intervalos. En la fórmula I = c x k, ya sabemos que I = 42 y K = 7, entonces la amplitud de cada uno de los intervalos, que llamaremos c será: 1 42 c = - = - = 6 K 7 5) Ahora elaboraremos la columna matriz o columna base de la distribución de frecuencias. Comenzaremos a construir el primer intervalo, para lo cual sumamos la amplitud 6 al valor mínimo, que será el extremo inferior de l primer intervalo, obteniendo de este modo el extremo superior del primer intervalo: Extremo inferior+ amplitud= 73 + 6 = 7 9 Obtenernos de este modo el primer intervalo 7 3 --. 7 9 24
  • 25. _A. Canales G. Bioestadistica Para el segundo_intervalo tomaremos como número menor 85 y como número límite superior 85 + 6 = 9 1 , procediendo en la misma forma para los demás intervalos, obtenemos el cuadro. Estos intervalos forman la columna matriz, que se encuentran en el cuadro y es la que se muestra en el siguiente cuadro de distribución de frecuencias. +H -H+H- 73 7JJ 85 j'1 lp. 103 101 1 1 � Observamos. que en los intervalos son del tipo semi-cerrado, luego el primer intervalo: 73-> 79, contiene como propio al número 7 3 , pero no contiene el número 79, el cual sirve sólo de referencia superior; puede contener el número 78,78 o el número 7 8 , 9 9 8 pero no al 7 9 . El siguiente intervalo si contiene el número 79, como propio, pero no el número 85 que sólo le sirve de referencia superior. Intervalos 73 ----+ 7 9 79 ----+ 8 5 85 ----+ 9 1 9 1 ----+ 9 7 97 ----+ 1 0 3 1 0 3 ----+ 1 0 9 1 0 9 - 1 1 5 6) A continuación convenimos en que todos y que cada uno de los años que se hallan dentro de un mismo intervalo, estarán representados por el mismo valor que se denomina marca de clase. Las marcas de clase se obtienen promediando los extremos del intervalo. Las marcas de clase de los 7 intervalos serán: 73 + 79 = 76 85 + 91 = 88 97 + 1 0 3 = 100 109 + 115 = 1 1 2 2 2 2 2 79 + 85 = 82 2.1±_97 = 94 1 0 3 + 109 = 106 2 2 2 Nótese que las marcas de clase se podrían obtener promediando los extremos del primer intervalo (73 + 79)/2 = 76 y luego, procediendo a sumar sucesivamente la amplitud seis. Así, para el segundo intervalo 25
  • 26. 26 BioestadisticaA:. Canales G. Cuadro 1 . 7 . Intervalos, conteo y frecuencias Después el valor 8 0 que pertenece al intervalo 79 - 8 5 , entonces d i b u j a m o s un palote en el segundo casillero de la c o l u m n a de conteo y así continuamos dibujando palotes en l o s casilleros d e la columna de conteo, hasta llegar al penúltimo dato 1 1 2 que pertenece al intervalo 1 0 9 - 1 1 5 . Luego dibujamos un palote en el último intervalo de la columna de conteo y por último tenemos el valor 1 1 4 , que también pertenece al último intervalo, p o r lo tanto dibujamos un palote en el último casillero de la columna de conteo. 7) En el siguiente d e b e m o s realizar la clasificación y conteo de los datos, o sea colocar cada uno de ellos dentro de su restrictiva clase, representando cada dato por un palote. D e esta manera centramos nuestra atención, en los datos o r d e n a d o s en forma creciente y así vemos que el primer número, el 7 3 , pertenece al primer intervalo: 7 3 - 79, luego dibujamos un palote en el primer casillero de la columna de conteo. A continuación en el número 7 5 q u e también perítense al primer intervalo, dibujamos un palote en el primer casillero de la columna de conteo. tenemos la marca de clase del primer intervalo más la amplitud 6 : 7 6 + 6 = 8 2 , para el tercer intervalo tendremos 8 2 + 6 = 88 y así hasta la marca de clase del séptimo intervalo. Luego contamos el número de palotes en cada casillero de la columna de conteo y lo expresamos en una columna adicional, que será la columna de frecuencias. Para el primer casillero tenemos 2 palotes, le corresponde la frecuencia 2 , para el segundo tenemos 6 palotes, le corresponde la frecuencia 6 . Así continuamos hasta el último casillero, tenemos 8 palotes que lo expresamos con la frecuencia 8 y el último que tiene 2 palotes lo expresamos con el 2 . Intervalos Conteos Frecuencias 73 --> 7 9 l I 2 79 --> 8 5 I I I I I I 6 85 -->91 I I I I I I I I 8 9 1 --.. 97 lI I I I II III I 1 1 97 ··-, 103 I I I I I II I I I I I I 1 3 1 0 3 - � 1 0 9 I I I I I I I 8 1 0 9 --> 1 1 5 II 2 n = S O :1 l ·i;., 'i ' ¡ : ¡ n H l ¡ : ' : l ,1 'l 1 . ¡ ¡ 1 j ' 1 1 i 111 l : ¡ ¡" 1 !
  • 27. l:l. Canales G. Bioestadistica Por último, resumimos los pasos (5), (6) y (7) en el siguiente cuadro de distribución de frecuencias: Cuadro 1.8. Intervalos, marcas de clase y frecuencias Intervalos Xi Frecuencias 7 3 - 7 9 76 2 7 9 - 8 5 82 6 8 5 - 9 1 88 8 9 1 - 9 7 94 1 1 97 - 1 0 3 1 0 0 13 103 +: 109 106 8 109 -> 1 1 5 1 1 2 2 n = SO EL subíndice i aparece en el encabezamiento de la columna Xl y de la columna fi, es una variable entera cuyos valores son: i = 1 , 2 , 3 , 4 , 5 , 6 y 7 Xl = 7 6 X2 = 82 X3 = 88 X 7= 1 1 7 1.9 REPRESENTACIÓN GRÁFICA DE DATOS f1 = 2 f2 = 6 f3 = 8 f 7= 2 Histogramas Entre los distintos tipos de figuras, los histogramas son particularmente importantes. El histograma es una figura de barras, en donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias. Las alturas de las barras corresponden a los valores de frecuencias, en tanto que las barras se dibujan de manera adyacente (sin espacios entre ellas). El histograma no es adecuado para determinar si hay cambios a lo largo del tiempo. 27
  • 28. _,A. Cuna/es Bioesuulisiicc: En la Figura 1.5, se presenta un histograma que corresponde a la distribución de frecuencia del Cuadro 1 . 5 . La altura de los puntos corresponde a las frecuencias de clase, en tanto que los segmentos lineales se extienden hacia la derecha y la izquierda, de manera que la figura inicia y termina sobre el eje horizontal. 9888786848 58 Figura 1 . 5 . Histograma de frecuencias 28 38 15 Polígono defrecuencias EL polígono de frecuencia, utiliza segmentos lineales conectados a puntos que se localizan directamente por encima de los valores de las marcas de clase. AsC para el intervalo 28 -�38 le corresponde la altura de 2 (frecuencia). De esta forma, dibujamos un rectángulo cuya base es el intervalo 28 --� 38 y cuya altura es 2. Para el siguiente intervalo de frecuencias 38 - - > 48 le corresponde la altura 7. Para el siguiente intervalo 48 --> 58 tendremos un rectángulo cuya base es dicho intervalo y cuya altura es el valor 7, porque 7 es la frecuencia que corresponde a ese intervalo. Así procedemos a dibujar los demás rectángulos hasta llegar al intervalo 88 ---> 98 que se toma como base del último rectángulo, siendo su altura 3. Comenzaremos determinando las escalas horizontal y vertical. Luego sobre el intervalo 88----> 96, dibujamos un rectángulo cuya base es el rectángulo 8 8 ---> 9 6 y la altura es la frecuencia 5, de esa forma continuamos hasta el último intervalo y obtenemos la Figura 1 . 6 .
  • 29. Bioestodistica f 15 9 6 3 O X 88 96 104 112 120 128 136 144 .A. Canales G. Figura 1.6. Histograma de frecuencias y polígono de frecuencias Observación Si unimos los puntos de la línea superior de cada uno de los rectángulos de un histograma de frecuencia obtendremos el polígono de frecuencias correspondiente a la misma distribución de frecuencias. Ejercicios de polígonos e histogramas defrecuencias En el papel milimetrado dibujar los polígonos y los histogramas de frecuencias de las distribuciones de frecuencias. 14 Frecuencias absolutas n 10 8 6 4 2 o / ..___._ .........._Intervalos ..3 79 85 91 �r 103 109 115 Figura 1.7. Polígono de frecuencias absolutas e intervalos 29
  • 30. ;L Canalc» Biocstcu lis iico 3 38 46 62 70 78 Figura 1.8. Polígono de frecuencias absolutas e intervalos Ahora, realizaremos una figura . c o n barras para las frecuencias porcentuales. Primero elegiremos la escala horizontal, sistema de coordenadas rectangulares, señalamos las categorías en el eje horizontal, y en el eje vertical colocamos la frecuencia absoluta. Escala horizontal 1 distancia 1,2 cm Donde la distancia será la separación que hay en el eje horizontal entre cinco categorías (casados, solteros, divorciados, viudos y categorías de los que no declaran). No hay ninguna regla particular que señale la magnitud de la distancia. Como hay 5 categorías, el tamaño de la base será: B a s e = 5 x 2cm = 10cm. Determinación de la escala vertical. Como la altura debe ser % de la base, tendremos: Altura= .3. ( b a s e ) = .3. ( 1 0 c m ) = 3 0 4 4 4 7,Scm Por lo tanto la altura máxima de la figura será 7,Scm, hacemos el siguiente razonamiento:
  • 31. A Canales G. (Altura máxima) 7,Scm __ 25 unidades de frecuencia lcm x lcm * 2 5 u . d. f X = = 3 , 3 3 7,Scm Escala vertical Bioesuulisiica lcm = 5 u.d.f. Luego en la escala vertical para cada cm le corresponde 5 unidades de frecuencia absoluta (u.d.f.). Se ha aproximado a S por comodidad porque este número ofrece facilidades para trabajar en el papel milimetrado. Así, para el valor 2 5 u.d.f. trazamos una línea horizontal, hasta cortar la barra levantada por la categoría casado, quedando de este modo determinada la altura de la barra. e s o V NO / . 1 . • 1 Figura 1.9. Barras con frecuencias absolutas de las cinco categorías 1 . 1 0 PROBLEMAS PROPUESTOS 1 . Haga un listado de 20 variables continuas, 20 discretas y 20 atributos, relacionados con variables estadísticas. 2. Resuelva el siguiente ejercicio de datos desordenados, recolectado de campo sobre número de plantas silvestres en 1m2, evaluado en el cerro Huaje de Puno. 31
  • 32. A . Canales ( x . a) Calcule los datos en un cuadro b] Calcule cuántas clases de intervalos se requieren. liiucstudisticn 3. Haga 1 0 ejemplos de precisión y 1 0 ejemplos de exactitud. c) Represente en forma de figuras los resultados de los siguientes datos: S, 4 , 3 , 4 , 4 , 8 , 1 1 , 1 2 , 8 , 6 , 6 , 1 3 , 1 6 , 1 7 , 1 4 , 1 7 , 1 9 , 7 , 1 8 , 2 2 , 2 1 , 2 0 , 7 , 9 , 1 4 .
  • 33. .A. Canales G. CAPITULO II ESTADÍSTICA DESCRIPTIVA Bioestadistica 1 1 2 . 1 . M E D I A 2 . 2 . MEDIANA 2 . 3 . M O D A 2.4. DESVIACION ESTANDAR 2 . 5 . VARIANZA 2.6. COEFICIENTE DE VARIABILIDAD 2.7. PROBLEMAS PROPUESTOS 2 . 1 . M E D I A La media es en la mayoría de los casos un valor no observable, viene dado en la misma unidad de medida que la variable. Es la más usual de las medidas de concentración y la más conocida. Es llamada también media aritmética o promedio. Para calcular la media se distingue dos casos: 1. Cuando los datos no están agrupados 2. Cuando los datos están clasificados, formando distribuciones de frecuencias. Primer caso: Cuando los datos no están agrupados, se suman los números y se dividen entre el número de casos. Ejemplo 2 . 1 . Los datos son calificaciones del curso de bioestadística, de un alumno de la Facultad de Ciencias Biológicas de la UNA Puno. Primer examen 14 Segundo examen 1 3 Prácticas 12 Quizes 1 5 Suma total 54 Nota final (media) 54/5 = 1 3 , 5 3 0 o
  • 34. .A. Canales U . Ejemplo 2.2. Hallar la media aritmética de: 5, 7, 9, 3, 4, 6. B i o es u ui i s ii c c : La fórmula para calcular la media aritmética para este caso incluye el símbolo L, que se llama sumatoria e indica operación de adición. - 1 f, X = � ¿ X i i = l Donde: i, es la variable entera que toma valores desde i = 1, i = 2, i 3 y así sucesivamente hasta i n. Desarrollando el símbolo sumatoria tenemos: 1 X = - (x l + x2 + x3 + · . . + xn) n Volviendo a los datos que teníamos al comenzar el presente ejemplo tenemos: Nos dieron 6 números 5, 7, 9, 3, 4 y 6, entonces n = 6. 1 1 X = 6 (S + 7 + 9 + 3 + 4 + 8) = 6 (36) = 6 n Con respecto al símbolo ¿ x¡ se dan casos en que se simplifica y se escribe la L x 1, en vez de i X¡ • Es'to se hace cuando no hay posibilidades de crear confusiones. issl Ejemplo 2 . 3 . Encontrar el promedio de los siguientes datos: 15, 16, 17, 13, 9, 1 1 , 10, 1 3 , 19, 2 1 Fórmula: n X = �Ixi i = L X = 1 / 1 0 (15 + 16 + 1 7 + 13 + 9 + 1 1 + 10 + 13 + 19 + 21) 14.4 Segundo caso: Cuando los datos están agrupados formando cuadros de frecuencias, se utiliza la fórmula: ""' f. X . X == L.. 1 1 n
  • 35. /1. Canales G. x: Media aritmética f : frecuencia de cada dato. X;: cada uno de los datos BirJcstadistfr·a Ejemplo 2.4. Datos de la longitud de las de una muestra de población de mariposas. Calcular la media aritmética. X¡ (cm) f¡ f¡X¡ (cm) 3,3 1 3 , 3 3,4 o o 3,5 1 3 , 5 3,6 2 7,2 3 , 7 1 3 , 7 3,8 3 1 1 , 4 3,9 3 1 1 , 7 4,0 4 1 6 , 0 4 , 1 3 1 2 , 3 4,2 2 8,4 4,3 2 8,6 4,4 1 4,4 4,5 1 4,5 6Íi = 24 I=:LX¡ = 9 5 , 0 ¿f¡ = n = 24 _ 95,0cm X = = 3 96cm 24 1 Propiedades de la media 1) La suma algebraica de las desviaciones de un conjunto de valores con respecto a su medía aritmética es O. Explicación Sean los números: 1 5 , 2 , 1 0 , 8 , 9 y 7 Su media aritmética: ( 1 5 + 2 + 1 0 + 8 + 9 +7) + 6 = 5 1 + 6 = 8.5
  • 36. Bioestadistica Las ideas con los números 12, 5, 7, 8. 2) La suma de los cuadrados de las desviaciones de un conjunto de números: xl x2 x3 . . . xn con respecto a su media x, es mínimo. Explicación Esta propiedad significa que si calculamos la suma de los cuadrados de las desviaciones con respecto con respecto a otro número cualquiera a, diferente de la x y comparamos con la suma de cuadrados de Ias desviaciones con respecto a la media, comprobaremos esta última es menor. Primero: calcularemos las desviaciones con respecto a la media. Su media es: (12 + 5 + 7 + 8) + 4 = 3 2 + 4 = 8, es decir X = 8 sus desviaciones con respecto a la media son: 1 2 - 8 = 4; 5 - 8 = -3 7 - 8 = 1 8 - 8 = O La suma de los cuadrados de estas desviaciones es: 4 2 + (-3)2 + 0 2 = 16 + 9 + 1 + o = 26 Segundo: Calculemos las desviaciones con respecto a cualquier otro número: 10 (2)2 + (-5)2 + (-3)2 + (-2)2 = 4 + 2 5 + 9 + 4 = 42 Comparando 1 y 2 vemos que: 2 6 < 42, lo que verifica la propiedad. Sus desviaciones con respecto a la media son: ( 1 5 - 8.5), (2 - 8.5), (10 - 8.5), (8- 8.5), ( 9 - 8 . 5 ) , (7 - 8.5), la suma es: ( 1 5 - 8.5) + (2 - 8.5) + ( 1 0 - 8.5) + ( 8 - 8.5) + (9 - 8.5) + (7 - 8.5) = 6 . 5 - 6.5 + 1 . 5 - 0 . 5 + 0 . 5 - 1 . S = O Usos de la media 1.- La media de la muestra se usa cuando se necesita una medida de tendencia central que no varíe mucho entre una y otra muestra extraída de la misma propiedad, esta es la razón para preferirla, cuando se desea la máxima confiabilidad en la estimulación de la media poblacional. 2.- También se usa la media cuando la distribución de frecuencias de los datos es simétrica o tiene poca asimetría. Igualmente cuando se aproxima a la distribución normal de probabilidades porque esta distribución es simétrtca.
  • 37. A . Canales G. Bioes tadis Ucu 3.- Se calcula la media, varianza o la desviación estándar (según medidas de variabilidad que se estudiarán). Ejercicios para calcular la media aritmética Hallar la media aritmética de los siguientes datos: a) 1 2 , 1 4 , 1 � 9 , 1 4 , 1 2 , 1 3 , 1 8 , 2 1 b) 2 2 , 24, 30, 19, 18, 2 2 , 3 3 , 28, 26, 3 2 Calcule la media aritmética para las siguientes distribuciones de frecuencias. Intervalos Frecuencia 2 8 - 3 8 7 3 8 - 4 8 4 4 8 - 5 8 1 2 5 8 ->68 5 68 -;,.78 9 7 8 - 8 8 1 3 8 8 - 9 8 4 Intervalos Frecuencia 88 -¿ 9 6 2 1 9 6 ->104 1 5 1 0 4 - 1 1 2 2 5 1 1 2 - 1 2 0 1 6 1 2 0 - 1 2 8 1 1 1 2 8 - 1 3 6 1 3 1 3 6 - 1 4 4 2 2 ¡ 2 . 2 . MEDIANA La mediana es el punto que divide la distribución de los datos en dos partes iguales. Por debajo de la mediana estará la mitad del número de casos y por encima de ella estará la otra mitad. La mediana se designa con el símbolo Md. Se presentan dos casos 1. Cuando los datos no están agrupados 2. Cuando los datos están clasificados, formando distribuciones de frecuencias. Primer caso a) Cuando el número de elementos de la clasificación es impar. Ejemplo 2 . 5 . 3, 8, 56, 14, 26, 3 1 , 2, 7, 52 hay nueve elementos. Lo primero que se hace es ordenar los datos en forma creciente (también se podría ordenar en forma decreciente).
  • 38. Ejemplo 2.6. 38, 56, 87, 2 2 , 15, 90, 43, 33 Ordenamos: 1 5 , 2 2 , 3 3 , 39, 43, 56, 87, 90 Bices iad is cicaG..iL 39 + 43 Md = = 4 1 2 Vemos que hay dos valores centrales, la mediana será la media de esos valores centrales. 2, 3, 7, 8, 14, 24, 3 1 , 52, 56 La mediana es el número que ocupa el centro de la distribución. Observamos que hay cuatro valores menores que 14 y 4 valores mayores que 14, entonces la mediana es 14. B) Cuando el número de elementos de la distribución es par. Segundo caso Ejemplo2. 7. Calcular la median de la distribución de valores. i· 1 · :j i 1 ! j Intervalos fi Fi i = 1 2 8 --" 3 8 2 2 i = 2 3 8 --" 4 8 7 9 i = 3 4 8 --" 5 8 7 16 i = 4 5 8 --" 6 8 14 30 i = 5 68 ->78 15 45 i = 6 7 8 - 8 8 8 53 i = 7 88 ->98 3 56 n = 56 Se debe seguir la siguiente regla 1) Se obtiene las frecuencias acumuladas. Estas frecuencias acumuladas presentan un ordenamiento de los 56 elementos de la distribución, así: En el primer intervalo están los elementos: 1 º - 2º En el segundo intervalo están los elementos: 3º - 4 º - 5º - 6º - 7º - 8º - 9º En el tercer intervalo están los elementos: 1 7 º - 1 8 º - 1 9 º . . . 29º - 3 0 º 38
  • 39. En la quinta clase están los elementos: 3 1 º - 3 2 º - 3 3 º . ..44º - 45º En la sexta clase están los elementos: 46º - 47º - 48º . . . 5 2 º - 5 3 º y en la séptima y última clase están los elementos: 54º - S S º y 5 6 º 2) Se determina la clase en donde se encuentra la mediana, para esto se hace la división: n 56 - = - = 28 2 2 Luego, la media no ocupa el lugar 2 8 º y por lo tanto, debe encontrarse en la clase cuarta (i = 4) puesto que en esta clase están los elementos que ocupan los lugares 1 7 º hasta el 3 0 º . 3) Se aplica la fórmula: ( g - Fi - 1) Md extremo inferior+ 2 fi c Datos Extremo inferior del intervalo (i = 4) es 58 n/2 = 29 f4 = 14 en la frecuencia del intervalo donde están Md. C = 10 amplitud del intervalo. Fi - 1 = F4 1 = F3 = 16, frecuencia acumulada hasta la tercera clase, es decir, acumulada hasta la clase anterior o clase en donde está la mediana (i = 4 ) . Reemplazamos los datos en la fórmula y obtenemos: (29 - 16) Md = 56 + 10 14 M d = 56 + 9,29 6 5 , 2 9
  • 40. A . Canales G. · E j e m p l o 2.8. n 40 - = - = 20 2 2 Luego la mediana está en la clase tercera (i = 3) Luego se aplica la siguiente fórmula: Btoestadistica (� - Fi - 1) Md . .e . + 2 = extremointerior ---f-i--c Intervalos fi F i = 1 28 -> 3 8 5 5 i = 2 3 8 - > 4 8 8 13 i = 3 4 8 --> 5 8 1 5 8 i = 4 5 8 --> 6 8 3 3 1 i = 5 6 8 - > 7 8 5 3 6 i = 6 78 ->88 2 38 i = 7 88 ->98 2 40 n = 40 Datos: Extremo inferior= 48 N/2 = 2 0 F i = f3 = 1 5 C = S F i- 1 = F 3 - 1 = F 2 = 1 3 (20 - 1 3 ) Md = 4 8 + 1 5 8 = 5 1 , 7 3 2 . 3 . M O D A Llamaremos moda de una distribución de frecuencias, al valor de las variables correspondiente a la mayor frecuencia de datos o lo que es lo mismo el valor representado o el máximo de individuos. Cuando el número de observaciones es pequeño, no debe calcularse la moda, ya que no puede apreciarse si existe una decidida tendencia de los valores concentrarse en uno solo. Si se trata de una distribución de frecuencias con datos discretos, no agrupados, el cálculo es inmediato: basta con mirar la columna de frecuencias absolutas, y el valor de la variable correspondiente a la máxima frecuencia, es la moda. 40
  • 41. A. Canale: G. Bioesuulistic« .:__,:_ �_" ., �····-------------·-··-------·-----�--------------------------------------·-·-- . La m o d a de u n c o n j u n t o d e d a t o s es el v a l o r más r e p e t i d o . S e r e p r e s e n t a . p o r el s í m b o l o M o , Primer caso: 1 ) D e t e r m i n a r l a m o d a d e l s i g u i e n t e c o n j u n t o d e d a t o s : 2 , 2 , 3 , 4, 5 , 6 , 7 , 7 , 7 , 9 , 9 , 1 2 . La m o d a e s e l n ú m e r o 7, p o r q u e s o n l o s m á s r e p e t i d o s ( 3 v e c e s ) . E s t a d i s t r i b u c i ó n s e l l a m a u n i m o d a l , p o r q u e s ó l o p o s e e u n a m o d a . 2 ) E l s i g u i e n t e c o n j u n t o d e d a t o s n o t i e n e m o d a : 1 5 , 1 9 , 2 0 , 3 5 , 4 7 , 5 9 , 6 5 . P o r q u e n i n g u n o d e e l l o s está r e p e t i d o 3 ) La s i g u i e n t e d i s t r i b u c i ó n e s b i m o d a l , e s d e c i r , t i e n e d o s m o d a s : 8 , 9 , 9, 1 3 , 1 3 , 1 3 , 1 3 , 1 8 , 2 0 , 2 4 , 2 4 , 2 4 , 3 3 , 5 9 , 7 8 , 7 8 . M o = 1 3 y t a m b i é n M o = 2 4 . 4) La s i g u i e n t e e s t r i m o d a l : 4, 8 , . 8 , 8 , 1 5 , 1 5 , 1 5 , 2 0 , 2 0 , 2 1 , 2 1 , 2 1 , 2 1 , 3 2 , 4 0 , 4 0 , 4 0 , 4 0 , 8 0 , 8 0 , 9 0 . M o = 8, M o = 2 1 , M o = 4 0 Segundo caso: C u a n d o l o s d a t o s e s t á n a g r u p a d o s f o r m a n d o u n a d i s t r i b u c i ó n d e f r e c u e n cia s , l a m o d a s e c al c u l a p o r l a s i g u i e n t e f ó r m u l a : Mo = Extremo i n f e r i o r + [ 61 ] e 61 + 62 En do n d e : El e xt r e m o i n fe ri o r r e p r es e n t a e l v a l o r i n f e r i o r d e l a c l a s e m o d a l . 61- Re pr e s e n t a e l e xc e s o d e la fr e c u e n c ia d e l a c l a s e m o d a l , c on r e s p e c t o a l a c l a s e c o n t i g u a p o s t e r i o r a e l l a. 62-- Re p r e s e n t a el e xc e s o d e la fr e c u e n c i a d e l a c l a s e m o d a l c o n r e s p e c t o a la c l a s e c o n t i gu a p o s t e r i o r a e l l a . C ---- Re pr e s e n t a a la a m pl i t ud d e c a da i n t e r v al o . Ll am a m o s c l a s e m o d a l a qu e l l a q u e t i e n e l a m a y o r fr e c u e n c i a . Ejemplo 2.9. E n l a d i s t r i b u c i ó n d e f r e c u e n c i a s d e l c u a d r o s ig u i e n t e, c a l cul a r l a m o d a : 41
  • 42. /L Canales G. Bioestadisuca Extremo inferior; es el valor inferior de la clase 68 -----> 78 o clase modal, entonces el extremo inferior es 68. Para el cuadro de arriba (izquierda), buscamos cuál es el intervalo o clase que tiene la mayor frecuencia, siendo 15 y corresponde a la clase 68 � 78 llamándose clase modal. ¡ 1 s :1 � l�. l· � JI i' Intervalos f 28 ----> 3 8 2 38 --> 4 8 7 48 ----> 5 8 7 58 ----> 6 8 14 68 ----> 7 8 1 5 78 ----> 8 8 8 88 ----> 9 8 3 Intervalos f 88 ----> 9 6 5 96 - � 1 0 4 8 1 0 4 ----> 1 1 2 1 5 1 1 2 ->120 3 1 2 0 ----> 1 2 8 5 1 2 8 - -* 1 3 6 2 1 3 6 - 1 4 4 2 LH-15 - 14 - 1; jj,2 - 1 5 -8 - 7 C - 1 0 X, Md, Mo 42 Tercero: En general la moda es la menos usada. M o = Extremo inferior+ [ .D.i ] e .D.1 + .D.z Mo = 68 + [- 1-] 1 0 1 + 7 M o - 6 8 + 1 0 / 8 - 6 8 + 1 , 2 5 - 6 9 , 2 5 Mo --- 6 9 , 2 5 Segundo: Cuando se desea conocer el punto de máxima frecuencia en una distribución asimétrica de datos, esto es el valor más repetido d e · un conjunto de datos. Usos de la moda Primero: Cuando se necesita una estimación rápida de la tendencia central. Aplicado la fórmula:
  • 43. Bioes uuiistico. . O b s e r v a c i ó n : E n l a s d i s t r i b u c i o n e s d e f r e c u e n c i a s s i m é t r i c a s , l a s t r e s m e d i d a s a n t e r i o r e s c o i n c i d e n : X - M d - - M o . Cuadro 2 . 1 . Comparación de la media, mediana y la moda Medida Definición ¿Qué tan Existencia ¿Torna ¿Seve Ventajas y de común es? en afectada desventajas tendencia cuenta por central cada valores valor? extremos? Media µ = í:x/n "promedio" Siempre Sí Sí Funciona más existe bien con conocido muchos 1 métodos ¡Mediana estadísticos. Valor en De uso Siempre No No Suele ser medio común existe una buena opción si hay algunos valores extremos Moda Valor más Se usa en Podría no No No Apropiada frecuente ocasiones existir; para datos podría en el nivel haber más nominal de una --· 2.4 DESVIACIÓN ESTÁNDAR O DESVIACIÓN TÍPICA La d e s v i a c i ó n e s t á n d a r d e u n c o n j u n t o d e d a t o s m u e s t r a l e s , e s l a m e d i d a d e v a r i a c i ó n d e l o s v a l o r e s c o n r e s p e c t o a l a m e d i a . E s u n t i p o d e d e s v i a c i ó n p r o m e d i o d e l o s v a l o r e s , c o n r e s p e c t o a l a m e d i a . A co n t i n u a c i ó n s e c i t a p r o p i e d a d e s i m p o r t a n t e s q u e s o n c o n s e c u e n c i a d e la forma e n q u e s e d e f i n e la d e s v i a c i ó n e s t á n d a r : 1. La d e s v i a c i ó n e s t á n d a r , e s u n a m e d i d a d e v a r i a c i ó n d e t o d o s l o s v a l o r e s c o n r e s p e c t o a l a m e d i a . 2 . E l v a l o r d e l a d e s v i a c i ó n e s t á n d a r s s u e l e s e r p o s i t i v o . S ó l o e s i g u a l a c e r o c u a n d o t o d o s l o s v a l o r e s d e l o s d a t o s s o n el m i s m o n ú m e r o . A d e m á s , v a l o r e s g r a n d e s s i n d i c a n m a y o r e s c a n t i d a d e s d e v a r i a c i ó n . 43
  • 44. Calcular la desviación estándar del siguiente conjunto de números: 3, 5, 7, 1 0 , 18, 1 5 . Aplicaremos la anterior fórmula, dónde el promedio (media aritmética) del conjunto de números es X - 9,67 9,67) 2 Bioesuulistica 6 S = j17�34 S = � 28,56 = 5,34 44- (-6,67) 2 + (-4,67) 2 + (2,67) 2 + . . . + ( 5 , 3 3 ) 2 6 4 1 , 5 + 21,8 + 7 , 1 3 + 0,11 + 69,39 + 28,41 s = 6 S = (3 - 9,67) 2 + (5 - 9,67) 2 + (7 - 9 , 6 7 ) 2 + . . . + ( 1 5 S = . A . Caruilcs G-. 3. El valor de la desviación estándar (s) se puede incrementar de manera drástica con la inclusión de uno o más datos distantes (valores de datos que se encuentran muy lejos de los demás). 4. Las unidades de la desviación estándar s (como minutos, pies, libras) son las mismas de los datos originales. s = Jí:C: X)2 Dado el conjunto de números Xi -- X2, X3, . . . Xn, donde i es una variable entera que toma los valores 1, 2, 3, hasta n. Sea el X la media aritmética de este conjunto de valores, entonces definimos la desviación estándar del conjunto de números Xi, mediante la siguiente fórmula: En donde S representa la desviación estándar, siendo la raíz cuadrada de la suma de los cuadrados de las desviaciones de cada valor con respecto a la media, dividida entre el número de valores. Ejemplo:
  • 45. S = -) 7 0 6 , 6 9 = 2 6 , 5 8 1 S 9 ( 2 5 0 3 8 ) - 2 0 7 5 , 3 1 = -) 2 7 8 2 - 2 0 7 5 , 3 1 Ejemplo 2 . 1 1 . Calcular desviación estándar del siguiente conjunto de números, aplicando la fórmula anterior: BicestadisticaA. Canales O. n 1 "' -s = ; ¿ X 2 i - X 2 i = l 1 S = 1 0 ( 1 4 9 9 6 ) - 1 0 2 4 = -) 1 4 9 9 , 6 - 1 0 2 4 S = -) 4 7 5 , 6 = 2 1 , 8 0 Ejemplo 2 . 1 0 . Calcular la desviación estándar del siguiente conjunto de números, aplicando la siguiente fórmula -3, -22, -20, - 1 0 , 6, 9, 1 5 , 40 x - - - 1 , s 1 5 3F - 3 , 5 1 6 .í:f==l X 2 = ( - 3 ) 2 + ( - 2 2 ) 2 + ( - 2 0 ) 2 + ( - 1 0 ) 2 + 62 + 92 + 1 5 2 + 402 1 S = 8 ( 2 9 3 5 ) - 3 , 5 1 6 = -) 3 6 6 , 8 1 5 - 3 , 5 1 6 S = -) 3 6 3 , 3 5 9 = 1 9 , 0 6 Ejemplo 2 . 1 2 . Calcular la desviación estándar del siguiente conjunto de números: 3, 8, 2 5 , 40, 55, 60, 65, 73, 8 1 X - 4 5 . 5 6 x2 - - 2 0 7 5 . 3 1 Li==I X 2 -3 2 + 82 + 2 5 2 + 40 2 + 5 5 2 + 6 0 2 + 6 5 2 + 7 3 2 + 8 1 2 - 2 5 0 3 8 � 9 . 1� 1 9 , 2 3 , 2 8 , 3 7 , 5 4 , 6 2 , 7 0 x --32 ; x 2 - 1 0 2 4 2:1':! X 2 ---42 + 92 + 14 2 + 2 3 2 + 2 8 2 + 3 7 2 + 542 + 6 2 2 + 7 0 2 = 1 4 9 9 6 . Ejercicios resueltos del cálculo de la desviación estándar para datos no agrupados.
  • 46. Bioc« (mi ís tic« Ejemplo 2 . 1 3 . Calcular desviación estándar del siguiente conjunto de números. - 1 5 , - 1 2 , -3, 5, 8, 10, 16, 2 0 x - - 3 . 6 2 s X 2 - 1 3 . 1 4 1 = -} 1 5 2 . 8 7 5 - 1 3 , 1 4 1 1 s = 8 ( 1 2 2 3 ) - 1 3 , 1 4 1 S = -} 1 3 9 , 7 3 4 = 1 1 , 8 2 Ejemplo 2 . 1 4 . Calcular la desviación estándar del siguiente conjunto de números, aplicando la fórmula - 2 5 0 , - 1 3 4 , - 5 9 , - 3 2 , 1, 1 5 , 2 3 2 , 458 If=1 x 2 - 3 4 8 7 7 5 1 S = 8 ( 3 4 8 7 7 5 ) - 8 3 3 , 7 6 = -} 4 3 5 9 6 , 8 7 5 - 833,76 S = -} 4 2 7 6 , 1 1 5 = 2 0 6 , 7 9 Cálculo de la desviación estándar para datos agrupados Cuando los datos se encuentran agrupados formando distribuciones de frecuencias; donde no se tiene en cuenta el número de datos que hay en cada clase, es decir, la frecuencia de la clase. Para este caso se tiene la siguiente fórmula. X 2 ---833,76X - 2 8 , 8 7 5 ; S = o S = n - 1 En donde fi representa la frecuencia de cada clase. Ejemplo2.14. Calcular la desviación estándar de la siguiente clase de frecuencias: 46
  • 47. [fo ws uulis iica Inte.rvalos Xi fi X i - µ (Xi - µ)2 fi(Xi - µ)2 40 --+ S O 45 3 - 1 7 , S 306,25 9 1 8 , 7 5 so --+ 6 0 SS s -7,S 56,25 2 8 1 , 2 5 60 -->70 65 7 2,5 6,25 43,75 70 ->80 75 4 1 2 , S 1 5 6 , 2 5 6 2 5 , 0 0 80 -->90 85 1 2 2 , S 5 0 6 , 2 5 5 0 6 , 2 5 20 2 3 7 5 Según los métodos aprendidos al tratar la media aritmética, observamos que: - IP-1 fi * Xi 1 2 5 0 X = - n = 20 = 62,S En la columna Xi, restamos a cada valor la media aritmética µ y obtenemos: 45 62,5 = - 1 7 , 5 S S - 6 2 , 5 = -7,5 65 - 62,5 = 2,2 75 - 6 2 , 5 = 1 2 , 5 86 - 6 2 , 5 = 2 2 , 5 Entonces, aplicando la fórmula: S � = S = fi18,75 = 1 0 , 9 Método clave Todo el proceso anterior puede simplificarse utilizando el método clave, que emplea la siguiente fórmula. S = C ¿ fi: U 2 _ ¡z: f� * Ur En el mismo ejemplo anterior aplicaremos el método clave en el siguiente cuadro: 'Intervalos Xi u fi fi*u uz fi*u2 40 -->50 45 -2 3 -6 4 12 -· 50 -*60 55 -1 5 -5 1 5 -- 60 -->70 65 o 7 o o o ->80 75 1 4 4 1 4 B 0 - - > 9 0 85 2 1 2 4 4 sn- 20 í::fi*u ----5 í::fi*u2 25
  • 48. ;C . Ccuuuc« e-amplitud de los intervalos-10 n-I:fi-20 número de elementos Los valores de la columna u (-2, -1, O, 1, 2) pueden interpretarse de la misma manera. X i - A u = - - ­ e La elección del valor A se hace entre los valores de las marcas de clase Xi en forma arbitraria. En el presente caso elegimos A - 65 porque entre las marcas de clase es el valor que está en medio. De esa forma obtenemos que u: 45 65 - 2 0 u = = - 2 1 0 1 0 5 5 65 - 1 0 u = = - 1 1 0 1 0 En la práctica se pone u·- O para el intervalo donde se ha elegido el valor de A, que es 65 en este caso. Para los valores menores de las marcas de clase: 56, 45 se pone u -·-1 --2 respectivamente. Aplicando la fórmula anterior obtenemos: 2 5 ( - 5 ) s = 1 0 2 0 - 20 S = 1 0 .j l , 1 8 7 5 = 1 0 ( 1 , 0 9 ) = 1 0 , 9 = 1 0 .J 1 , 2 5 - 0 , 0 6 1 5 65 65 O 75 - 65 85 - 65 _1_0_ = 1 0 = O; =-1-0-= l; =-1-0-= 2 2.5 LA VARIANZA Se define como el cuadrado de la desviación estándar. Entonces para calcular la varianza, previamente haremos u so de los métodos para calcular la desviación estándar. S e representa con el símbolo s', Los valores altos de la varianza en datos biológicos, no son recomendables para fines de interpretación científica. Es importante que dichos valores deban ser b aj os.
  • 49. 49 Y su valor está comprendido entre el 0% y el 1 0 0 % . ¿En cuál de las variables existe mayor dispersión? Bioestadistica Variable Y = peso Y = 69kg Sy = Skg Curwles G. Variable X = talla X = 1 , 7 0 m Sx = O , S m Ejemplo 2 . 1 5 . Datos de tallas y peso de estudiantes. Después de calcular la media y la desviación típica de esas medidas, se obtuvieron los siguientes resultados: s C V = M Un CV superior al 50% debe hacernos pensar en una población estadística no homogénea. En muestras no demasiadas pequeñas, extraídas de poblaciones normales el CV no suele ser mayor del 3 0 % . 2.6 COEFICIENTE DE VARIABILIDAD El coeficiente de variación es una medida de dispersión relativa, sin dimensiones, y cuya unidad es la media: Si la media es cero, está claro que esta medida no puede utilizarse. A menudo se utiliza también expresada en forma de porcentaje: s cv fµf * 1 0 0 s 2 - ( 1 0 , 9 ) 2 - - 1 1 8 , 8 1 Este coeficiente resulta también muy adecuado, en el caso que las medidas de las distribuciones a comparar difieren mucho, aunque estén expresadas en las mismas unidades. , En el ejercicio anterior se calculó la desviación estándar-10.9 'La varianza será:
  • 50. 2.7 PROBLEMAS PROPUESTOS Esto implica que la variable "pesos" está menos dispersada que la Bioes iad ís tica 0,5 CV(tallas) = -_- * 100 = 29,41 1,70 5 CV(pesos) = 69 * 1 0 0 = 7, 2 ..A. Canales G-. Ordenar los datos en forma ascendente. 1. 1 , 2 , 2 , 3 , 3 , 3 , 3 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 4 , 5 , 5 , S , S , S , 5 , 5 , 5 , 5 , 5 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 6 , 7 , 7 , 7 , 7 , 8 , 8 , 8 , 9 , 9 , 9 , 9 . SOLUCIÓN: Como las variables están expresadas en unidades diferentes (m y kg) utilizamos el coeficiente de variación que es una medida de dispersión adimensional: 2. Calcular la mediana de los siguientes datos a) 14, 15, 16, 19, 23 b) 1 4 , 1 5 , 1 6 , 1 9 3. Calcular el promedio, desviación estándar, varianza y coeficiente de variabilidad de los datos que se presentan en los siguientes cuadros. a) Calcule la moda en el siguiente cuadro de distribuciones de frecuencias. Intervalos f 1 1 7 � 1 2 6 2 1 2 6 � 1 3 5 3 1 3 5 --+ 144 1 0 1 4 4 �153 1 3 1 5 3 � 1 6 2 6 1 6 2 � 1 7 1 4 1 7 1 � 1 8 0 2 50
  • 51. Muestra Talla (cm) Peso (kg) Edad 1 1 5 2 46 17 2 150 48 18 3 1 5 3 , 5 46 2 0 4 149 44 18 5 457 47 18 6 1 5 2 46 19 7 1 5 4 45 19 >-· 8 160 57 18 9 147 54 19 1 0 1 5 5 48 19 1 1 146 49 19 1 2 1 5 7 , 5 5 1 2 0 ,--- 1 3 148 44 18 14 155,5 44 20 1 5 1 5 0 47 22 16 154 50 19 17 160,5 53 19 18 147 45 18 19 144,5 43 18 20 156,5 44 19 2 1 1 5 1 46 18 22 161,5 54 18 23 165 58 19 24 157,5 59 20 2 5 1 6 7 57 18 26 1 5 7 61 24 2 7 1 5 3 47 18 28 1 5 7 56 20 29 160 5 1 20 30 155,5 58 19 b) Datos tomados de estudiantes del 2do nivel de la Facultad de Ciencias Biológicas de la UNA Puno ( 2 0 0 7 ) . Bioes tadis iicaG...A . 5 1
  • 52. 13 ioes uul istica CAPITULOIII PROBABILIDADES, DISTRIBUCIONES, LÍMITES DE CONFIANZA, HIPÓTESIS, ASIMETRÍAS 3 . 1 . PROBABILIDADES 3 . 2 . DISTRIBUCIÓN NORMAL DE PROBABILIDAD 3 . 3 . DISTRIBUCIÓN DE POISSON Y ESPACIAL 3.4. INTERVALOS DE CONFIANZA 3.5.ASIMETRÍA YCURTOSIS 3.6. PRUEBAS DE HIPÓTESIS 3. 7. TAMAÑO DE MUESTRA 3.8. PROBLEMAS PROPUESTOS 3 . 1 PROBABILIDADES Es una medida de ocurrencia de un evento o suceso (P), que se obtiene dividiendo el número de resultados favorables para la ocurrencia entre el número total de posibilidades. Un experimento es determinístico si se obtiene el mismo resultado a repetirlo en igualdad de condiciones. · Por ejemplo, un objeto cae siempre con una gravedad de 9,8m/seg 2 • Un experimento es aleatorio cuando al repetirlo en igualdad de condiciones, los resultados varían. Por ejemplo, el lanzamiento de una moneda. Las características de los fenómenos aleatorios son: a) Son fenómenos tales, que al repetirlos indefinidamente y en igualdad de condiciones, presenta resultados distintos en cada experiencia particular. b) Si repetimos una experiencia n veces y anotamos el número de veces que aparece un determinado fenómeno. En el caso del lanzamiento de una moneda, nunca podemos predecir en un determinado lanzamiento si va ha salir cara o sello, pero a medida que aumenten, el valor Nº de caras/Nº total de lanzamientos tiende a estabilizarse a medida que n aumente.
  • 53. 53 Ejemplo 3 . 1 . ¿Cuál es la probabilidad de obtener un número determinado al lanzar un dado? Ejemplo 3 . 2 . ¿Cuál es la probabilidad de obtener una combinación de números que sumados sean menores que 4 al lanzar dos dados? " Bioesuulistica 1 , 1 1,2 1,3 1,4 1,5 1,6 2,1 2,2 2,3 2,4 2,5 2,6 3 , 1 3,2 3,3 3,4 3,5 3,6 4,1 4,2 4,3 4,4 4,5 4,6 5,1 5,2 5,3 5,4 5,5 5,6 6,1 6,2 6,3 6,4 6,5 6,6 Canales Cí. Espacio muestral Conjunto formado por todos los sucesos elementales, recibe el nombre de espacio muestral. Suceso if""* En general llamamos suceso a todo subconjunto del espacio muestral. Merece especial atención el suceso seguro, que es el propio espacio muestral y el suceso imposible. ·�f Más tarde, en 1 8 0 9 GAUSS y posteriormente Laplace ( 1 8 1 2 ) , la estudian en relación a trabajos sobre la teoría de errores con datos experimentales. A finales del siglo XVIII y principios del XIX, los astrónomos encontraban siempre la desagradable situación de que los resultados de sus medidas, eran distintas unos a otros, y se podía resolver por la imperfección de los instrumentos de medida disponibles. Era pues, necesario averiguar valores posibles. Primero GAUSS, pensó que la media aritmética de todos los valores observados sería el valor correcto. 3 PA = (2,4,6) = 6 = 0,5; 50% 3}�· ' P ( N ) = ( 1.1 ; 1 . 2 ; 2 . 1 ) = 3 . 6 = 0,08; 8% 3.2 DISTRIBUCIÓN NORMAL DE PROBABILIDADES Distribución normal, aparece por primera vez en 1 7 3 3 en los trabajos de Moivre relativos a cálculos de distribución límite de una variable binomial. P(N)
  • 54. 54 Btoes iadis tica.il. Canales G·. Donde: X: variables aleatoria µ: es la media de los valores de la variable X o: desviación estándar de la variable aleatoria X rt: 3 , 1 4 1 6 e: 2 , 7 1 8 1 ¡-1 (x. x) 2] y = crV2rre 2 � Figura3.1 Curva normal general Quetelet descubrió que la distribución normal para la biometría de las anchuras de tórax de 5 738 soldados escoceses. El valor más frecuente fue aproximadamente 40 pulgadas, 39 pulgadas se presentaban casi con la misma frecuencia, 41 y 38 fueron más raros, 42 y 3 7 más aún, hasta que por fin 3 3 y 48 pulgadas resultaron ser valores extremos aislados. La distribución normal se define de la ecuación: Regla empírica para datos con distribución normal (Figura 3.1) Aproximadamente el 68% de todos los valores, están dentro de una desviación estándar de la media. Aproximadamente el 9 5 % de todos los valores, están dentro de dos desviaciones estándar de la media. Aproximadamente el 99.7% de todos los valores, están dentro de tres desviaciones estándar de la media. Más tarde, GAUSS y LAPLACE se les ocurrió pintar la distribución de frecuencias de los resultados. Observaron cómo los valores extremos eran correctos, y cada vez las medidas se hacen más iguales y más numerosas . hasta concentrarse en un valor medio que es el valor más frecuente. Por esta razón, la distribución normal es como distribución de GAUSS y LAPLACE. Se creyó entonces, que en la práctica la mayoría de las distribuciones eran de este tipo y por eso se le puso "distribución normal", llamando a las restantes distribuciones anormales. l ! 1 1 J l ·I ¡l y¡·:_l_¡. 1 i¡ :I
  • 55. Bioes tadis iica La curva tiene la forma acampanada con un máximo en X . Es simétrica en torno a :X ya que el valor de la densidad es idéntico en X + c y en X - c, para todo valor de e. La curva es cóncava hacia abajo en :X y en sus proximidades, se vuelve cóncava hacia arriba al alejarse de X , suficientemente en cualquier dirección. Es decir, la curva presenta dos puntos de inflexión en X = X - o y en X = X + c. Tiene como eje X como asíntota. Las medidas de partida, se convierten en números expresados en desviaciones estándar, como unidades a la derecha o a la izquierda de la media. Si se define una variable Z =X - µ/ o, Z tiene esa propiedad, es decir, si x, Z = O; si X = X +O, Z = 1, si X = X + 2 o, Z = 2. I Valores X X - 2 a X - a X X + O X + 2 a Valores Z -2 1 o 1 2 Como X es una variable aleatoria, Z también lo es. Existe la tabla de probabilidades normales, las cuales son expresadas como valores de la variable estandarizada "Z". Ejemplos 3.3. Calcular la probabilidad del evento: que la variable toma valores c o m p r e n d i d o s entre O y 1 , 2 7 . B u s q u e en la tabla de probabilidades. P ( O < Z < 1 , 2 7 ) U7 P ( O < Z < 1,27) = 0 , 3 9 8 0 = 39,80% a) Calcular P ( O < Z < 3,45). Respuesta: 0,4997 = 49,97% b) Calcular P ( O < Z < 0,8). Respuesta: 0 , 2 8 8 1 = 2 8 , 8 1 o/o 55
  • 56. /l. Canales G. Bioestadisuca c) Calcular la probabilidad del evento "Z" tome valores comprendidos entre-2,4 y - 0 , 8 5 P (-2,4 < Z < 0,85) Área entre (-2,4 y - 0 , 8 5 ) = área entre (-2,4 y O) - área entre (-0,85 y O) - 0 , 4 9 1 8 - 0 , 3 0 2 3 = 0 , 1 8 9 5 Luego: P (-2,4 < Z < 0,85) = 0 , 1 8 9 5 = 1 8 , 9 5 % . 3.3 DISTRIBUCIÓN DE POISSON Y ESPACIAL a) Distribución de Poisson La distribución de Poisson es de importancia fundamental en el estudio de fenómenos aleatorios: físicos, químicos, biológicos, astronómicos entre otros, ya que representa un modelo probabilístico apropiado para la descripción de tales fenómenos. Siguen esta distribución una gran cantidad de variables. Por ejemplo, la distribución de Poisson puede representar adecuadamente valores tan dispersos como número de partículas radiactivas emitidas por unidad de tiempo, un número de llamadas que entran en una central telefónica durante cierta periodo de tiempo, cantidad de plancton, recuento de colonias bacterianas por placa petrí, en estudios microbiológicos y en estudios de ecología. Hay, pues, dos modelos generales que llevan a una distribución Poisson, aquellos en los que se estudia un medio (agua, aire, sangre entre otros) en el encuentran números elevados de entidades pequeñas discretas (plancton, bacterias, hematíes, levaduras, plantas, individuos, entre otros). El propósito de ajustar una distribución de Poisson a varios de los acontecimientos raros que ocurren en la naturaleza, es comprobar si los acontecimientos raros ocurren independientemente unos de otros. Si es así, seguirán una distribución de Poisson. Si la aparición de un 56
  • 57. Bioeeuulísiica acontecimiento aumenta la probabilidad de que ocurra un segundo acontecimiento igual al primero, obtenemos una distribución de contagio. Si el éxito de un acontecimiento impide que se dé un segundo, obtenemos una distribución espacialmente uniforme. La distribución de Poisson puede ser usada como prueba para comprobar la aleatoriedad o independencia de los sucesos, no sólo espacialmente, sino también en el tiempo. Para determinar la distribución espacial, no solamente contabilizamos en forma directa los individuos de una determinada especie, sino también, podemos contabilizar nidos, madrigueras, huellas, fecas, plumas, pieles, cráneos y todo indicio de la presencia de la especie. bJ Distribución Espacial La distribución espacial, trabaja en espacios pequeños, donde se contabiliza el número de individuos de una especie que se encuentra en un hábitat y en un tiempo determinado. La metodología recomendada son los cuadrantes aleatorios, que pueden variar desde Irn' hasta 25m 2 de acuerdo a la especie que se está investigando. No confundir la distribución espacial con la distribución geográfica, que es totalmente diferente, trabaja con espacios grandes, relacionando con las zonas de vida y coordenadas geográficas. Para determinar la distribución espacial, se requieren 09 parámetros importantes, como son: L Frecuencia observada 2 . Frecuencias Esperada 3 . Media = (X) 4 V . - s- - 1 [e" · 2 f ' ) (¿ Xífi)Z] . ananza - - I fi L, Xl 1 - � S. Índice de Dispersión (ID = rr 2 /X) 6. Grados de Libertad (n 1) 7. Nonograma de Clapham 8. Prueba de Hipótesis 9. Prueba Bioestadística de X 2 = ID (n 1) No es recomendable, con solamente hallar el índice de dispersión, la misma que ayuda a inferir el tipo de distribución espacial, se debe realizar
  • 58. A. Canales O. F3ü >es tadis tica otras pruebas como la pruebas de hipótesis y la comprobación a través de una prueba bioestadística. En la naturaleza, en forma general encontramos tres tipos de distribución especial. Distribución Uniforme Se presenta cuando los individuos de una determinada especie de flora o fauna silvestre, se encuentran en altas concentraciones de individuos en un espacio limitado, permitiendo que los individuos tengan antagonismo por acceder a un espacio y alimento. Para demostrar este tipo de distribución, se debe realizar no menos de 20 repeticiones. Esta cantidad puede incrementarse de acuerdo al área de muestreo. if j q , '' .l,¡ l lt j . ¡ 11 11 11 • • • • • • • • • • 11 • • • Es probable si se presenta. este tipo de distribución, el hábitat tenga perturbación y/ o transformación inducida por la actividad del hombre, por lo es necesario considerar programas de manejo del hábitat o estrategias de recuperación de la especie de flora y fauna silvestre. Figura 3 . 2 . Representación de la distribución uniforme Este tipo de distribución se presenta también, cuando los datos recolectados del campo y analizadas a través de frecuencias observadas) esperadas, presenta una varianza mucho menor que la Media (Varianza= 1,4; M e d i a = 4, 7). Así mismo se puede calcular el índice de dispersión cor los Grados de Libertad del número mayor de individuos. 58
  • 59. N ······••· , .... .... ' l ' : ; : : i ¡ : r . s ¡ · : i 11,. . 7 • • : : ,_ .... ,...•.•.. ,. . ¡ l o !�� !e -··· ,. . • . . , ..... •··-··-· 1 . 6 D I . s ; T R i l : s , u : ( l o : � i!' . . . , l(i. l . o : s : A .s , ; : : 1A '",,,. . 3 '"�, •. 2 : : J D 1 : s T R I s u e j l o N A l. i E itl. T t o i R I iA 1 ' ¡ ; .9 ,,,,;,w· : .1l" : ¡ . 7 ..l : .6 lf i :,¡ : , :, l : ¡ : . 4 i/( t o ! s T : R i l : 8 u : ( : ! ! O , N : u i N if i o I R I M f . 3 f�Yf• ¡ ---- 2 ··-·· o. i : : ¡ : (J ! i : ; ¡ i ' 1 ' En este tipo de distribución espacial, el Índice de Dispersión (ID), debe estar cercano a O ( I D = 0,3; GL = 40). También, como estos datos se puede platear en el Nomograma de Clapham, tal como se presenta en la figura que se presenta a continuación (Diseño original de N omograma de ClaphamA. Canales, 1 9 9 6 ) . G [) o ioo O E l H 200 T A Figura 3 . 3 . Representación de la distribución uniforme en el Nomograma de Claphan Distribución Aleatoria Este tipo de distribución espacial, se presenta cuando los individuos de la especie en investigación, no tienen inconvenientes con la disponibilidad de alimentos ni de hábitat, esto implica que el hábitat es de buena calidad y con alimentos disponibles para la alimentación de individuos. Entonces los individuos pueden ocupar cualquier espacio dentro del hábitat, sin ningún riesgo de ser excluido o presentar antagonismo. Este tipo de distribución, es la más recomendable, por esta razón se recomienda plantear las hipótesis de que los individuos se encuentran en una distribución aleatoria.
  • 60. Biocstadistia: 10 so 1eo no 200 ase 60 l i L I B E R T A OO E • lll • 11 • •11!1 •1111 11 • • 1 •111 •11 • • • •!11 •1 1 1'11 lfj 1 11 .. .. 111 • • • 1 • llt 11 lll • 11 • • G R .A O O S Figura 3.4. Representación de la distribución aleatoria 1 N 1.9 O 1.S -1-··-fllL,.....¡..•-;,..••••+-···+·-··-·····-j.···--- ............... ·-· --4-·+--·+--·+--·-+--1·-·- ----..¡...¡-· ! -�· _¡_ 1 1.7 . ,1-, C 1.6 ' 'l. O _ '-·· s.. T .....R•• 1 B J C l Ó .!:!-+--+(-..¡.(_)-+N,-+T-·.¡.A--¡.G._,J1 . 2.-�= E 1.5;..-i-----...........;-""'!l,---i---+--+--+---+--+--+-+ ·¡-- _ 1.4 ,. 1 O 1.3 ......_ ···- --:-·>···---- ·- --t--- - - >-- >- · E l . 2 .111 1t.. l 1 1 O 1-�E·_·__ - - � .. 0 1 S T R I efu C · I lº·+·N-+-+-A.....¡...L......¡...E,_jA T º ¡ R . l l _ � - - - +-4··--····+--+-·-i. __i ���l-=j,--,""""*�=-+=-1-1 o.9+-I-+--+--·--+--+-·-,,,F--'-+--+--...--1-+--+'......+........--i-·--+'_ o.al __ /l 1 1 p o.7r 1 / 1 1 ! �::�--1-+---..l-/!_---+--ti·-·+---+--+--+-l----+--+- : ' ·-- -- F-_1i _..... .-.--+---+--+--+--! 0.4l___l f j o 1 : 5 T i H Íl 6 U le I Ó N U N J i j F O R M E l 0.3¡ l , , J Ó 0.2i 1 / : N 0.1 _J__ J ........L.--+·--l--+·--+--+---t--1---..;,.---+..··-+-··l-····+--·-+-·-+·-·-+-.! o -17 i 1 : +-··+··-�----·�--�-·1·---,---�-i Figura 3 . 5 . Representación de la distribución aleatoria en el Nomograma de Claphan Este tipo de distribución, es cuando después de un análisis de frecuencias observadas y esperadas, presentan una varianza similar o igual que la Media (Varianza= 1,4; M e d i a = 1,7). Así mismo se puede calcular el índice de dispersión con los Grados de libertad. En este caso, el Índice de Dispersión con los Grados de Libertad, debe estar cercano a 1 o un poco más que 1 (l.D. = 1, 1; G.L. = 2 0 ) . También con estos datos se puede platear en el Nomograma de Clapham, tal como se presenta en la figura que se presenta a continuación. ! ¡ :
  • 61. 61 Bioes tadis UcaCanales Cr. Figura 3.6. Representación de la distribución contagiosa Este tipo de distribución, es cuando después de un análisis de frecuencias observadas y esperadas, presentan una Varianza mucho mayor que la Media (Varianza= 2,4; M e d i a = 0,9). Así mismo se puede calcular el Índice de Díspersión con los Grados de Libertad. En este caso, el Índice de Dispersión debe ser mucho mayor que 1 (I.D. = 2,3; G.L. = 40). También, con estos datos se puede plotear en el Nomograma de Clapham, tal como se presenta en la siguiente figura. Distribución Contagiosa o Amontonada Este tipo de distribución, se presenta cuando los individuos de una especie, se encuentran en forma agrupada o amontonada, formando grupos· dentro del hábitat. Este comportamiento puede tener varias razones, pudiendo ser por comportamiento reproductivo, defensa territorial, o debido a que solo en los lugares de agrupamiento se encuentran los alimentos necesarios y espacio disponible. Sin embargo, este tipo de comportamiento no es de mucho riesgo para la especie, pero se debe tener cuidado con las poblaciones y el hábitat.
  • 62. Figura 3 . 7. Representación de la distribución contagiosa en el Nomograma de Clapham t--. ! 1 Btoes iad is l tea ! 1 l ¡ 1 .Li.Lí.. l U N l i f O R M E ¡ L I B E R T A D 1 ¡ O EG R 50 ¡ ! ! 10 .iL Canales G·. f '. . f 1 1 1 1 Resumen: 62 Para hallar el tipo de distribución espacial, empleamos las siguientes formulas. Ejemplo 3.4. Numero de madrigueras de vizcacha evaluados en la localidad de Llalli, Prov. Lampa, 2 0 0 8 (Cada cuadrante= S ü m 2 ) . 8 5 3 4 9 4 8 3 7 6 6 7 9 5 5 6 9 4 4 5 7 4 5 4 2 6 6 6 7 6 4 8 4 4 4 3 4 6 5 5 2 4 6 5 5 4 5 3 9 4 4 1 6 6 6 V<M = D. Uniforme V = M = D. Poisson o Aleatoria V> M = D. Contagiosa. a) I D = menor a 1 cercano a O b) I D = cercano 1 c) I D = m u c h o m a y o r q u e l l ! 1 1 1 l l ! I 1 1 ¡ I ¡ ; ! : { ¡ j l í 1 , ¡ 1 I • 1 ¡ .
  • 63. Respuesta: La disposición de las madrigueras de las vizcachas, presentan una distribución uniforme, esto implica que tienen problemas con el hábitat. Es probable que exista una perturbación del hábitat, la que tiene sus efectos en la falta de alimento y lugares para construir sus ma,drigueras. 63 Bioestadisuca X I D = �. [e� · 2 · ) - (¿ X i f í ) Z ] :E fí L X I ñ :E fi :E xifi M e d i a (X) = :E fi sz s- = G. Xi Fi Xi2 Xi2fi Xifi o o o o o 1 1 1 1 1 2 2 4 8 4 3 4 9 3 6 1 2 4 1 5 1 6 240 60 5 1 0 2 5 2 5 0 5 0 6 1 2 3 6 4 3 2 72 7 4 49 1 9 6 2 8 8 3 64 1 9 2 24 9 4 8 1 3 2 4 3 6 ¿ 5 5 2 8 5 1 6 7 8 2 8 7 Luego se tabula los datos acuerdo al cuadro presentado. 2 1 [ 2 8 7 2 ] s = 5 5 1 6 7 9 - 55 2 8 7 Media(X) = 55 = 5 , 2 1 8 G.L. = ( n - 1 ) xz = ID (n --1) .A. s2 = 3 , 3 5 3 , 3 5 I D = - - = 0 6 3 5 , 2 1 8 1 G . L . = ( n - 1 ) = 9 1 = 8 xz = 0 , 6 3 ( 8 ) = 5,04
  • 64. il. Canales (i. Bioestcuiistica 3.4 INTERVALOS DE CONFIANZA Es definido como la probabilidad de que el parámetro se encuentra dentro del intervalo dado. También se puede denominar niveles de confianza. Los más usuales son el 9 5 % y el 99%. Nivel de confianza al 95% Implica que de 1 0 0 datos, se espera que 9 5 de ellos se encuentren dentro del intervalo construido del parámetro evaluado. También se espera que 5 de ellos se encuentren fuera del intervalo, ya sea a la derecha o a la izquierda. b Nivel de confianza al 99% Significa que de 1 0 0 casos o datos, se espera que 99 de ellos estén dentro del intervalo construido del parámetro evaluado. También se espera que i esté fuera del intervalo construido. Intervalo de confianza para estimar la media poblacional Es necesario que la muestra sea tomada en forma aleatoria, con los datos de la muestra se calcula la media y la desviación estándar. Se emplea la siguiente fórmula: X ± Zo e X, donde: X = Es la media aritmética de la muestra Zo = Es el coeficiente de confianza. a Es el error estándar de la media y su valor depende de la desviación estándar poblacional. El extremo izquierdo del intervalo se llama, límite de confianza inferior, el extremo derecho, se llama límite de confianza superior. Intervalo de confianza de 95% para estimar la medía poblacional 9 5 % = 0 , 9 5
  • 65. Determinar los intervalos de confianza de 9 5 % y 99% para estimar el parámetro indicado. Para el 9 5 % de confianza 166,13 Bioesiadistica 65 o S = 6 , 0 9 6 ·2.SS X ± 1,96 o x = 164,3 ± 1,96 * o,93 = 164,3 ± 1,83 G. 162,,47 Ejemplo 3.5. A partir de la estatura (cm) media de 600 estudiantes, se tomó una muestra representativa de 40 estudiantes. De esta manera se obtuvo: X ± 1 , 9 6 o :X dX = :OJ� = � = 6:06 = �oºo��o (J * x = ü.93 n > 0 , 0 5 N 40 > 0,05 (600) 4 0 > 3 0 X = 1 6 4 , 3 c m � = 0 4 7 5 0 2 J En la tabla de probabilidades normales, para el área de O ,4 7 5 0 se obtiene el puntaje Z = 1, 96 La fórmula para el intervalo de confianza es: x ± 1 , 9 6 o x Intervalo de confianza de 99% para estimar la media poblacional 99% = 0,99: ·º' 99 =0 4950 2 1 Luego: X ± 2,58 o X
  • 66. Para el 99% de confianza x ± 2,58 o x = 164,3 ± 2,58 * o,93 = 164,3 ± 2,4 1 6 1 , 9 0 3.5ASIMETRÍAYCURTOSIS Asimetría Es la deformación horizontal de las curvas de frecuencias. Cuando la curva está inclinada hacia la derecha se denomina asimetría a la derecha o asimetría positiva. Observamos que la Md aritmética que era hacia el lado más largo (el derecho) y que x > Md > Mo, O l'.lo lId X O X 1-Id Iv!o
  • 67. Curtosis Bioes tadis tica o �·---X X '.Md !fo 67 X < Md > Mo X = Md = Mo. Es la deformación vertical de una curva de frecuencias. Se define como el grado de apuntamiento muy pronunciado. Se aplica en la prueba de normalidad de datos, debiendo estar entre -z a +z. Existen tres deformaciones que a continuación describiremos: En la figura, vemos que la curva está igualmente inclinada hacia ambos lados, a este tipo de distribución se llama curva simétrica. Es importante observar que la Media (X), mediana (Md) y la moda (Mo) coinciden en el mismo eje horizontal, en este caso: Cuando la curva está alargada o inclinada al lado izquierdo se llama asimetría a la izquierda o negativo. Notamos que la Md está del lado más largo (el izquierdo) y que: a) Leptocúrtica: Aplastamiento horizontal y la curva con apuntamiento pronunciado, ,-:; · puesto que los datos se encuentrnn en las colas y en la parte media.
  • 68. b) Platicúrtica Una curva achatada, es decir, que tienen muy poco apuntamiento, los - datos se encuentran en las partes medias. BioestadisücaA.. Canales G. e) Mesocúrtica Una curva que tiene una situación intermedia entre las dos anteriores, es decir, no tiene un fuerte apuntamiento pero que tampoco es muy espaciada. Los datos se encuentran en la parte media. 68
  • 69. En donde: 69 K = Q P90 - P 1 0 Bioes tadis ticaA. Canales G. 0 . 1 2 5 0.25 0.375 0 . 5 ol 1 1 1 1 platicúrticas mesocúrtica leptocúrtica 3.6 PRUEBA DE HIPÓTESIS K = coeficiente de curto sis P90 = percentil 90 P 1 0 = percentil 10 Q = Q3-Q12 es el rango semicuartil Las pruebas de hipótesis fueron creadas entre el periodo 1915 y 1 9 3 3 , como resultado de la labor de dos grupos o tendencias: por un lado, Ronald Fisher ( 1 8 9 0 - 1 9 6 2 ) y por el otro, Jerzy Neyman (1894 - 1 9 8 1 ) en conjunto con Egon Pearson ( 1 8 9 5 - 1 9 8 0 ) . Ambas tendencias tuvieron como antecedente la famosa prueba de ji al cuadrado de Karl Pearson ( 1 8 5 7 - 1 9 3 6 ) . Seguramente, existen investigadores que no plantean ninguna hipótesis, por tanto, su investigación es meramente descriptiva, al no probar ninguna hipótesis. Esto no implica que no sirva la investigación, pudiendo Para la curva normal de probabilidades K = 0,263 Orienta tener las siguientes pautas: a) Si K tiende a 0,5 se dice que la curva es leptocúrtica. b) Si K tiende a 0,25 se dice que la curva es mesocúrtíca, Si K tiende a O, se dice que la curva e� platicúrtica. El planteamiento de la hipótesis en la investigación, es un componente fundamental que permite inferir sobre el problema. La aceptación y/ o rechazo de hipótesis, permitirá plantear o mejorar nuevos conocimientos como principios, leyes, teorías o mejorar una metodología empleada por otro investigador. · Goeficiente·de·ourtosis pertentílíco Es una medida de la curtos is basada en 'los cuartiles y percentiles que se define por la fórmula.
  • 70. il. Canales G. Biocs tculisiica servir de base para continuar una investigación ínferencial, donde es posible probar una hipótesis. Consideramos que es fundamental tener en cuenta la hipótesis nula y alterna, lo usual es que siempre deseamos comprobar una hipótesis alterna, esto implica detectar diferencias a través del uso de alguna prueba bioestadística. Otros autores consideran, hipótesis de trabajo e hipótesis estadística, lo cual no es recomendable. Es adecuado que la hipótesis sea la unión de ambas y no por separado. Lo que deseamos en un trabajo de investigación, es demostrar nuevas teorías, leyes y principios, o al menos mejorarlas. Entonces, el resultado de la aceptación o rechazo de las hipótesis de la investigación, permitirá que la ciencia avance con estas nuevas acepciones inferenciales. Las hipótesis deben cumplir algunos requisitos. a) Referencia a hechos reales. Toda hipótesis se refiere siempre a los hechos reales, de otro modo las hipótesis serian especulativos y carecerían de fundamento práctico. bJ Fundamentación teórica. Toda hipótesis esta incluida en el contexto de una teoría, o, fundamentada por conocimientos logrados por la ciencia. Por esta razón, se afirma que las hipótesis científicas son supuestos razonables en la medida en que la sustentan en teorías, cuya consistencia esta probada. Es posible que una hipótesis, en si consistente pero totalmente nueva, pueda contradecir una teoría vigente. Se trata en este caso, de una hipótesis que siendo consistente en si misma, hace apertura a una nueva teoría. Estos casos se dan en la ciencia de manera excepcional. e) Fundamentación lógica. Las hipótesis científicas deben ser razonables y lo son si cumplen con las exigencias de la lógica. Respetan y expresan formalmente los principios lógicos, por ejemplo el principio de no contradicción. d) Predictividad. Las hipótesis son supuestos con los cuales el investigador puede adentrarse a los hechos. 70
  • 71. 71 , e) Comprensible. Deben ser entendible por la comunidad científica. Los científicos prefieren evitar el lenguaje misterioso. BioesiadisticaG. La exigencia de que una hipótesis sea compresible, platea que el investigador utilice un lenguaje de tal manera, que no sea subjetivo ni contenga juicios de valor. Existen varias definiciones de hipótesis planteados por diversas autores, pero al final todos mantienen la definición principal de la hipótesis. La predicción científica, es condicional y por lo tanto es una aplicación de la teoría científica (anticipa nuevo conocimiento y es contrastada). + Mientras, que la conjetura y la profecía, son enunciados incondicionales de la forma "ocurrirá p" + En la hipótesis, esta implícita la predicción. + Un experimento prueba una hipótesis verificando si las predicciones que se derivan de la misma son correctas. A las respuestas de estas preguntas se llama predicción, que en el sentido común, es una previsión basada en generalizaciones empíricas tácticas, fundamentada en teorías. Predicción Bunge ( 1 9 7 3 ) , Sokal y Rohlf (1981) y Baker &Allen (1980). + ¿ C u a l s e r á l a c a u s a d e x s o b r e y ? , + ¿Que ocurriría si X = Y? Definiciones de hipótesis - Es una proposición enunciada para responder tentativamente a un problema (Pardinas, 1987). Son conjeturas basados en leyes y teorías (Bunge, 1997). Enunciado afirmativo y condicional que establece una relación entre hechos, r e s p o n d i e n d o así provisionalmente un problema de investigación y sujetándose a comprobación (Tafur, 1 9 9 7 ) . Nos indican lo que estamos buscando o tratando de probar, y puede definirse como explicaciones tentativas del fenómeno investigado, formuladas a manera de proposiciones (Fernández et al., 1 9 9 7 ) . Es un enunciado condicional de posible respuesta a un problema, basado en hechos, teorías, leyes y principios, que puede ser aceptado o rechazado a través de la aplicación de pruebas bioestadísticas adecuadas (Canales, 1999).
  • 72. A. Canales G. Tabla de la verdad + Hipótesis Correcta Falsa Predicción Correcta Correcta o falsa Bioestadistíca Ejemplos de hipótesis con predicciones: + Hipótesis: Si... el salmón, utiliza solo el estimulo visual para encontrar el arroyo donde nació, para poner sus huevos ... + P R E D I C C I O N : entonces .... un salmón al que se le impide ver mediante una venda, no puede retornar al arroyo donde nació. + Hipótesis: Si... el salmón encuentra la ruta de vuelta a su arroyo natal mediante el olor especifico de sus aguas ... + PREDICCION: entonces ... obstruyendo los sacos olfatorios, podemos evitar que el salmón encuentre su arroyo natal. + Hipótesis l : El beriberi es el resultado de un desorden dietético, y no se debe a una infección bacteríal, + Hipótesis I I : Un factor presente en la cáscara del arroz parece evitar la manifestación de este trastorno. + Eijkman pudo hacer una predicción sencilla mediante estas dos hipótesis. + Hipótesis 1 : Si...el beriberi es un transtorno dietético, ... + Hipótesis I I : Si... el beriberi es el resultado de alimentarse con arroz descascarado ... P R E D I C C I O N : entonces ... el darle arroz descascarado a los pollos debe producir esta dolencia. Por el contrario, alimentarlos con arroz con cáscara debe mantenerlos saludables. Propuestas de hipótesis con predicción 1) Hipótesis: Si... el acceso a una revista científica indexada, limita las publicaciones de las investigaciones de los docentes de las universidades, P R E D I C C I O N : entonces la creación de una revista científica de distribución a nivel internacional propia de las universidades, elevara el número de publicaciones. , 2) Hipótesis: Si... la falta de publicaciones científicas de los profesores de las universidades, esta limitada por el tipo de formato propuesto por la dirección de Investigación ... , 72
  • 73. 73 Hipótesis considerando diferencias o igualdades. Hablando en el lenguaje de la biología, puede decirse que la predicción es el tipo más alto de adaptación -del hombre. Mediante ella, el hombre se BioestudisticaCanales G. PREDICCIÓN: Entonces ... la modificación de formato de acuerdo a una revista científica indexada, posibilitará un mayor número de publicaciones. Es importante que las hipótesis estén basados en teorías, leyes, publicaciones por científicos en libros, revistas científicas, por ello se debe colocar el nombre del autor. Vale la pena distinguir los siguientes términos: (i) Expectativa, es una actitud automática de anticipación que se encuentra en todo los animales. La expectativa, es una operación consciente, pero carece de fundamento. (ii) Conjetura, intento consciente pero no racionalmente justificado sin fundamentos. La conjetura, puede ser juego divertido, una superstición peligrosa. (iii) Profecía, en gran escala, basada en el supuesto fundamento de la revelación o de otra fuente esotérica "ciencia oculta". Nunca es contrastada. Con igualdades La diversidad de especies de fauna silvestre, será igual conforme la altitud (msnm) se incremente, es decir a menores y mayores altitudes existirá similar cantidad de diversidad de especies, esto d e b i d o a la homogeneidad de hábitat y a la selección natural (adaptación y especialización) (Caughley, 1994). Con diferencia La diversidad de especies de fauna silvestre, disminuirá conforme la altitud (msnm) se incremente, es decir a menores altitudes existirá una mayor diversidad que a los mayores altitudes, esto debido a las condiciones favorables de factores climáticos y de competencia por hábitat y alimentos que ocurre en zonas bajas, mientras que en zonas con mayores altitudes, las condiciones de los factores climáticos son adversos (temperatura, humedad, precipitación pluvial entre otros) (Primack, 1994, Pianka, 1978).
  • 74. /L Canales G. Bioes iadis iico 1 1 adapta anticipadamente a las nuevas condiciones que el mismo configura. Las, profecías, o conjeturas de gran escala como las del Apocalipsis, de Nostradamus y de ciertos políticos, son tan infundadas como las conjeturas. Cuando Creso Preguntó al oráculo de Belfos, qué ocurriría si atacaba a los Persas, la respuesta fue: "Un gran reino será destruido". Creso no se dio cuenta de la ambigüedad de la sentencia y atacó: un reíno, el suyo quedo destruido, como estaba profetizado. Predicción con regresión Sokál yRohtf(1981). Una función, es una relación matemática que nos permite predecir que los valores de una variable Y, corresponden a valores dados de una variable X. El tipo más simple de regresión sigue la ecuación Y = X (relación entre el Número de anillos de crecimiento de un árbol como una función de la edad). Para poder rechazar y/ o aceptar una hipótesis, es necesario utilizar pruebas bioestadísticas, caso contrario se puede incurrir en errores que pueden ser negativos para el avance científico. El uso de la pruebas bioestadísticas son una herramienta de ayuda para el investigador y no una limitante. La bioestadística, provee las herramientas para discernir con mayor claridad las causas, efectos, diferencias, asociaciones de los datos, y por lo tanto, es más sencilla la interpretación y discusión de las resultados. Al hacer una prueba bioestadística, puede haber dos resultados: Aceptar la hipótesis nula (no hay diferencia) o rechazarla (si hay diferencia). Existen dos tipos posibles de errores: rechazar la hipótesis nula cuando es verdadera (error tipo 1) o aceptarla cuando es falso (error tipo II). A menudo la hipótesis es aceptada cuando es falsa, debido al pequeño tamaño de muestra. El error tipo II puede ser común en estudios de conservación ya que generalmente las poblaciones son pequeñas. La aceptación de una hipótesis puede tener consecuencias muy serias en proyectos de conservación por ejemplo: Imaginemos que una especie está disminuyendo, pero que nuestras estimaciones poblacionales no 7,4
  • 75. ii. G. Biocntadisiica detectan ninguna diferencia. Si concluimos que no hay diferencia (cometiendo un error de tipo H), entonces no habrá medidas de conservación para modificar la tendencia. La forma de conocer si el diseño es adecuado para no cometer un error de tipo II, es mediante el cálculo del poder estadístico. El poder estadístico es la probabilidad de rechazar una hipótesis nula falsa. Se calcula como 1 beta. Cuadro 3 . 1 . Definiciones de Hipótesis y errores de tipo I y II. r Parámetros Definiciones Hipótesis nula (Ho) Hipótesis que generalmente indica que no existe diferencias -I�ipótesis alternativa (Ha) Hipótesis que generalmente indica que existe diferencias ---- Error Tipo I Rechazo' de una Hipótesis nula verdadera -· Aceptación de una hipótesis nula falsaError Tipo II -· Alfa Probabilidad de cometer un error Tipo I Beta Probabilidad de cometer un error Tipo II Poder Capacidad de una prueba bioestadística L para rechazar la hipótesis nula cuando no es verdadera. Grado de disminución de errores de Tipo 11. 3.7. TAMAÑO DE MUESTRA Tamaño de muestra en el muestreo aleatorio simple, cuando la variable es continua. Partimos de la fórmula del intervalo de confianza, para estimar la media poblacional de la variable: ·-----E-----
  • 76. Canales (}. En donde: x = media de la varianza Z = coeficiente de confianza, que depende del nivel de confianza asumido. a x = error estándar de la media. Es la desviación estándar de la distribución muestra} de la media. E = error al estimar la media poblacional. Es la distancia o separación entre un extremo del intervalo y el centro del mismo, se tienen: E = z-x Consideramos dos casos: 1) Cuando el tamaño de la población (N) es grande, n < 0 . 0 5 N 2) Cuando el tamaño de la población, no es muy grande, n > O.OS N. Estudiaremos el caso 1) cuando N es grande se utiliza la fórmula: O' CJX = - Fn En donde, a es la desviación estándar poblacional n es el tamaño de la muestra. Reemplazándose se tiene: Zcr E = - Fn Elevamos al cuadrado ambos miembros de la fórmula: z2 E z = - cr z n Despejando n. z2 n = - cr 2 Ez Esta es la fórmula para el caso de población grande (n< O,OSN) El valor de n varía en forma directamente proporcional a los valores que están en el numerador. Además, n varía en forma inversamente proporcional al valor del denominador de la fórmula. Cuando el nivel de confianza asumido es 99%, según la tabla de probabilidades normales Z = 2,58.