2.
Introducción
Los estudios científicos involucran:
Recopilación sistemática
Organización
Análisis
Presentación
Del conocimiento
3.
Introducción
Muchas investigaciones en ciencias biológicas son cuantitativas,
donde el conocimiento está en forma de observaciones numéricas
llamadas datos.
4.
Introducción
Para la correcta presentación y análisis de datos se requiere considerar:
Tipo de datos obtenidos
Diseño de la colecta de datos
Preguntas que haremos a los datos
Cuando se llega a conclusiones a partir de estos datos se debe
considerar:
Límites de los datos
Límites del método de colecta de datos
Límites del análisis de datos utilizados
Para poder considerar esto se deben entender ciertos
conceptos…
5.
Estadística
Del latín “Statum” (Estado), por la
importancia histórica que los
gobiernos han dado a la colecta de
datos demográficos para uso de
reclutamiento militar y recaudación
de impuestos.
Estadística ≠ Datos
Estadística: La colecta ordenada, análisis e
interpretación de los datos con el objetivo de realizar
evaluaciones objetivas de las conclusiones basadas en
los datos
6.
Bioestadística
La estadística aplicada a problemas
biológicos algunas veces llamada biometría
(lo que significa literalmente “mediciones
biológicas”).
Muchas veces en biología nos encontramos los siguientes dos casos:
• Muy pocos datos colectados, que no permiten llegar a
conclusiones confiables.
• Mucho esfuerzo en colectar datos que no sirven para el análisis
del experimento.
He ahí la Importancia de conocer principios y procedimientos
estadísticos antes de colectar datos
7.
Estadística descriptiva vs Inferencial
La estadística
descriptiva organiza y
resume los datos de
manera ordenada e
informativa.
La estadística
inferencial permite
inferir características
del todo a partir de
una parte.
Ej.
Alturas de
adolescentes de 13
años
Descriptiva: Altura
promedio de un
distrito escolar para
cada sexo
Inferencial:
Estimar alturas de todo
el estado, ¿Son más
altos los niños que las
niñas de estad edad en
ese estado?
8.
1.1 Tipos de datos biológicos
Variable: una característica
que puede diferir de una
entidad biológica a otra
Ej. tamaño, peso, color,
composición química
Que procedimientos descriptivos e
inferenciales podemos usar depende de
que tipo de datos tenemos
9.
Datos en una escala de razón
Altura de la planta
Número de hojas
10.
Datos en una escala de razón
36 cm 37 cm 38 cm 39 cm 40 cm
8 hojas 10 hojas
9 hojas 11 hojas
30 cm
60 cm
Existe un punto 0 en estas
escalas, y este punto 0 tiene un
significado físico
Las medias de escala de
razón tienen un intervalo
constante y un punto
cero verdadero
Algunos ejemplos son medidas
de peso (mg, lb, etc.), volumen
(c3, pies3, etc.), capacidad (ml,
qt, etc.), razones (cm/seg,
m/h, mg/min, etc.) y longitudes
de tiempo (hr, años, etc.).
11.
Datos en una escala de intervalo
Ej. Hrs, el 0
(medianoche)
es arbitrario
Escalas con un intervalo constante
pero sin un cero verdadero
Ej. °C
20°C 25°C
5°C 10°C
°K sería una escala de
razón ya que su 0 es
real y no arbitrario
Orientación con
brújula, 0° ósea
el norte, es
arbitrario
12.
Datos en una escala ordinal
Hombre A: 90 kg
Bombre B: 80 kg
Hombre A pesa más que
el Hombre B
En este caso tenemos diferencias relativas
en vez de diferencias cuantitativas
Un animal más corto, más oscuro, más
rápido, más activo
Un fósil más antiguo que otro
Tipos de tamaño de célula
relativo uno al otro (1,2,3,4,5)
Que tan fácil fue para un ratón
salir de un laberinto (A,B,C)
Datos en escala ordinal
contienen menos
información que datos en
escala de razón o intervalos
y es imposible compararlos,
sin embargo hay
procedimientos aplicables a
ellos
13.
Datos en categorías nominales
Cuando la variable se clasifica
cualitativamente en lugar de con
medidas
En estos casos la variable
se puede denominar
atributo y lidiamos con
datos nominales o
categóricos
Rhomborrhina
resplendens
Muchas veces en
biología estos son
fenotipos
Ejemplos de datos nominales:
• Hombre o Mujer
• Zurdo o Diestro
• Muerto o Vivo
• Con fertilizante o sin fertilizante
• Categorías
taxonómicas
Theropoda
Ornithopoda
Los métodos estadísticos útiles para
datos de razón, intervalo y ordinales no
suelen ser aplicables a nominales por lo
que es importante reconocerlos
14.
Datos continuos y discretos
35 cm 36 cm
∞
35.07 cm ó 35.988 cm
Una variable continua es
aquella en la que existen
valores posibles entre
cualquier par de
valores.
Número de hojas:
27 hojas ✓
28 hojas ✓
27.9 hojas x
Una variable discreta o
merística presenta
valores separables
sucesivos, son números
enteros
Variables de razón, intervalo y
ordinales pueden ser continuas o
discretas, las nominales son solo
discretas
15.
1.2 Exactitud y cifras significativas
Exactitud: Que tan cercana es una
medición al valor verdadero de la
variable
Precisión: Que tan cercanas
son mediciones repetidas de
la misma
16.
1.2 Exactitud y cifras significativas
Error humano puede existir en el registro de
datos, aunque aquí asumiremos que no
ocurren
La exactitud se puede expresar cómo un
reporte numérico
8 cm
8.3 cm
8.32 cm
Mayor
Exactitud del
equipo
utilizado
Una medición de 8 cm por
convención representa una
medición en el rango de
7.50000… a 8.49999
8.3= 8.25000…a 8.34999
8.32= 8.31500…a 8.32499
El valor reportado es
el punto medio del
rango que se implica
con la medición
El valor de 8 cm implica que se
determina la longitud dentro de un
rango de 1cm
8.3 cm de 0.1 cm
8.32 cm de 0.01 cm
Estos dígitos denotan la
exactitud y se llaman cifras
significativas
17.
1.2 Exactitud y cifras significativas
Cuando se trabaja con valores exactos de
variables discretas, las consideraciones
anteriores no aplican.
Sin embargo pueden existir casos en que
las cifras significativas y la exactitud
implícita entran en juego
Un entomólogo dice que en un bosque
determinado hay 72,000 polillas, que es un
estimado
72,000 implica un rango de exactitud de 1000 (71,500…a 72,500)
Se utiliza notación científica para denotar exactitud en estos casos:
7.2 x 104 (= 72,000) implica exactitud de 0.1 x 104 (=1000) (71,500…a 72,500)
7.20x104 implica exactitud de 0.01 x 104 (=100) (71,950…a 72,050)
18.
1.2 Exactitud y cifras significativas
Las calculadoras y las computadoras
generalmente producen resultados con cifras
más significativas que los justificados por los
datos.
Es una buena práctica -para evitar el error de
redondeo- retener muchas cifras significativas
hasta el último paso en una secuencia de
cálculos, y se realiza el redondeo en el
resultado del paso final obteniendo el número
apropiado de cifras significativas.
19.
1.3 Distribuciones de frecuencia Al recopilar y resumir grandes cantidades
de datos es útil registrarlos en una tabla
de frecuencias.
A la distribución del número total de
observaciones en categorías se denomina
una distribución de frecuencia
Ejemplo 1.1
Ubicación de nidos de gorriones: Tabla de frecuencias
de datos nominales
Sitio de Nido
Número de
Nidos
A. Lianas 56
B. Aleros de Construcciones 60
C. Ramas bajas de árboles 46
D. Cavidades de árboles y
edificios 49
20.
Figura 1.2. Gráfica de barras de los datos de nidos de gorriones del
ejemplo 1.1. Un ejemplo de gráfico de barras para datos nominales
0
10
20
30
40
50
60
70
80
0 1 2 3
Número
de
Nidos
Sitio de NIdo
La ubicación de los nidos de gorriones
1.3 Distribuciones de frecuencia
Pueden ser presentadas gráficamente
como una gráfica de barras
La escala de frecuencias
debe empezar en 0
21.
1.3 Distribuciones de frecuencia
Si, por ejemplo, el eje vertical presentara valores de 45 a 60 en lugar de
0 a 60, los resultados aparecerían como en la Figura 1.3.
Figura 1.3. Gráfica de barras de los datos de nidos de gorriones del ejemplo 1.1, dibujado
con el eje vertical a partir de 45
45
47
49
51
53
55
57
59
61
A Vids B Aleros de
Construcciones
C Ramas de árboles
bajas
D Cavidades de
árboles y edificios
Número
de
Nidos
Sitio de NIdo
La ubicación de los nidos de gorriones
22.
1.3 Distribuciones de frecuencia
Un ejemplo de tabulación de frecuencia de datos ordinales son los
números de peces sol recolectados en cinco categorías dependiendo de la
coloración de la piel
Ejemplo 1.2 Número de peces
luna, tabulados según la cantidad
de pigmentación negra: una tabla
de frecuencias de datos ordinales
Clase de
pigmentación
Cantidad de
pigmentación
Número de Peces
0 Sin pigmentación negra 13
1 Ligeramente moteado 68
2 Moderadamente moteado 44
3 Muy moteado 21
4 Pigmentación negra sólida 8
23.
Figura 1.4. Gráfica de barras de los datos de la pigmentación del pez sol
del ejemplo 1.2. Un ejemplo de gráfica de barras para datos ordinales
0
10
20
30
40
50
60
70
0 1 2 3 4
Número
de
peces
Clase de pigmentación
Pigmentación de Peces
Las distribuciones
de frecuencia y
gráficas se pueden
realizar para datos
ordinales de la
misma forma que
para nominales
1.3 Distribuciones de frecuencia
24.
Ejemplo 1.3 Frecuencia de ocurrencia de varios tañamos de camadas de
zorros: Una tabla de frecuencias de datos discretos en escala de razón
Tamaño de
la camada
Frecuencia
3 10
4 27
5 22
6 4
7 1
Para datos de escala de intervalo y
de razón, podemos hacer una
distinción de procedimiento entre
datos discretos y continuos.
Para datos discretos se usarán
frecuencias de tamaños de camada
en zorros.
1.3 Distribuciones de frecuencia
25.
Figura 1.5. Gráfica de barras de los datos de las camadas de zorros del
ejemplo 1.3. Un ejemplo de gráfica de barras para datos discretos en
escala razón
0
5
10
15
20
25
30
3 4 5 6 7
Número
de
camadas
Tamaño de la camada
Tamaño de las camadas de zorros
1.3 Distribuciones de frecuencia
26.
Ejemplo 1.4a Número de pulgones observados por planta de trébol: Tabla
de frecuencias de datos de escala de razón
Número de pulgones
en una planta
Número de plantas
observadas
Número de pulgones
en una planta
Número de plantas
observadas
0 3 20 17
1 1 21 18
2 1 22 23
3 1 23 17
4 2 24 19
5 3 25 18
6 5 26 19
7 7 27 21
8 8 28 18
9 11 29 13
10 10 30 10
11 11 31 14
12 13 32 9
13 12 33 10
14 16 34 8
15 13 35 5
16 14 36 4
17 16 37 1
18 15 38 2
19 14 39 1
40 0
41 1
Número total de observaciones = 424
1.3 Distribuciones de frecuencia
En algunos casos los datos
discretos producen tablas de
frecuencia largas
En este caso se agrupan en
categorías de tamaño
27.
Ejemplo 1.4b Número de pulgones observados por planta de trébol: Tabla
de frecuencias agrupadas de datos discretos escala de razón del ejemplo
1.4a
Número de
pulgones
en una planta
Número de plantas
observadas
0-3 6
4-7 17
8-11 40
12-15 54
16-19 59
20-23 75
24-27 77
28-31 55
32-35 32
36-39 8
40-43 1
Número total de observaciones = 424
Agrupar en categorías de tamaño
implica una pérdida de
información y no se utiliza para
realizar cálculos, sino para hacer
más legibles las tablas y las
gráficas
28.
Figura 1.6. Gráfica de barras de los datos de pulgones . Un ejemplo de
gráfica de barras para datos de tipo discreto en escala de razón
0
10
20
30
40
50
60
70
80
0-3 4-7 8-11 12-15 16-19 20-23 24-27 28-31 32-35 36-39 40-43
Número
de
plantas
observadas
Número de pulgones
observados en una planta
Número de pulgones observados por planta de trébol
1.3 Distribuciones de frecuencia
Hay ciertas reglas
sobre cuantas
categorías utilizar,
aunque estas son solo
guías y queda al buen
juicio, generalmente
de 10-20 grupos son
útiles en trabajo
biológico
Las categorías se
deben definir con un
intervalo igual en
este caso cada 4
categorías
29.
1.3 Distribuciones de frecuencia
Ya que los datos continuos a diferencia de los discretos pueden
tomar una infinidad de valores, uno siempre hace una
distribución de frecuencia tabulada por categorías
Por ejemplo:
Si nuestra variable fuera un peso medido a los
0.1 mg de exactitud, en una tabla los pesos
medidos como 48.6 mg se interpretarían como
los pesos entre 48.5500…y 48.6499 mg (que
en una tabla de frecuencia se escribirían
como 48.55-48.65)
30.
Ejemplo 1.5.
Determinación de la cantidad de
fósforo en hojas: Una tabla de
frecuencias de datos contínuos.
Fósforo
(mg/g de hoja
Frecuencia
(Número de
determinaciones)
Frecuencia acumulativa
Comenzando con
valores bajos
Comenzando con
valores altos
8.15-8.25 2 2 130
8.25-8.35 6 8 128
8.35-8.45 8 16 122
8.45-8.55 11 27 114
8.55-8.65 17 44 103
8.65-8,75 17 61 86
8.75-8.85 24 85 69
8.85-8.95 18 103 45
8.95.9.05 13 116 27
9.05-9.15 10 126 14
9.15-9.25 4 130 4
Frecuenca total = 130 = n
1.3 Distribuciones de frecuencia
31.
0
5
10
15
20
25
30
8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
Fósforo ( mg/g de hoja)
Histograma de datos de fósforo en hojas
Figura 1.7. Histograma de datos de fósforo en hojas del ejemplo 1.5. Un
ejemplo de un histograma para datos contínuos
En este caso uno hace
un histograma, una
gráfica de barras
basada en datos
continuos
Se indica el punto
medio del rango en
lugar del rango
completo y las barras
a menudo se dibujan
tocándose para
denotar la
continuidad de los
datos
Tambien se puede
hacer un polígono de
frecuencia
1.3 Distribuciones de frecuencia
32.
Figura 1.8. Polígono de frecuencia para datos de fósforo en hojas del
ejemplo 1.5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
0
5
10
15
20
25
30
0 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
Relativa
Frecuencia
Fósforo (mg/g de hoja)
Polígono de frecuencia
Un polígono de
frecuencia se hace
colocando un punto o
símbolo en el punto
medio de las clases y
se conectan con líneas
rectas.
Se pueden trazar
también frecuencias
relativas, que es la
frecuencia en relación
al total, en este caso
130 ej. 2/130
Usar las frecuencias
relativas permite
comparar diferentes
distribuciones o
graficarlas juntas
1.3 Distribuciones de frecuencia
33.
1.3 Distribuciones de frecuencia
Los polígonos de frecuencia se usan también para
distribuciones discretas, sin embargo para datos ordinales
puede argumentarse que no se usen ya que el polígono
implica que se trata de un intervalo constante entre dos
puntos y en ordinales no se conocen con exactitud. Para
escala nominal no se utilizan los polígonos.
34.
1.4 Distribuciones de frecuencia
acumulada
Figura 1.5. Gráfica de barras de los datos de las camadas de zorros del
ejemplo 1.3.
De una distribución de
frecuencias da cierta
información, en este caso
¿Cuántas camadas se zorros de
cuatro se observaron? 27
Pero al preguntarse por ejemplo
¿Cuántas de cuatro o más se
observaron? ¿Cuántas camadas
de cinco o menos? Se utilizan las
frecuencias acumuladas
Las frecuencias se suman, en el
primer caso para todas las
categorías de 4 en adelante y en
el segundo de 5 hacia abajo
dando 54 y 59
Tamaño de
la camada
Frecuencia
3 10
4 27
5 22
6 4
7 1
35.
1.4 Distribuciones de frecuencia
acumulada
Fósforo
(mg/g de hoja
Frecuencia
(Número de
determinaciones)
Frecuencia acumulativa
Comenzando con
valores bajos
Comenzando con
valores altos
8.15-8.25 2 2 130
8.25-8.35 6 8 128
8.35-8.45 8 16 122
8.45-8.55 11 27 114
8.55-8.65 17 44 103
8.65-8,75 17 61 86
8.75-8.85 24 85 69
8.85-8.95 18 103 45
8.95.9.05 13 116 27
9.05-9.15 10 126 14
9.15-9.25 4 130 4
Frecuenca total = 130 = n
Las distribuciones de
frecuencia
acumulada son
útiles para
determinar
medianas,
percentiles, y otros
cuantiles, como se
discutirá en las
Secciones 3.2 y 4.2.
36.
Figura 1.9. Polígono de frecuencia
acumulada para datos de fósforo
en hojas del ejemplo 1.5, con
acumulación
comenzando desde los valores más
bajos hasta los más altos de la
variable.
Estos datos no se
grafican en gráficas de
barras, sino en polígonos
de frecuencia
acumulativa (a veces
llamadas ojivas).
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
0
20
40
60
80
100
120
140
8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
relativa
acumulada
Frecuencia
acumulada
Fósforo (mg/g de hoja)
Polígono de frecuencia acumulada
37.
Figura 1.10. Polígono de
frecuencia acumulada para
datos de fósforo en hojas del
ejemplo 1.5, con acumulación
comenzando desde los valores
más altos hasta los más bajos
de la variable.
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
0
20
40
60
80
100
120
140
8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
acumulativa
relativa
Frecuencia
Acumulativa
Fósforo (mg/g de hoja)
Polígono de frecuencia acumulativas
La dirección de acumulación no es
importante, normalmente no es
necesario graficar ambas
La frecuencia acumulada relativa
ayuda a comparar y a conocer los
porcentajes de valores en un rango
39.
Introducción
El objetivo principal del análisis estadístico es:
Inferir las características de un grupo de datos mediante
el análisis de una pequeña muestra del grupo.
Para poder realizar esta generalización desde una parte
al todo se requieren ciertos conceptos:
• Población
• Muestra
• Parámetro
• Estadística
• Muestreo aleatorio
40.
2.1 Poblaciones
Un grupo de medidas (no organismos) sobre los cuales se
desea sacar conclusiones.
41.
2.2 Muestras de poblaciones
Las poblaciones suelen ser muy grandes, entonces obtener
todas las medidas no es viable
Se toma un subconjunto del total (muestra)
Población
Peso
En biología se pueden tomar muestras
de una población que no existe
físicamente, estas se nombran como
Imaginarias, hipotéticas o potenciales
42.
2.3 Muestreo aleatorio
Para que una muestra sea representativa de una población se
asume en los procesos estadísticos que las muestras se
obtienen aleatoriamente
Cada miembro de la población tiene
posibilidad igual e independiente
de ser seleccionado
25%
25%
25% 25%
43.
2.3 Muestreo aleatorio
A veces es posible asignar a cada
miembro de una población un número
único y obtener una muestra eligiendo
un conjunto de tales números al azar.
Es cómo tener a toda una población en
un sombrero y sacar una muestra
mientras tienes los ojos vendados.
Ej. Guía telefónica
Muestra de 200
273 pag
3 columnas por pagina
98 nombres por columna
Se seleccionan número al
azar de las tablas para cada
parámetro
Muchas veces en
biología esto no
es posible así que
el muestreo
aleatorio se hace
conociendo la
biología de cada
organismo
44.
2.4 Parámetros y estadísticos
También es útil describir que tan dispersas se encuentran las mediciones
alrededor del “promedio”, estas mediciones se denominan medidas de
variabilidad o medidas de dispersión (ej. rango, desviación estándar)
Generalmente en algún lugar de la mitad del rango de una población
de medidas hay una preponderancia.
Por esto mediciones del “promedio” de la población representan
información descriptiva útil. Estas medidas se llaman medidas de
tendencia central o medidas de ubicación ( ej. mediana, promedio)
45.
2.4 Parámetros y estadísticos
Una cantidad tal como una medida de tendencia central o
una medida de dispersión se llama parámetro cuando
describe o caracteriza a una población.
Sin embargo, ya que uno casi nunca tiene información de la
población completa y se utilizan las muestras tomadas
aleatoriamente para estimar un parámetro.
Una estimación de un parámetro de población se denomina
estadístico.
46.
2.4 Parámetros y estadísticos
Los estadísticos que se calculan varían de una muestra a otra para muestras
tomadas de la misma población. Ya que uno usa estadísticos de muestra como
estimaciones de parámetros de la población, le corresponde al investigador
llegar a las "mejores" estimaciones posibles.
Para saber qué propiedades son deseables en una estimación "buena“ se deben
hacer tres consideraciones:
Primero, se desea que si tomamos una cantidad indefinidamente grande de
muestras de una población, el promedio a largo plazo de las estadísticas
obtenidas sea igual al parámetro a ser estimado.
Si para algunas muestras se sobreestima con un estadístico, y en otras se
subestima, termina igualándose y se dice que el estadístico es imparcial.
47.
2.4 Parámetros y estadísticos
En segundo lugar, es deseable que una estadística obtenida de cualquier
muestra individual de una población esté muy cerca del valor del
parámetro que se estima.
Esta propiedad de una estadística se conoce como eficiencia, precisión
o confiabilidad.
48.
2.4 Parámetros y estadísticos
Tercero, se debe considerar que uno puede tomar muestras cada vez mas
grandes de una población (la muestra más grande sería la población
completa) y mientras esto pasa, un estadístico consistente se acercará
cada vez mas a el parámetro mismo.
En los capítulos siguientes, las estadísticas recomendadas como
estimaciones de parámetros son estimaciones "buenas" en el sentido de
que poseen una combinación deseable de imparcialidad, eficiencia y
consistencia.
49.
2.5 Datos atípicos (Outliers)
Pesos de diecinueve patos silvestres de 20 semanas de edad criados en
jaulas de laboratorio individuales, para los cuales se registraron los
siguientes 19 datos:
1.87, 3.75, 3.79, 3.82, 3.85, 3.87, 3.90, 3.94, 3.96, 3.99,
3.99, 4.00, 4.03, 4.04, 4.05, 4.06, 4.09, 8.97 y 39.8 kilogramos
Los datos que están en un desacuerdo marcado con casi
todos los demás datos en una muestra a menudo se
llaman valores atípicos o datos discordantes, y la
ocurrencia de tales observaciones generalmente requiere
un examen más detenido
Pueden ser el resultado de un
error de medición:
Error de unidades
Error de jaula medida (4
meses) Muestra contaminada
así que debería eliminarse
Errores donde se sabe que la
herramienta de medición no
funcionó, o se cometió otro
error, deben eliminarse
Existe la posibilidad de que sean correctas
y colectadas por azar, datos de muestra
muy alejados del promedio son posibles
50.
2.5 Datos atípicos (Outliers)
En resumen, no es apropiado descartar datos simplemente porque
parecen (para alguien) ser irracionalmente extremos.
Si hay una razón muy obvia para corregir o eliminar un dato, como las
situaciones descritas anteriormente, los datos incorrectos deben
corregirse o eliminarse.
En algunos otros casos cuestionables los datos se pueden acomodar en el
análisis estadístico, quizás empleando procedimientos estadísticos que
les dan menos peso o técnicas analíticas que sean robustas siendo
resistentes a los efectos de datos discrepantes.
Y en situaciones en que esto no se puede hacer, los datos dudosos
tendrán que permanecer en la muestra (tal vez alentando al investigador
para repetir el experimento con un nuevo conjunto de datos).
Notas del editor
Imagina que se esta estudiando a un grupo de plantas, en las que la altura constituye una variable de interés y que el numero de hojas por planta es otra variable bajo estudio. La medida de la altura se registrara en centímetros, pulgadas u otras unidades y sin importar si las hojas son contadas en un sistema numérico usando base 10 o cualquier otra base, existen dos características fundamentalmente importantes de esos datos, que se detallan a continuación.
Primera, hay un intervalo constante entre las unidades adyacentes en la escala de medida. Esto es, la diferencia de altura entre una planta de 36 cm y una de 37 cm, es la misma, así como la diferencia entre una planta de 39 cm y una de 40 cm, y la diferencia entre 8 y 10 hojas es igual que la diferencia entre 9 y 11 hojas. Segunda, es importante que exista un punto cero en la escala de medida y que existe una significancia física a este cero. Esto nos permite dar un significado a la razón de medida, por lo que podemos decir que una planta de 30 cm de altura tiene la mitad de altura que una planta de 60 cm y que una planta con 45 hojas tiene tres veces más hojas que una planta con 15.
Algunas escalas de medida poseen un intervalo constante, pero no un cero verdadero; son llamadas escalas de intervalo. Un ejemplo común es la de dos escalas de temperatura: Celsios (C) y Fahrenheit (F). Podemos ver que existe la misma diferencia entre 20°C y 25°C, y entre 5°C y 10°C; esto es la escala de medida está compuesta por intervalos iguales. Pero no podemos decir que una temperatura de 40°C es dos veces más caliente que una temperatura de 20°C; esto es, el punto cero es arbitrario.
En las definiciones anteriores de escala de razón y de intervalo en los datos conocemos las diferencias numéricas. Por ejemplo, si un hombre A pesa 90 kg y un hombre B pesa 80 kg, se sabe que el hombre A pesa 10 kg más que el hombre B. Pero nuestros datos puede ser solo un registro del hecho de que el hombre A pesa más que el hombre B ( sin saber que tanto más pesa). Podemos decir que existe una diferencia relativa más que una diferencia cuantitativa. Tales datos consisten en un orden o rango de medición y se dice que es una escala de medición ordinal. Podemos decir que una entidad biológica es más pequeña, más obscura, más rápida o más activa que otra; los tamaños de 5 tipos de células pueden ser etiquetadas 1, 2, 3, 4 y 5, para denotar su magnitud relativa a otra; o el éxito en aprender a recorrer un laberinto puede ser registrado como A, B o C.
A veces, la variable bajo estudio se clasifica por alguna medición cualitativa que posee, más que por una medición numérica. En tales casos, la variable puede ser denominada un atributo y decimos que son datos nominales o categóricos. Los fenotipos genéticos son comúnmente atributos biológicos: la posible manifestación del color de ojos de un animal puede ser azul o café; y si el color de cabello humano fuera un atributo de interés, registraríamos, negro, café, rubio o pelirrojo. Otros ejemplos de datos nominales, las personas pueden ser clasificados como hombre o mujer, o zurdo o diestro. Las plantas pueden ser clasificadas como vivas o muertas, o con o sin aplicación de fertilizante. La taxonomía es otro esquema de clasificación nominal. Algunas veces, los datos pueden estar expresados en una escala de medición ordinal, de intervalo o de razón y pueden ser registrados en categorías nominales. Por ejemplo, las estaturas pueden ser registradas como alto o bajo o el desempeño en un examen como aprobado o reprobado.
Anteriormente se mencionó la variable altura de plantas, la cual es una variable que puede tomar cualquier valor concebible en cualquier rango observable; esto es conocido como variable continua. Esto es, si medimos una altura de 35 cm y una altura de 36 cm, existe un numero infinito de alturas en el rango de 35 a 36 cm. Una variable continua es una en la cual hay un valor posible entre cualquier otros dos valores.
Exactitud es lo más cercano de una medición al valor verdadero de la variable a ser medida. Precisión no es un sinónimo pero se refiere a que tan cercana una de otra están las mediciones repetidas de la misma cantidad. La figura 1 muestra la diferencia entre exactitud y precisión de mediciones. Los errores humanos pueden existir en el registro de los datos. La exactitud de la medición se puede expresar en reporte numérico. Si reportamos que la pata trasera de una rana tiene 8 cm de longitud, iniciaremos el numero 8 (un valor de una variable continua) como una estimación de la longitud verdadera de la pierna de la rana. Esta estimación se hizo usando algún tipo de dispositivo de medición. Si tenemos un dispositivo capaz de mayor exactitud, declararíamos que la longitud de la pierna es 8.3 cm o por ejemplo, 8.32 cm de longitud. Cuando se registran valores de variables continuas, es importante indicar la exactitud con la cual se realizó la medición.
Exactitud es lo más cercano de una medición al valor verdadero de la variable a ser medida. Precisión no es un sinónimo pero se refiere a que tan cercana una de otra están las mediciones repetidas de la misma cantidad. La figura 1 muestra la diferencia entre exactitud y precisión de mediciones. Los errores humanos pueden existir en el registro de los datos. La exactitud de la medición se puede expresar en reporte numérico. Si reportamos que la pata trasera de una rana tiene 8 cm de longitud, iniciaremos el numero 8 (un valor de una variable continua) como una estimación de la longitud verdadera de la pierna de la rana. Esta estimación se hizo usando algún tipo de dispositivo de medición. Si tenemos un dispositivo capaz de mayor exactitud, declararíamos que la longitud de la pierna es 8.3 cm o por ejemplo, 8.32 cm de longitud. Cuando se registran valores de variables continuas, es importante indicar la exactitud con la cual se realizó la medición.
Existen instancias donde las cifras significativas y la exactitud implícita no aplica con datos discretos. Un entomólogo puede reportar que hay 72,000 polillas en un área forestal particular. Al hacerlo, probablemente no se afirma que éste es el numero exacto sino una estimación del numero exacto, quizá exacto a dos cifras significativas. En tal caso, 72,000 implicaría un rango de precisión de 1000, de modo que el verdadero valor puede estar entre 71,500 y 72,500. Para una mejor representación de los datos se utiliza la forma de notación científica, como sigue: Si se escribe el numero 7.2 x 104 (= 72,000), implica un rango de precisión 0.1 x 104 (= 1,000) y el valor verdadero se asume que está entre 71,500 y 72,500. Pero si se escribe 7.20 x 104 está implícito un rango de precisión de 0.01 x 104 (=100) y el valor verdadero se asume que está en el rango de 71,950 a 72,050.
Al recopilar y resumir grandes cantidades de datos, a menudo es útil registrar los datos en forma de una tabla de frecuencias. Tal tabla simplemente implica una lista de todos los valores observados de la variable en estudio y cuántas veces cada valor es observado. Veamos un ejemplo de la tabulación de la frecuencia de ocurrencia de nidos de gorriones en varios lugares diferentes. Esto se ilustra en el ejemplo 1.1, donde se enumeran los tipos de nidos observados y, para cada tipo, el número de nidos observados registrados.
La distribución del número total de observaciones entre las distintas categorías se denominan distribución de frecuencia. El ejemplo 1.1 es una tabla de frecuencias para datos nominales, y estos datos también pueden presentarse gráficamente por medio de una gráfica de barras (Figura 1.2), donde la altura de cada barra es proporcional a la frecuencia en la clase representada. El ancho de las barras debe ser igual de tal forma que el ojo del lector no se distraiga de las diferencias de altura de las barras, que representan la frecuencia. También, la escala de frecuencia en el eje vertical debe iniciar en cero para evitar las aparentes diferencias entre las barras.
Podemos observar una tabulación de frecuencia de datos ordinales en el ejemplo 1.2, que presenta los números observados de peces sol recolectados en cada una de las cinco categorías, cada categoría es un grado de pigmentación de la piel. Se puede realizar un gráfico de barras (Figura 1.4) para esta distribución de frecuencia, al igual que para datos nominales.
En este caso el proceso es el mismo
Debido a que los datos continuos, a diferencia de los datos discretos, pueden tomar una infinidad de valores, uno se trata esencialmente de una distribución de frecuencia tabulada por grupos. Si la variable de interés fuera un peso, medido al 0.1 mg más cercano, una entrada en la tabla de frecuencias del número de pesos medidos como 48.6 mg se interpretará en el sentido de la cantidad de pesos agrupados entre 48.5500 ... y 48,6499 ... mg (aunque en una tabla de frecuencias este intervalo de clase generalmente se escribe como 48.55-48.65). El ejemplo 1.5 presenta una tabulación de 130 determinaciones de la cantidad de fósforo, en miligramos por gramo, en hojas secas. (Ignora las dos últimas columnas de esta tabla hasta la sección 1.4).
Al presentar esta distribución de frecuencias gráficamente, uno puede preparar un “histograma ". El cual es el nombre dado a un gráfico de barras basado en datos continuos. Esto se muestra en la Figura 1.7; tenga en cuenta que en lugar de indicar el rango en el eje horizontal, se indica solo el punto medio del rango, un procedimiento que resulta en menos datos impresos en el gráfico. Tenga en cuenta también que las barras adyacentes en un histograma a menudo se dibujan tocándose entre sí, para enfatizar la continuidad de la escala de medición, mientras que en los otros gráficos de barras discutidos generalmente no lo son.
Una distribución de frecuencia nos informa cuántas observaciones ocurrieron para cada valor (o grupo de valores) de una variable. Es decir, examinando la tabla de frecuencias del ejemplo 1.3 (o su correspondiente gráfico de barras o polígono de frecuencia) produciría información como "¿Cuántas camadas de zorros de cuatro se observaron?", la respuesta es 27. Pero si se desea hacer preguntas como, "¿Cuántas camadas de cuatro o más se observaron? "o" ¿Cuántas camadas de zorros de cinco o menos se observaron? ", estamos hablando de frecuencias acumulativas. Para responder la primera pregunta, sumamos todas las frecuencias para camadas de cuatro y más, y para la segunda pregunta, sumamos todas frecuencias desde el tamaño de camada más pequeño hasta un tamaño de cinco. Llegamos a respuestas de 54 y 59, respectivamente.
Frecuencias relativas (proporciones de la frecuencia total) se puede trazar en lugar de (o, como en las Figuras 1.9 y 1.10, además de) frecuencias en el eje vertical de un polígono de frecuencia acumulada. Esto permite mostrar diferentes distribuciones para que sean fácilmente comparadas e incluso trazadas en los mismos ejes. (Usando los datos del Ejemplo 1.5 para la Figura 1.9, la frecuencia acumulada relativa para 8.2 mg / g es 2/130 = 0.015, para 8.3 mg / g es 8/130 = 0.062, y así sucesivamente. Para la figura 1.10, la frecuencia acumulada relativa para 8.2 mg / g es 130/130 = 1.000, para 8.3 mg / g es 128/130 = 0.985, y así sucesivamente).
Los profesionales de estadística hablan de una población (también llamada universo) como un grupo de medidas (no organismos) sobre los cuales se desea sacar conclusiones. Por ejemplo, un investigador puede desear sacar conclusiones sobre la longitud de la cola de linces en Montana. Todas las longitudes de cola de lince de Montana son, por lo tanto, la población bajo consideración. Si un estudio se refiere a la concentración de glucosa en sangre en niños de tres años, entonces los niveles de glucosa en sangre en todos los niños de esa edad son la población de interés.
Generalmente, las poblaciones de interés son tan grandes que obtener todas las medidas no es viable. Por ejemplo. no podríamos esperar determinar razonablemente el peso corporal de cada saltamontes en Kansas. Lo que se puede hacer en tal casos es obtener un subconjunto de todas las mediciones en la población. Este subconjunto de las medidas constituyen una muestra. y de las características de muestras podemos sacar conclusiones acerca de las características de las poblaciones de las cuales vinieron las muestras. Los biólogos pueden tomar muestras de una población que no existe físicamente. Dicha población se dice que es "imaginaria“ y también se conoce como "hipotético" o "potencial".
Las muestras de las poblaciones se pueden obtener de varias maneras; sin embargo, para que una muestra sea representativa de la población de la que proviene y llegar a conclusiones válidas sobre poblaciones por inducción a partir de muestras, los procedimientos estadísticos típicamente suponen que las muestras se obtienen de manera aleatoria. Para muestrear una población aleatoriamente se requiere que cada miembro de la población tenga igual e independiente posibilidad de ser seleccionado. A lo largo de este libro, "muestra" siempre implicará "muestra aleatoria“. El uso de los términos población y muestra fue establecido por Karl Pearson (1903).
En la tabla cada digito del 0 al 9 tiene una posibilidad igual e independiente de ser selecionado
En biología muchas veces no es posible asignar números a cada miembro de la población, así que el muestreo aleatorio se asegura conociendo la biología de cada organismo para asegurar el muestreo aleatorio
Contaminado, cuando una muestra contiene un dato que no se conforma a las características de la población
Los recortes son una forma práctica de recopilar diapositivas importantes para volver a ellas más tarde. Ahora puedes personalizar el nombre de un tablero de recortes para guardar tus recortes.
Crear un tablero de recortes
Compartir esta SlideShare
¿Odia los anuncios?
Consiga SlideShare sin anuncios
Acceda a millones de presentaciones, documentos, libros electrónicos, audiolibros, revistas y mucho más. Todos ellos sin anuncios.
Oferta especial para lectores de SlideShare
Solo para ti: Prueba exclusiva de 60 días con acceso a la mayor biblioteca digital del mundo.
La familia SlideShare crece. Disfruta de acceso a millones de libros electrónicos, audiolibros, revistas y mucho más de Scribd.
Parece que tiene un bloqueador de anuncios ejecutándose. Poniendo SlideShare en la lista blanca de su bloqueador de anuncios, está apoyando a nuestra comunidad de creadores de contenidos.
¿Odia los anuncios?
Hemos actualizado nuestra política de privacidad.
Hemos actualizado su política de privacidad para cumplir con las cambiantes normativas de privacidad internacionales y para ofrecerle información sobre las limitadas formas en las que utilizamos sus datos.
Puede leer los detalles a continuación. Al aceptar, usted acepta la política de privacidad actualizada.