Este documento presenta conceptos básicos de probabilidad y estadística. Introduce las nociones de variables aleatorias discretas y continuas, y describe distribuciones de probabilidad como la binomial, Poisson y normal. Explica cómo calcular valores esperados y varianzas para diferentes tipos de variables aleatorias, y cómo asignar probabilidades en el caso de variables continuas usando funciones de densidad de probabilidad.
3. La probabilidad condicional de A dado que el evento B ocurre es:
P(A|B) =
P (A y B)
P (B)
P(A|B) se lee “probabilidad de A dado B”
4. P(A|B) =
P (B|A) P(A)
P (B|A)P(A) + P(B|Ac)P(Ac)
Hemos discutido probabilidades basados en el enfoque frecuentista
(probabilidades como frecuencias relativas de resultados en un conjunto
infinito de pruebas).
=> No existe conocimiento a priori de la probabilidad de un evento.
El enfoque Bayesiano (probabilidad condicional), se basa en la idea de que
los investigadores tienen una noción a priori de la probabilidad de un
evento (e.g., antes de realizar las pruebas).
=>Las probabilidades priori se utilizan para obtener probabilidades a
posteriori.
5. • La probabilidad de un resultado es simplemente el número de veces
que ese resultado ocurre dividido por el numero total de pruebas.
• Si conocemos o estimamos probabilidades simples, entonces podemos
determinar:
1. Probabilidades para eventos complejos (Evento A o Evento B)
mediante suma.
2. Probabilidades de eventos compartidos (Evento A y Evento B)
mediante multiplicación.
• La definición de probabilidades, junto con los axiomas de adición de
probabilidades y las tres operaciones en conjuntos (unión, intersección,
complementación), forman el fundamento del cálculo de probabilidades.
7. • En la clase anterior exploramos la noción de probabilidad y la
idea de que el resultado de una prueba aislada es incierto.
• Sin embargo, si acumulamos data de muchas pruebas,
veremos patrones en la distribución de frecuencia de los
eventos (cómo se comportó la data).
• Ahora exploraremos algunas funciones matemáticas que
pueden generar estas distribuciones de frecuencia (cómo se
puede comportar la data) .
• La mayoría de los test estadísticos más comunes suponen la
presencia de ciertas distribuciones de probabilidad.
8. Podemos usar distribuciones de frecuencia empíricas para hacer ciertas
predicciones (con qué frecuencia ocurrirá un evento) o hacer juicios y
decisiones (si es probable que una estatura pertenezca a una población).
En biología, en muchos casos, hacemos este tipo de predicciones sobre la
base de consideraciones teóricas que consideramos pertinentes.
Ej. pensamos que la data debiera distribuirse de cierta forma (supuestos
sobre la naturaleza de las fuerzas que actúan sobre la muestra).
Probamos nuestros supuestos contra data (Distribuciones de frecuencia
observadas).
Los supuestos puestos a prueba exitosamente llevan generalmente a una
frecuencia de distribución teórica: UNA DISTRIBUCION DE PROBABILIDAD.
9. Una DP puede ser una distribución de dos valores tal como la
razón de cruzamiento de Mendel (3:1) o más complejo.
Cuando la data (observaciones) no se ajustan a la teoría
(esperado), estaremos frente a la presencia de algún
mecanismo biológico causando esta discrepancia (o desviación).
10. 1. Partamos por definir (nuevamente) una variable
aleatoria.
Definición: Una variable aleatoria X puede asumir un valor
por cada resultado en un espacio muestral.
Las variables aleatorias pueden ser de dos tipos:
- Discretas
- Continuas
11. X es discreta si todos los resultados pueden incluirse en una lista de
ítems separados (toman valores finitos o contables).
Ejemplos.
Presencia o ausencia de una determinada especie (1 ó 0)
Número de descendientes; Número de hojas; Número de patas (n°
enteros).
Una magnitud o cantidad es función de otra si el valor de la primera depende exclusivamente del valor de la segunda.
Es una regla que asigna a cada elemento del primer conjunto un único elemento del segundo conjunto.
12. VAD tipo Bernoulli
El tipo de experimento más simple es aquel que tiene sólo dos
resultados (e.g., presencia-ausencia; cara-sello; macho-hembra).
La VAD que describe este experimento se denomina de Bernoulli; un
experimento de pruebas independientes en que hay sólo dos
resultados posibles por cada prueba es una prueba Bernoulli.
Usamos la siguiente notación para indicar que la variable X es una
variable aleatoria Bernoulli.
Jacob Bernoulli (1654-1705)
)(~ pBernoulliX
13. VA tipo Bernoulli
X toma los valores del número de “éxitos” en cada prueba (e.g.,
presencia, capturado, hembra, con descendencia).
El ejemplo más común es arrojar una moneda, donde la posibilidad
de cara= posibilidad de sello = 0.5.
Sin embargo, incluso una variable con un gran número de resultados
puede ser redefinida como una prueba Bernoulli.
Jacob Bernoulli (1654-1705)
15. VA Binomial
Una característica central de la ciencia experimental es la replicación*, rara ves
se conduce una única prueba Bernoulli.
Por el contrario, en cada experimento realizaremos réplicas: pruebas Bernoulli
independientes .
Definición: Una Variable aleatoria Binomial X es el número de resultados
exitosos en n pruebas Bernoulli independientes (n>1).
La notación para una VAD Biniomial es la siguiente:
Con ella indicamos la probabilidad de obtener X resultados exitosos en n ensayos
Bernoulli, donde la probabilidad de un suceso exitoso en cualquier evento es p.
),(~ pnBinX
16. Las VA binomiales están dentro de las VAD más comúnmente
encontradas en estudios ecológicos y ambientales.
La probabilidad de encontrar X éxitos en una VA binomial es:
n!= n (n-1)(n-2)(n-3)…(3)(2)(1)
*La operación factorial puede aplicarse sólo a números enteros no negativos. Por definición 0!=1.
XnX
pp
XnX
n
Xp )1(
)!(!
!
)(
donde n es el número de pruebas, X es el número de resultados
exitosos (X≤n), y n! significa n factorial*
17. La ecuación anterior tiene tres componentes:
pX es la probabilidad de obtener X sucesos independientes
(1-p)(n-X) es la probabilidad de obtener (n-X) fracasos, cada uno con
probabilidad (1-p).
Notemos que la suma de los éxitos (X) y los fracasos (n-X) es
simplemente n, el número total de pruebas Bernoulli.
La probabilidad de obtener X éxitos con probabilidad p y (n-X)
fracasos con probabilidad (1-p), corresponde al producto de esos dos
eventos independientes pX (1-p)(n-X)
18. ¿Qué pasa con el término? y, ¿Cuál es su origen?
La notación equivalente para este término es:
Y se conoce como el coeficiente binomial.
El CB es necesario porque existe más de una forma de obtener muchas
combinaciones de éxitos y fracasos.
Por ejemplo: el resultado de “un éxito” en un conjunto de dos ensayos
Bernoulli puede ocurrir de dos formas: (1,0) ó (0,1).
Entonces la probabilidad de obtener un éxito en un conjunto de dos ensayos
Bernoulli equivale a la probabilidad de obtener un resultado de un éxito [p(1-
p)] multiplicado por el número de posibles resultados de un éxito (=2).
)!(!
!
XnX
n
X
n
19. Podríamos escribir todos los resultados de X (éxitos) y contarlos:
Ej.
Set de 3 pruebas Bernoulli: (1,0,0), (0,1,0), (0,0,1) [n=3; X=3]
Set de 4 pruebas Bernoulli: (1,0,0,0), (0,1,0,0), (0,0,1,0),(0,0,0,1) [n=4; X=4]
….
Pero a medida que n crece, también lo hace X. Existen 2n resultados
posibles para n pruebas.
Entonces, es más fácil calcular directamente el número de resultados de X
(éxitos), y esto es lo que hace el CB!
20. En general, el número total de formas obtener X éxitos en n pruebas es:
)1(...)2()1( Xnnnn
1...)2()1()( XnXnXn
Que se parece mucho a la fórmula de n!. Los términos de n! que no están
en la ecuación anterior son todos los que están por debajo de (n-X+1), o
Que equivale a (n-X)!. Entonces, si dividimos n! por (n-X)!, nos queda el
número total de veces formas de obtener X éxitos en n pruebas. Dividimos
(descontamos) también por X! para no contar dos veces patrones idénticos
de éxitos que ocurrieron en distinto orden.
21. )5.0,25(~ BinX )8.0,25(~ BinX
X
P(X)
X
Simétrica (mitad izquierda y derecha son
Imágenes especulares)
Asimétrica y cargada hacia la derecha
Entonces, ¿de qué depende la forma de la distribución binomial?
22. Si tenemos una variable discreta X, con
Resultados = {X1, X2, …, Xn}, y
Distribución de probabilidad = {p(X1), p(X2),…, p(Xn)}
23. Valor esperado de
una VAD
Varianza de una
VAD
Desviación
estándar de una
VAD
n
ii xpxXE
11
)()(
)())(()(
11
2
i
n
i xpXExXVAR
)()( XVARXSD
24. Distribución Valor de probabilidad E(X) VAR(X) Comentarios
Bernoulli P(X)=p p P(1-p)
Usada para resultados
dicotómicos
Binomial np np(1-p)
Usada para número de
éxitos en n pruebas
independientes
Poisson λ λ
Usado para eventos
independientes raros,
donde λ
Es la tasa a la que los
eventos ocurren (tiempo
o espacio)
XnX
pp
XnX
n
Xp )1(
)!(!
!
)(
e
x
xp
x
!
)(
La ecuación del valor de la probabilidad determina la probabilidad de obtener un valor particular de X para c/distribución.
La esperanza de E(X) de la distribución de valores se estima mediante la media o promedio de la muestra.
La varianza σ2 (X) es una medida de la dispersión (o desviación) de las observaciones a partir de E(X).
25. Aunque las distribuciones de probabilidad discretas (e.g., binomial)
son prácticas, la mayoría de las variables aleatorias son continuas y,
por lo tanto, no pueden ser descritas con VAD.
Cuando trabajamos con VAD podemos definir el espacio muestral
(conjunto de posibles resultados).
Cuando trabajamos con VAC, tenemos infinitos resultados!
Igualmente, como las observaciones pueden tomar cualquier valor
dentro de un intervalo definido, es difícil definir la probabilidad de
obtener un valor particular.
26. Definición: Una variable aleatoria X es continua si sus valores
están en un espectro continuo.
La forma en que asignamos probabilidad a una variable continua es
distinta de cómo lo hacemos en el caso de una variable discreta.
En este caso utilizamos una función de densidad de probabilidad.
27. X – variable continua
f(x)
1. Reconocemos que nuestro espacio muestral ya no es discreto, sino que continuo
2. En un espacio muestral continuo no existen resultados discretos (e.g., X=2), sino
que nos centramos en eventos que ocurren dentro de un sub-intervalo (e.g.,
1.5<X<2.5).
30. ¿Cómo asignamos Probabilidad a X?
P(X)
X
U [3,4]
1. Suma todos los sub-intervalos=1
2. La probabilidad de un evento
particular “a” dentro del espacio
muestral continuo es cero.
31. Si X es una variable aleatoria uniforme (VAU) con respecto a cualquier
intervalo I.
La probabilidad de esta VAU X ocurra en cualquier sub-intervalo U es igual
al producto U x I.
Siguiendo el ejemplo anterior, definimos la siguiente función para describir
esta variable aleatoria uniforme:
0
100,10/1
)(
x
xf
32. Valor esperado de VAD
Para distribuciones continuas p(xi)=0; entonces, usamos
probabilidades de eventos que están en sub-intervalos del
espacio muestral.
Para encontrar E(X) de una VAC usaremos pequeños sub-
intervalos x.
Para una FDP f(x), el producto de f(xi) y x nos entrega la
probabilidad de un evento acaecido en el sub-intervalo x.
n
ii xpxXE
11
)()(
33. xxfxXP ii )()( Similar a pi del caso discreto
f(xi) x describe el área de un rectángulo muy estrecho.
En el caso discreto encontramos E(X) como la suma del producto de cada xi
por su probabilidad asociada p(xi).
En el caso continuo, también encontramos el valor esperado de una VAC
sumando los productos de cada xi por su probabilidad asociada f(xi) x.
El valor de esta suma dependerá del tamaño del sub-intervalo x
34. n
i
ii xxfx
1
)(
Si x se hace más y más pequeño, entonces
Tiende a un valor límite. Este valor límite =E(X) para una variable aleatoria
continua. Para una variable aleatoria uniforme X, donde f(x) se define en el
intervalo [a,b], y donde a<b;
De nuestras clases de Cálculo recordamos que: para una VAC X, donde f(x) es diferenciable
dentro del espacio muestral,
La integral representa la suma del producto de xf(x), donde x se hace infinitesimalmente pequeña
en el límite.
dxxxfXE )()(
2/)()( abXE
35. La distribución de probabilidad normal (o Gaussiana) es
quizás la distribución de probabilidad más familiar
36. Características de la distribución normal
• La mayoría de las observaciones se agrupan alrededor de un valor central.
• Sin embargo, hay dos colas que se extienden hacia la derecha e izquierda del centro,
con la probabilidad disminuyendo rápidamente a medida que nos alejamos centro.
• La distribución es aproximadamente simétrica (mitades son imágenes especulares
Frecuencia
37. Si consideramos que la variable anterior es una variable aleatoria X, podemos
usar la función de densidad de probabilidad para aproximarnos a esta
distribución.
La distribución normal está definida por dos parámetros, que denominaremos
µ y σ.
Por lo tanto:
Esta función tiene las siguientes propiedades:
),()( fxf
)(XE 22
)(X
38. Una variable X que es descrita por esta distribución se denomina variable
aleatoria normal (o variable aleatoria Gaussiana)
Karl Friedrich Gauss (1777-1855)
),(~ NX
39. Tal como en el caso de la binomial, existen infinitas
distribuciones normales.
Distribución normal X
Media = µ
Desviación estándar = σ
2
2
1
2
1
)(
x
exf
40. DN tiene tres propiedades muy útiles:
1. Las distribuciones normales pueden ser sumadas. Si
tenemos dos variables aleatorias normales X e Y, su suma
también es una VA normal con E(X+Y)=E(X)+E(Y); y σ2
(X+Y)= σ2 (X) + σ2 (Y).
2. Las distribuciones normales pueden ser transformadas
utilizando cambios de escala (multiplicar X por una
constante) o saltos (sumar una constante a X).
3. Una propiedad de la distribución normal es el caso
especial de una operación de cambio de escala y salto en
que a=1/ σ y b=-1(µ/ σ).
43. TLC indica que al estandarizar cualquier variable aleatoria que sea tanto
una suma o un promedio de un conjunto de variables aleatorias, resulta
en una nueva variable aleatoria que es “casi igual” a una variable
aleatoria normal estándar.
La belleza del TLC es que nos permite usar herramientas estadísticas
que requieren que nuestras muestras sean tomadas de un espacio
muestral que es normalmente distribuido, incluso cuando los datos
subyacentes no sigan una distribución normal.
OJO:
1. Se requiere que la muestra sea “lo suficientemente grande”
2. las observaciones deben ser independientes y todas pertenecer a
una distribución con valor esperado y varianza común.
44. Las variables aleatorias pueden tomar una variedad de medidas, pero
su distribución se puede caracterizar por su valor esperado (esperanza)
y su varianza.
Las variables discretas (Bernoulli, Binomial, Poisson) aplican a data que
son discretas (contables), mientras que las variables continuas
(uniforme, normal) aplican a data medidos en una escala continua.
Independiente de la distribución subyacente, el teorema del límite
central indica que si las sumas o promedios de muestras grandes e
independientes son estandarizadas, entonces seguirán una distribución
normal.
TLC apoya el uso de pruebas estadísticas que suponen distribución
normal.