VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD. Bioestadística. LolaFFB
1. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 1
PRUEBA DE PREPARACIÓN Nº4
VARIABLES ALEATORIAS Y DISTRIBUCIONES
DE PROBABILIDAD
En este tema aclararemos el concepto de variable aleatoria así como definiremos
algunas distribuciones de probabilidad, que asignan a cada valor posible de dicha
variable su probabilidad correspondiente.
VARIABLE ALEATORIA
Es el resultado de la asociación de un número real a cada uno de los sucesos
elementales que observamos en un experimento azaroso.
Clasificación:
Discreta: es aquella que toma un número finito o infinito numerable de
valores posibles, una sucesión de números reales enteros. A cada valor de la
variable se le asigna un único número. Por ejemplo: al tirar una moneda, sale
cara o sale cruz. Si sale cara le damos el número 1, si sale cruz le damos el
número 2.
Continua: es aquella que toma un número infinito no numerable de valores,
dentro de un mismo intervalo. Un único número se corresponde con múltiples
valores pertenecientes a un mismo intervalo de la variable. Por ejemplo: al
medir el peso de un grupo de individuos, no podemos asignar el número 1 para
un peso de 67’1kg, y el 2 al 67’2…se complicarían aún más los cálculos, y nos
dejamos muchos decimales por medio.
Distribución de probabilidad de variables aleatorias discretas
Para definir una variable aleatoria discreta debemos conocer los distintos valores de la
misma, así como la probabilidad de cada uno de ellos. A la representación de estos
datos en una tabla la denominamos función de probabilidad: f(xi). Se representan
gráficamente en diagramas de barras.
2. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 2
También podemos definir las probabilidades de la variable mediante la denominada
función de distribución de probabilidad: F(X), que determina la probabilidad
acumulada de que la variable (X) tome valores menores o iguales que x.
3. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 3
0
0.1
0.2
0.3
0.4
0.5
0.6
0 1 2
f(x)
Veamos un ejemplo:
Si tiramos una moneda al aire dos veces seguidas y apuntamos la combinación que
nos sale, podemos obtener: dos caras (C-C), dos cruces (X-X), una cara y una cruz (C-
X), y una cruz y una cara (X-C). Ahora le asignamos un valor a cada uno de estas
posibilidades para transformar nuestro experimento en una variable aleatoria. Así
tenemos:
C-C0.
C-X, X-C 1.
X-X2.
Como vemos, hay dos veces más probabilidades de que salga un resultado mixto (C-
X, y X-C). Aquí recogemos los datos en una tabla:
x pi F(x)
0 0,25 0,25
1 0,50 0,75
2 0,25 1
Esto lo podemos representar en un diagrama de barras (función de probabilidad):
4. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 4
Distribución de probabilidad de variables aleatorias continuas
El espacio muestral está formado por infinitos sucesos elementales, por lo que no
resulta conveniente asignar un número a cada uno de ellos, sino hallar más bien la
probabilidad de cada uno de los intervalos de valores de la variable aleatoria.
La función de densidad de probabilidad: f(x), de una variable aleatoria continua,
cumple que:
La integral de esta función entre los límites del intervalo de valores en que se define la
variable es igual a 1 (recoge el total de probabilidades, la probabilidad total):
La función de distribución de una variable aleatoria continua se corresponde, pues, a
su función de densidad, que nos da la probabilidad acumulada a un valor de X.
Entonces, para un intervalo (a,b):
5. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 5
Parámetros de una variable aleatoria
Para definir una distribución de probabilidad utilizamos también medidas de
tendencia central y de dispersión.
Esperanza matemática: E(X). Representa el promedio teórico de una
distribución.
o Variables aleatorias discretas:
o Variables aleatorias continuas:
Variancia: V(X) o σ2
. Mide la dispersión de los valores alrededor de la
esperanza:
o Variables aleatorias discretas:
o Variables aleatorias continuas:
Desviación típica: = σ.
Otros parámetros, vistos ya en estadística descriptiva y de idéntica
aplicación en las variables aleatorias: mediana, moda, amplitud y coeficiente
de variación.
6. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 6
Ahora vamos a ver las distribuciones de probabilidad más comunes, que se diferencian
en familias según los parámetros que las definen.
DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
Distribución Binomial
Se usa en situaciones en las que sólo existen dos posibilidades mutuamente
excluyentes. Cada suceso es independiente, por lo que la probabilidad de que ocurran
todos ellos se corresponde al suceso de intersección de todos los sucesos elementales,
es decir, al producto de las probabilidades de todos los sucesos.
La probabilidad de que ocurra una de las posibilidades (A) la denominaremos “p”, y la
probabilidad de que ocurra la otra posibilidad (B) la denominaremos “q”. Entonces:
La distribución binomial es la que sigue una variable aleatoria X, que toma el valor del
número de éxitos al realizar un experimento aleatorio que consiste en n observaciones
independientes y con dos únicos posibles resultados y la probabilidad, “p”, de
ocurrencia del suceso deseado (éxito) se mantiene constante durante todo el
experimento.
Entonces esta distribución queda definida por los parámetros “n” (número de
mediciones) y “p” (probabilidad de éxito):
Un ejemplo de expresión binomial es el siguiente:
Donde:
“x” es el número de éxitos.
“n” es el número de observaciones.
7. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 7
“p” es la probabilidad del suceso A.
“q” es la probabilidad del suceso B.
La esperanza matemática:
La variancia:
Cuando aumenta el número de observaciones trabajar con una fórmula binomial
resulta muy complejo, por lo que se usan aproximaciones a la distribución normal o a
la de Poisson, que veremos ahora.
Se aproximará a la normal si p ≈ 0’5 y “n” tiene un valor elevado, o si el
producto de “n” y “p”, o “n” y “q” es mayor que 5.
Se aproximará a la de Poisson si “p” o “q” tienen valores cercanos a 0, y el valor
de “n” es muy grande.
Aquí tenemos un ejemplo:
Tomamos una población de 5 pacientes que se van a exponer al experimento de
probar un fármaco con probabilidad de curación igual a 0,6. Entonces la
probabilidad total (que se curen todos), al ser sucesos independientes, se
corresponde a la intersección de todos ellos, es decir, al producto de todas las
probabilidades: 0,65
.
Así tenemos la probabilidad de curarse: P(C) = p = 0,6, y la de no curarse P(Cc
) = q =
1 - 0,6 = 0,4, ya que p + q = 1.
A esta distribución binomial la representaremos así: B(5; 0,6), y sustituiremos en la
expresión con los valores de que disponemos:
Y así sucesivamente hasta x = 5, obteniendo cada una de las probabilidades. Como
vemos es un método lento.
x f(x) F(x)
0 0,0778 0,0778
1 0,2592 0,337
2 0,3456 0,6826
3 0,2304 0,913
4 0,0768 0,9898
5 0,0102 1
8. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 8
Distribución de Poisson o “de los casos raros”
Las características de esta distribución son que “n” tiende a infinito y “p” tiende a 0.
La función de probabilidad de una variable aleatoria con estas características es:
La distribución de Poisson posee un único parámetro que representa tanto la media
como la variancia, constante durante todas las mediciones: λ.
Cuando aproximamos una distribución binomial a la de Poisson y tenemos que p<0,1, y
n x p<5, entonces:
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
f(x)
9. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página 9
DISTRIBUCIONES DE PROBABILIDAD CONTINUA
Una variable aleatoria continua puede tomar cualquier valor en un intervalo real, por
lo que diríamos que el espacio muestral está formado por infinitos sucesos
elementales. Esto evita que podamos hallar la probabilidad de cada uno de ellos,
entonces solo podemos obtener la probabilidad de un intervalo de valores.
Distribución Normal, de Moivre, de Laplace o de Gauss
Su nombre se debe a que gran parte de las variables siguen esta distribución: es
frecuente, normal (no patrón). Ejemplos de ello son las medidas antropométricas, las
habilidades…
Estas variables son resultado de la interacción de múltiples factores independientes
con influencia reducida y similar. Por ejemplo: altura de las personas sanas (si están
enfermas ésto cambia porque es un factor de especial relevancia).
La función de densidad de probabilidad de esta distribución es:
Veamos otro ejemplo:
La probabilidad de que al administrar una vacuna y ésta dé cierta reacción es de
0,001. Si se vacunan 2000 personas, ¿cuál es la probabilidad de que no aparezca
ninguna reacción adversa?, ¿y de que aparezca una?, ¿y dos?...y así sucesivamente.
Λ = n x p = 2000 x 0,001 = 2
Sustituyendo en la fórmula vamos contestando a dichas preguntas:
X f(x)
0 0,13534
1 0,27067
2 0,27067
3 0,18045
4 0,09022
5 0,03609
6 1,01203
7 0,00344
8 0,00086
9 0,00019
10 0,00004
10. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página
10
Vemos entonces que la media y la desviación típica definen toda la probabilidad, por
lo que reciben el nombre de parámetros de la distribución normal. La variable que
siga esta distribución se expresa así:
Propiedades
Simetría. Su eje de simetría se sitúa en la media, donde coinciden media,
mediana y moda.
Asintótica al eje de abscisas, sus colas no tocan el eje, sino que tienden a
infinito.
La distancia del eje de simetría al punto de inflexión equivale al valor de la
desviación típica.
Distribución normal tipificada (Z)
Nos sirve para obtener de forma rápida y simple las probabilidades de las variables que
siguen la normal.
Sus características son poseer una media de valor igual a 0 y una desviación típica
igual a 1, por lo que se expresa:
Si a cualquier variable con distribución normal le aplicamos la siguiente
transformación (Z), conseguiremos que su media “ se haga 0 y su desviación típica
“ sea 1, es decir, estaremos tipificando la distribución para facilitarnos los cálculos.
Áreas bajo la curva normal
El área bajo la función de densidad f(x), se corresponde con que la probabilidad de
que X tome un valor situado entre el mínimo (-∞) y el máximo (+∞) que puede
tomar, equivale a 1.
11. BIOESTADÍSTICA: TEORÍA PP4 Lola Fernández de la Fuente Bursón
Página
11
Si nos referimos a una distribución normal tipificada, estos intervalos serían los
siguientes: (-1, +1), (-2, +2), (-3, +3).
Para calcular las áreas usamos la función de distribución normal tipificada F(z), cuya
tabla está situada en el anexo B del libro, que permite conocer la probabilidad de que
nuestra variable tipificada tome valores entre -∞ y z, es decir, la probabilidad
acumulada hasta el valor z: . El resultado tendrá una precisión de hasta dos
decimales.
Así pues:
También podemos aprovechar la simetría de la distribución:
Y un último caso:
1. La altura sigue una distribución normal que queda definida: N(167; 11,7).
Queremos averiguar el número de individuos con talla inferior o igual a 170 cm en
una población de 10.000 personas.
Entonces: n = 10.000, = 167 y σ = 11,7, y deseamos conocer P(x ≤ 170). Vamos a
tipificarla:
P(x≤170) = P(z≤0,25), que si miramos la tabla equivale a 0,5978. Entonces el
59,78% de la población mide menos de 170 cm: 5.987 personas.
2. Si nos preguntamos cuántas personas miden más de 190 cm ( P(x>190) ), lo
podemos expresar como: 1- P(x≤190). Y siguiendo el mismo proceso
obtenemos z = 1,96. Y en la tabla del anexo: P(z≤1,96) = 0,975.
Así tendremos finalmente: P(z>1,96) = 1- P(z≤1,96) = 1 – 0,975 = 0,025. Esto
supone que solo 250 individuos tendrán una altura superior a 190 cm.