1. R PR´ACTICA II
Probabilidad-Variables Aleatorias
Secci´on II.1
Probabilidad
15.
En el fichero sintomas.dat se encuentran 9 columnas con los resultados de una estad´ıstica m´edica.
Cada columna corresponde a las siguientes variables:
V1. Fumador V2.Ha viajado a Asia V3. Cancer de pulm´on V4. Bronquitis %
V5. Tuberculosis V6.Auscultaci´on tor´acica normal V7. Doloren el pecho %
V8. Rayos X normales V9. Edad
Todos los campos, excepto el ´ultimo, est´an codificados mediante un 1 si la respuesta es NO y 2 si
la respuesta es SI. Importar dicho fichero de los ficheros de datos y responder a:
a) Crear un gr´afico de barras con la probabilidad de padecer c´ancer de pulm´on por franjas de
edad de 10 a˜nos.
b) Calcular la probabilidad de padecer c´ancer de pulm´on si tomamos un individuo de la franja
de edad de 40 a 70 a˜nos.
c) Calcular, para esa misma franja de edad:
1) la probabilidad de padecer c´ancer de pulm´on teniendo en cuenta que el paciente es fu-
mador.
2) la probabilidad de padecer c´ancer de pulm´on dado que es fumador y siente dolor en el
pecho.
3) la probabilidad de padecer c´ancer de pulm´on dado que NO es fumador y NO siente dolor
en el pecho.
8
2. II.2. VARIABILIDAD A CORTO PLAZO. REGULARIDAD A LA LARGA
4) la probabilidad de padecer c´ancer de pulm´on dado que el paciente ha visitado Asia.
d) ¿Son los siguientes sucesos dependientes o independientes?
1) Haber visitado Asia y padecer tuberculosis.
2) Fumar y haber visitado Asia.
3) Fumar y padecer c´ancer de pulm´on.
Secci´on II.2
Variabilidad a corto plazo. Regularidad a la larga
16.
Variabilidad a corto plazo.
Crear un data.frame nuevo de nombre dado.12.
a) Simular 12 lanzamientos de un dado regular (no trucado), almacenando los resultados de los
lanzamientos en la columna 1 (”dado_1”).
dado.1<-sample(c(1:6),12,replace=TRUE)
b) Repetir el apartado anterior almacenando los resultados en la columna 2 (”dado_2”) y (”dado_3”).
c) Dibujar diagramas de barras de los datos de las tres columnas.
barplot(table(dado.1))
d) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas
iguales a
1
6
?
17.
Variabilidad a largo plazo.
Crear un data.frame nuevo de nombre dado.1200.
a) Simular 1200 lanzamientos de un dado regular (no trucado), almacenando los resultados de
los lanzamientos en la columna (”dado_4”).
b) Repetir el apartado anterior almacenando los resultados en las columnas (”dado_5”) y (”dado_6”).
c) Dibujar diagramas de barras de los datos de las dos columnas.
d) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas
iguales a
1
6
?
18.
¿Es siempre admisible el concepto cl´asico de probabilidad?
a) Simular 120 lanzamientos de un dado en cuyo interior se han introducido asim´etricamente bolas
de acero, de forma que P(1) = 0.5; P(2) = 0.25; P(3) = 0.15; P(4) = 0.04 y P(5) = P(6) =
0.03. Almacenar los resultados de los lanzamientos en la variable (”dado.trucado.120”).
b) Dibujar diagramas de barras para la variable anterior.
c) ¿Son aproximadamente iguales las frecuencias relativas de los 6 sucesos posibles? ¿A qu´e con-
cepto de la probabilidad conduce este experimento aleatorio?
Universidad de Cantabria. Alberto Luce˜no y Fco. Javier Glez Ortiz 9
3. CAP´ITULO II. PROBABILIDAD-VARIABLES ALEATORIAS
Secci´on II.3
Concepto frecuentista de la probabilidad
19.
La concepci´on frecuentista interpreta que la probabilidad de un suceso es el l´ımite de la frecuencia
relativa de dicho suceso cuando el n´umero de veces que se repite el experimento asociado tiende a
infinito.
Por ejemplo, que la probabilidad de sacar cruz al tirar una moneda es 0.5 significa que, en una
sucesi´on de tiradas, la frecuencia relativa de las cruces obtenidas se ir´a aproximando paulatinamente
a 0.5 seg´un avanza la sucesi´on.
a) Generamos un vector que represente la sucesi´on de tiradas; suponiendo n = 500 tiradas.
b) Generamos otro vector FA con las frecuencias absolutas del n´umero de cruces acumuladas
hasta cada tirada.
c) Calculamos las frecuencias relativas de las cruces en cada tirada.
d) Representamos la secuencia de frecuencias relativas acumuladas.
e) Podemos a˜nadir la as´ıntota, a la altura del valor te´orico de la probabilidad p = 0.5
Secci´on II.4
Simulaci´on de experimentos aleatorios
20.
Simular el problema del aniversario:
a) Simular el nacimiento de 40 personas. muestra.nac.40
b) Analizar los datos repetidos de muestra.nac.40 y comprobar si hay dos personas con el mismo
d´ıa de nacimiento.
c) Simular el nacimiento de 23 personas, muestra.nac.23 y efectuar la misma comprobaci´on que
antes.
d) Simular el experimento anterior 2000 veces y estimar la probabilidad de que al menos dos
personas de un grupo de 23 elegidos al azar cumplan a˜nos el mismo d´ıa.
num.veces<-2000
num.personas<-23
coinciden<-replicate(num.veces,is.element(0,
diff(sort(sample(c(1:365),num.personas,replace=TRUE)))))
frec<-sum(coinciden)/num.veces
frec
Universidad de Cantabria. Alberto Luce˜no y Fco. Javier Glez Ortiz 10
4. II.4. SIMULACI ´ON DE EXPERIMENTOS ALEATORIOS
e) Compara los resultados obtenidos con la soluci´on exacta.
p = 1 −
365 · 364 · 363 · · · (365 − n + 1)
365n
21.
Simular el problema de los dados de Galileo1
:
a) Abrir un nuevo conjunto de datos o data.frame de nombre Galileo. Simular el lanzamiento de
un dado 1000 veces.(C1=dado.1)
b) Realizar lo mismo para las columnas (C2=dado.2) y (C3=dado.3)
c) Establecer en la columna (C4=Suma) la suma de las tres dados.
d) Estimar la probabilidad de que la suma de los dados sea 10.
e) Estimar la probabilidad de que la suma de los dados sea 9.
f ) Realizar, con otra simulaci´on los pasos anteriores y comparar los resultados
Suma =10 Suma =9
g) Comparar con los resultados exactos
P(sumen 9) =
25
63
= 0.116 P(sumen 10) =
27
63
= 0.125
1
galileo<-data.frame(dado.1=sample(1:6,1000,rep=TRUE))
Universidad de Cantabria. Alberto Luce˜no y Fco. Javier Glez Ortiz 11
5. CAP´ITULO II. PROBABILIDAD-VARIABLES ALEATORIAS
Secci´on II.5
Distribuciones discretas y continuas m´as comunes
22.
Una v.a. X binomial B(200; 0.4). Se pide:
a) P(X < 71) P(X ≥ 90) FX (100)
b) P(X ≤ x) = 0.4 P(X ≥ x) = 0.8 FX(75)
23.
La centralita telef´onica de un hotel recibe un n´umero de llamadas por minuto que sigue una ley de
Poisson con par´ametro λ = 0.5. Determinar la probabilidad de que en un minuto al azar:
a) Se reciba una ´unica llamada.
b) Se reciban un m´aximo de dos llamadas.
c) La centralita quede bloqueada, sabiendo que no puede realizar m´as de 3 conexiones por minuto.
24.
Sea X una variable aleatoria normal con µ = 50 y σ2
= 25. Calcular:
a) p(X ≤ 40) p(X ≤ 60) p(X > 65)
b) p(X > 35) p(40 < X < 60) p(30 < X < 42)
25.
Una v.a. X se distribuye uniformemente en (2, 4). Se pide:
a) P(X < 2.5) P(X ≥ 3.2) P(2.2 < X < 3.5)
b) P(X ≤ x) = 0.4 P(X ≥ x) = 0.8 FX(2.7)
26.
Una v.a. X se distribuye de forma normal N(0; 1). Se pide:
a) P(X < 1.2) P(X ≥ 2.6) FX(1.5)
b) P(X ≤ x) = 0.4 P(X ≥ x) = 0.8 FX (−0.7)
Universidad de Cantabria. Alberto Luce˜no y Fco. Javier Glez Ortiz 12
6. II.6. TEOREMA CENTRAL DEL L´IMITE
Secci´on II.6
Teorema Central del L´ımite
En este apartado estudiaremos la distribuci´on del promedio de variables independientes e id´entica-
mente distribuidas y a trav´es de los histogramas correspondientes analizaremos el comportamiento
de estas distribuciones a medida que promediamos un n´umero creciente de variables aleatorias.
X =
X1 + X2 + . . . + Xn
n
Teorema de central del l´ımite: Si X1, . . . , Xn son variables aleatorias independientes con la
misma media µ y la misma varianza σ2
= 0 y finita, la funci´on de distribuci´on de la variable
aleatoria
X =
X1 + . . . + Xn
n
−→ N µ,
σ
√
n
cuando n tiende a infinito.
27.
Con este ejemplo ilustraremos que el promedio de la media muestral, E[X] = µ y la desviaci´on
t´ıpica de la media muestral es D.T.[X] =
σ
√
n
.
a) Simula una v.a. normal N(0, σ = 4) de tama˜no N = 1000 datos (este valor grande para
aumentar la precisi´on) y calcula de ella su media y su desviaci´on t´ıpica.
b) Simula 16 muestras de una poblaci´on normal N(0, σ = 4) de tama˜no N = 1000.
1) Calcula la media X16 =
X1 + X2 + . . . + X16
16
.
2) Calcula la desviaci´on t´ıpica de la variable X16
Comprueba que realmente se cumple que E[X] = µ y D.T.[X] =
σ
√
n
.
muestra.16 <- replicate(16, rnorm(1000,mean=0,sd=4))
medias.16<-apply(muestra.16,1,mean) mean(medias.16) sd(medias.16)
28.
Simular y representar la media de un muestreo aleatorio simple de tama˜no 2 (X1, X2) de una
distribuci´on U(0, 1).
a) Simular dos muestras muestras.2 de tama˜no N = 1000 para obtener un histograma con bastante
precisi´on
muestra.2 <- replicate(2, runif(1000,min=0,max=1))
b) Construir el vector de medias media.2
medias.2<-apply(muestra.2,1,mean)
c) Realiza el histograma.
hist(medias.2,breaks=100)
Universidad de Cantabria. Alberto Luce˜no y Fco. Javier Glez Ortiz 13
7. CAP´ITULO II. PROBABILIDAD-VARIABLES ALEATORIAS
d) A˜nadir en el histograma una l´ınea vertical azul2
que represente el promedio del vector de
medias obtenido. Representar con una l´ınea de puntos (lty=3) de color rojo (col=red”) la
media de la poblaci´on.
29.
A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de
tama˜no 5, (X1, X2, · · · , X5) de una distribuci´on U(0, 1).
30.
A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de
tama˜no 30, (X1, X2, · · · , X30) de una distribuci´on U(0, 1).
muestra.30 <- replicate(30, runif(1000,min=0,max=1))
medias.30<-apply(muestra.30,1,mean)
hist(medias.30,breaks=100,freq=FALSE)
Le a˜nadimos la curva normal para visualizar la comparaci´on, N(µ, σ/
√
n)
curve(dnorm(x,0.5,1/sqrt(360)),col="red",add=T,lwd=3)
31.
Realizar el ejercicio anterior para una distribuci´on exponencial Ex(α = 2).
32.
Un sistema electr´onico est´a dispuesto de forma que cuando falla el primer dispositivo E1 se activa
autom´aticamente el segundo E2, y as´ı sucesivamente hasta el En. Si el tiempo Ti hasta que falla Ei,
para cualquier i, es de tipo exponencial con par´ametro α = 0.1 hora−1
y T (n) = T1 + T2 + · · · + Tn
es el tiempo total de funcionamiento de n dispositivos, hallar:
a) P[T (1) > 12].
b) P[T (2) > 18].
c) P[T (30) > 350].
d) Calcular los apartados anteriores por simulaci´on
Soluciones
15. b) 0.0457172 c) 1)0.0964605; 2) 0.2150754;3) 0.0007471; 4) 0.0769230
22. a) 0.08439778-0.08572368-0.9983152 b) 78-75-0.2589559
23. a) 0.303 b) 0.9856 c) 0.00175
24. a) 0.02275- 0.9772- 0.0013 b) 0.9986 - 0.9544- 0.05476
25. a) 0.25- 0.4- 0.65 b) 2.8 - 2.4- 0.35
26. a) 0.8849303- 0.004661188- 0.9331928 b) -0.2533471 - −0.8416212 - 0.2419637
2
abline(v=mean(medias),col=.azul”,lwd=3)
Universidad de Cantabria. Alberto Luce˜no y Fco. Javier Glez Ortiz 14