Una estrategia de seguridad en la nube alineada al NIST
Fase2 100402 grupo_292
1. PROABILIDAD
Trabajo colaborativo
Fase 2
Presentado por:
JOHN FREDY MEDNA RESTREPO
SERGIO ALEXANDER
JESUS ANTONIO PORRAS
Grupo 301014_292
Presentado a:
ELKIN ORLANDO VELEZ
Tutor
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA (UNAD)
Noviembre 2015
2. Variables aleatorias y distribuciones de probabilidad
Variables aleatorias
Concepto de variables aleatorias.
Una variable aleatoria es pues, una función que asigna un número real a cada
resultado en el espacio muestral de un experimento aleatorio. Ellas se denotan
con una letra mayúscula, tal como X.
Ejemplo 1.
Considere el lanzamiento de una moneda. El espacio muestral de este
experimento aleatorio está constituido por dos resultados: cara y sello.
Si se define X (cara) = 0 y X (sello) = 1, se transforman los dos posibles resultados
del espacio muestral en cantidades numéricas reales.
De esta manera P(X=0) representa la probabilidad de que el resultado al lanzar la
moneda es cara.
Variable aleatoria discreta.
Una variable aleatoria discreta es aquella que sólo puede tomar valores enteros.
Se dice que una variable aleatoria X es discreta si el número de valores que puede
tomar es finito (o infinito contable).
Ejemplos:
Número de caras al lanzar dos dados.
Número de cifras acertadas en un sorteo de la lotería.
Variable aleatoria continua
Una variable aleatoria continua es aquella que puede tomar todos los valores
posibles dentro de un cierto intervalo de la recta real.
Definición: Se dice que una v.a. es continua si el conjunto de todos los valores que
puede tomar no es numerable.
Una variable aleatoria X es (absolutamente) continua si existe una función f:
R→R+ tal que
𝑓( 𝑥) = ∫ 𝑓( 𝑡) 𝑑𝑡
𝑥
−∞
Esta función f se llama función de la densidad de la v.a. X
Las propiedades básicas de cualquier función de densidad son las siguientes:
1. 𝑓(𝑥) ≥ 0 (las frecuencias relativas tampoco podían ser negativas).
2. ∫ 𝑅 𝑓( 𝑥) 𝑑𝑥 = 1 (las frecuencias relativas también sumaban uno).
3. 𝑃( 𝑋 ∈ 𝐼) = ∫ 𝐼 𝑓( 𝑥) 𝑑𝑥 (la función de densidad sirve para calcular la
probabilidad de que la variable aleatoria X tome valores en un intervalo I que
nos interese).
3. Ejemplos:
Duración de una llamada a un servicio de atención al cliente.
Tiempo que un médico tarda en atender un paciente.
Lección 19: valor esperado y varianza de una variable aleatoria
El valor esperado (también llamado media o esperanza matemática) de una
variable aleatoria discreta X es una medida de posición para la distribución de X.
Se simboliza con µ y se calcula al sumar el producto de cada valor de X con su
probabilidad correspondiente. En otras palabras, la media o valor esperado de una
variable aleatoria discreta X es:
µx = E(X) = ∑ x. f(x)]
x
TEOREMA DE CHÉBYSHEV
Para demostrar cómo la desviación estándar es indicadora de la dispersión de la
distribución de una variable aleatoria, el matemático ruso Pafnuty Lvovich
Chébyshe v desarrolló un teorema en el que ofrece una garantía mínima acerca
de la probabilidad de que una variable aleatoria asuma un valor dentro de k
desviaciones estándar alrededor de la media.
Para cualquier variable aleatoria X con media _ y desviación estándar s, la
probabilidad de que X tome un valor contenido en k desviaciones estándar de la
media, siendo k una constante positiva cualquiera, es cuando menos 1 -
1
𝑘2
La desigualdad de Chébyshev es muy importante, ya que permite determinar los
límites de las probabilidades de variables aleatorias discretas o continuas sin tener
que especificar sus funciones de probabilidad. Este teorema asegura que la
probabilidad de que una variable aleatoria se aleje de la media no más de k
desviaciones estándar, es menor o igual a 1/ 𝑘2
para algún valor de k >1.
Aunque la garantía no siempre es muy precisa, la ventaja sobre este teorema es
su gran generalidad por cuanto es aplicable a cualquier variable aleatoria con
cualquier distribución de probabilidad, ya sea discreta o continua.
DISTRIBUCIONES DE PROBABILIDAD DISCRETA
DISTRIBUCIÓN UNIFORME DISCRETA
La variable aleatoria discreta más sencilla es aquella que toma sólo un número
finito de valores posibles n, cada uno con la misma probabilidad. Ella se denomina
entonces variable aleatoria discreta uniforme y su distribución uniforme discreta
está dada por: f(x) = ½
4. DISTRIBUCIÓN BINOMIAL
Las distribuciones binomiales son las más útiles dentro de las distribuciones de
probabilidad discretas. Sus áreas de aplicación incluyen inspección de calidad,
ventas, mercadotecnia, medicina, investigación de opiniones, entre otras. Estas
distribuciones permiten enfrentar circunstancias en las que los resultados
pertenecen a dos categorías relevantes: que ocurra un evento determinado o que
no lo haga. Este tipo de experimento aleatorio particular es denominado ensayo de
Bernoulli. Sus dos resultados posibles son denotados por “éxito” y “fracaso” y se
define por p la probabilidad de un éxito y 1-p la probabilidad de un fracaso.
En general, un experimento aleatorio que consiste de n ensayos repetidos tales
que:
Los ensayos son independientes
Cada ensayo es de tipo Bernoulli. Esto es, tiene sólo dos resultados
posibles: “éxito” o “fracaso”.
La probabilidad de éxito de cada ensayo, denotada por
p, permanece constante. Recibe el nombre de experimento binomial.
La variable aleatoria X, de un experimento binomial, que corresponde al número
de ensayos donde el resultado es un éxito, tiene una distribución binomial con
parámetros p y n = 1, 2,…
DISTRIBUCIÓN BINOMIAL NEGATIVA Y GEOMÉTRICA
Considerando ahora una serie de ensayos Bernoulli con una probabilidad
constante de éxitos p, en la que el número de ensayos no es fijo como en la
distribución binomial si no que éstos se realizan hasta que se obtiene el primer
éxito. Sea entonces, la variable aleatoria X el número de ensayos realizados hasta
obtener un éxito, ella tiene una distribución geométrica con parámetro p.
Distribución Binomial Negativa
En la distribución geométrica, la variable aleatoria estaba definida como el número
de ensayos Bernoulli necesarios para obtener el primer éxito. Suponga ahora que
se desea conocer el número de ensayos hasta obtener r éxitos; en este caso la
variable aleatoria es denominada binomial negativa.
La distribución binomial negativa o distribución de Pascal es una
generalización de la distribución geométrica donde la variable aleatoria X es el
número de ensayos Bernoulli efectuados hasta que se tienen r éxitos, con una
probabilidad constante de éxito p. Se dice entonces que X tiene una distribución
binomial negativa con parámetros p y r = 1, 2, 3,…
DISTRIBUCIÓN HIPERGEOMÉTRICA
5. En la distribución binomial se veía que el muestreo se hacía con reemplazo,
asegurando la independencia de los ensayos y la probabilidad constante.
Supóngase ahora que el muestreo es sin reemplazo, caso en el cual los ensayos
no son independientes.
Sea N el número de elementos de un conjunto de los cuales k son determinados
como éxitos y N-k como fallas, se trata ahora de determinar la probabilidad de x
éxitos en n ensayos de los N elementos del conjunto donde k ≤ N y n ≤ N.
DISTRIBUCIÓN POISSON
Esta es otra distribución de probabilidad discreta útil en la que la variable aleatoria
representa el número de eventos independientes que ocurren a una velocidad
constante. La distribución de Poisson, llamada así en honor a Simeón Denis
Poisson probabilista francés que fue el primero en describirla, es el principal
modelo de probabilidad empleado para analizar problemas de líneas de espera,
confiabilidad y control de calidad; como el número de personas que llegan a un
lugar determinado en un tiempo definido, los defectos en piezas similares para el
material, el número de bacterias en un cultivo, el número de goles anotados en un
partido de fútbol, el número de fallas de una máquina en una hora o en un día, la
cantidad de vehículos que transitan por una autopista, el número de llamadas
telefónicas por minuto, etc. Como se puede observar se trata de hallar la
probabilidad de ocurrencia de cualquier número por unidad de medición (temporal
o espacial).
Dado un intervalo de números reales, si éste puede dividirse en sub intervalos
suficientemente pequeños, tales que:
(1) La probabilidad de más de un acierto en un sub intervalo es cero o
insignificante.
(2) La probabilidad de una ocurrencia en un sub intervalo es la misma para todos
los sub intervalos, y es proporcional a la longitud de estos.
(3) El conteo de ocurrencias en cada sub intervalo es independiente del de los
demás sub intervalos. Entonces el experimento aleatorio recibe el nombre de
proceso Poisson o flujo de procesos de Poisson.
Un proceso Poisson constituye un mecanismo físico aleatorio en el cual los
eventos ocurren al azar en una escala de tiempo (o de distancia). Por ejemplo, la
ocurrencia de accidentes en un cruce específico de una carretera sigue dicho
proceso. Cabe recordar que no es posible predecir con exactitud la cantidad de
accidentes que pueden ocurrir en determinado intervalo de tiempo, pero sí el
patrón de los accidentes en gran número de dichos intervalos.
Dado un proceso Poisson donde λ es el número promedio de ocurrencias en el
intervalo de números reales donde este se define, la variable aleatoria X
correspondiente al número de ocurrencias en el intervalo es llamada variable
aleatoria Poisson.
6. Distribución Poisson como aproximación a la distribución binomial
La distribución Poisson ofrece una aproximación excelente a la función de
probabilidad binomial cuando la probabilidad p de tener un éxito es pequeña y el
tamaño n de la muestra es grande. Podría decirse que se tiene una aproximación
muy satisfactoria cuando n ≥ 20 y n ≤ 0.05 y tal aproximación se incrementa a
medida que disminuye p.
DISTRIBUCIONES DE PROBABILIDAD CONTINUA
DISTRIBUCION UNIFORME
Se dice que una variable X posee una distribución uniforme en el intervalo [a,b],
X U (a,b) si su función de densidad es la siguiente:
𝑓( 𝑥) =
1
𝑏 − 𝑎
𝑠𝑖 𝑎 ≤ 𝑥 ≤ 𝑏
Con esta ley de probabilidad, la probabilidad de que al hacer un experimento
aleatorio, el valor de X este comprendido en cierto sub intervalo de [a,b] depende
únicamente de la longitud del mismo, no de su posición.
DISTRIBUCION NORMAL Y USO DE LA DISTRIBUCIÓN NORMAL
ESTANDAR
Es el modelo de distribución más utilizado en la práctica, ya que multitud de
fenómenos se comportan según una distribución normal.
Esta distribución de caracteriza porque los valores se distribuyen formando una
campana de Gauss, en torno a un valor central que coincide con el valor medio
de la distribución:
Distribución normal estándar o tipificada
Cuando la media de la distribución normal es 0 y la varianza es 1, se denomina
"normal tipificada", y su ventaja reside en que hay tablas, o rutinas de cálculo
que permiten obtener esos mismos valores, donde se recoge la probabilidad
acumulada para cada punto de la curva de esta distribución.
APLICACIONES DE LA DISTRIBUCIÓN NORMAL
Empecemos con un ejemplo:
El salario medio de los empleados de una empresa se distribuye según una
distribución normal, con media $ 500.000. y desviación típica $100.000 Calcular el
porcentaje de empleados con un sueldo inferior a $700.000
Solución:
7. Lo primero que haremos es transformar esa distribución en una normal tipificada,
para ello se crea una nueva variable (Z) que será igual a la anterior (X) menos su
media y dividida por la desviación típica.
𝑧 =
700.000−500.000
100.000
Esta nueva variable se distribuye como una normal tipificada. La variable Z que
corresponde a una variable X de valor 700.000 es: Z= 2
DISTRIBUCION EXPONENCIAL Y CHI CUADRADO
Distribución Exponencial
Esta distribución se utiliza como modelo para la distribución de tiempos entre la
presentación de eventos sucesivos. Existe un tipo de variable aleatoria que
obedece a una distribución exponencial la cual se define como el tiempo que
ocurre desde un instante dado hasta que ocurre el primer suceso.
Suponiendo que la duración de cierto componente en estado sólido X es
exponencial. Entonces la probabilidad de que X dure t unidades después de haber
durado a unidades es la misma que la probabilidad de que X dure t unidades
cuando X estaba nuevo.
OTRAS DISTRIBUCIONES CONTINUAS: DISTRIBUCION t-STUDENT
Distribución t-Student
La distribución t-Student se construye como un cociente entre una normal y la raíz
de una 𝑋2
independiente. De modo preciso, llamamos distribución t-Student con
n grados de libertad, tn a la de una v.a. T.
8. ESTUDIO DE CASO 1
Para una población grande de personas sin hogar, Wong y Piliavin (2001)
examinaron factores de estrés, recursos y agotamiento psicológico empleando la
Escala de Depresión del Centro de Estudios Epidemiológicos (CESD), un
cuestionario de evaluación comunitario.
Entre las personas sin hogar, la puntuación media del cuestionario CESD es 23,5
con una desviación estándar de 7.5 y se considera que para la Variable X =
puntuación del CESD, la distribución es normal. Como trabajador en el área de
admisiones en un refugio para personas sin hogar, usted es el encargado de
aplicar el CESD y debe evaluar los resultados para las nuevas personas que
lleguen al centro.
Dentro de las políticas del refugio se encuentra que cualquier persona cuya
puntuación sea de 20 o más puntos en el CESD debe enviarse a ver a un doctor.
INFORME A PRESENTAR:
Prepare un informe en el que como mínimo, incluya:
1. La probabilidad de que una persona que llegue al refugio sea enviado a ver al
Doctor.
𝑧 =
𝑥 − 𝜇
𝜎
𝑧 =
20 − 23,5
7,5
𝑧 =
−3,5
7,5
=
𝑧 = −0,466̂ ≈ −0,47
𝑃( 𝑧 = −0,47) = 0,1808 → 18,08%
𝑃( 𝑧 ≥ −0,47) = 0,1808 + 0,5 = 0,6808 → 68,08%
Rta. La probabilidad de que una persona que llegue al refugio sea enviado a ver al
Doctor es de 68,08%
9. 2. La probabilidad de que una persona que llegue al refugio tenga una puntación
de 10 o menos puntos.
𝑧 =
𝑥 − 𝜇
𝜎
𝑧 =
10 − 23,5
7,5
𝑧 =
−13,5
7,5
=
𝑧 = −1.8 ≈ −1. 80
𝑃( 𝑧 = −1,8) = 0,4641 → 46,41%
𝑃( 𝑧 ≤ −1,8) = 0,5 − 0,4641 = 0,0359 → 3,59%
Rta: La probabilidad de que una persona que llegue al refugio tenga una puntación de 10
o menos puntos es del 3,59%
3. La probabilidad de que una persona que llegue al refugio tenga una puntuación
entre 16 y 20 puntos
𝑧 =
𝑥 − 𝜇
𝜎
Para 16 se tiene que
𝑧 =
16 − 23,5
7,5
𝑧 =
−7,5
7,5
=
𝑧 = −1.0
𝑃( 𝑧 = −1) = 0,3413 → 34.13%
Para 20 se tiene que
10. =
20 − 23,5
7,5
𝑧 =
−3,5
7,5
= −0.4667
𝑧 = −0.4667
𝑍2 = −0,46̂ ≈ 0,47
𝑃( 𝑍2 = 0,47) = 0,1808
𝑃( 𝑍1 < 𝑍 < 𝑍2) = 0,3413 − 0,1808 = 0,1605 ≈ 16,05%
Rta: La probabilidad de que una persona que llegue al refugio tenga una
puntuación entre 16 y 20 puntos es del 16,05%
4. Si las personas sin hogar con puntuación en el 15% más alto deben ser
enviadas a los servicios de prevención de suicidios, ¿Qué puntuación hace
calificar a una persona que llega al refugio para este servicio?
Se va a la tabla y se consulta 15% o sea 0.15 como valor de área.
A este valor de área se le halla el valor Z. asociado. = 1.035
Implica que
𝑧 =
𝑥 − 𝜇
𝜎
==> 1.035 =
𝑋 − 23.5
7.5
Luego el valor de X que cumple esta condiciones
X = 1.035*7.5 + 23.5 = 7.7625 + 23.5 = 31,26 aproximado 31
5. Las personas sin hogar con puntación en el 25% más bajo, se les envía a un
servicio de orientación laboral para mejorar sus recursos. ¿Qué puntuación
permite calificar a una persona para acceder a este servicio?
𝑍 = −0,67
−0,67 =
𝑥 − 23,5
7,5
𝑥 = (−0.68 .7,5) + 23,5 =
11. 𝑥 = (−0.68 .7,5) + 23,5 = -5.1+23.= 18.4 Aproximado 18
Caso 2
Si usted fuera el jefe, ¿habría considerado la estatura como criterio en su
selección del sucesor para su trabajo?
Daniel Seligman analizó en su columna de la revista “Fortuned” sus ideas acerca
de la estatura como un factor en la decisión de Deng Xiaoping para elegir a Hu
Yaobang como su sucesor en la presidencia del Partido Comunista Chino. Como
afirma Seligman, los hechos que rodean el caso despiertan sospechas al
examinarlo a la luz de la estadística.
Deng, según parece tenía como estatura 154 cm de alto, una estatura baja incluso
en China. Por consiguiente al escoger a Hu Yaobang, que también tenía 154 cm
de estatura, motivo algunos gestos de desaprobación porque como afirma
Seligman “las probabilidades en contra de una decisión ajena a la estatura que
dan lugar a un presidente tan bajo como Deng son aproximadamente de 40 a 1”.
En otras palabras, si tuviéramos la distribución de frecuencias relativas de las
estaturas de todos los varones chinos, solo 1 en 40 es decir 2,5% tendrían 154 cm
de estatura o menos.
Para calcular estas probabilidades Seligman advierte que no existe el equivalente
chino del Servicio de Salud de países como Estados Unidos y por tanto, es difícil
obtener las estadísticas de salud de la población actual china. Sin embargo, afirma
que “en general se sostiene que la longitud de un niño al nacer representa el
28,6% de su estatura final” y que en la China la longitud media de un niño al nacer
era de 47,6 cm. De esto Seligman deduce que la estatura promedio de los varones
adultos chinos es:
47,6 / 28.6 * 100 = 166,3 cm.
El periodista asume entonces que la distribución de las estaturas en China sigue
una distribución normal “al igual que en países como estados Unidos” con una
media de 166,3 cm y una desviación estándar de 3,7 cm.
INFORME A PRESENTAR:
Prepare un informe en el que como mínimo, incluya:
1. Por medio de las suposiciones de Seligman, calcule la probabilidad de que la
estatura de un solo varón adulto chino escogido al azar sea menor o igual a 154
cm
𝑧 =
𝑥 − 𝜇
𝜎
= 𝑧 =
−12,3
3.7
𝑧 = −3,32
𝑃( 𝑧 = −3,32) = 0,4995 → 49.95%
12. 𝑃( 𝑧 ≤ −3,33) = 0.5 − 0,4995 = 0,0005 = 0,05%
R/= La probabilidad de que la estatura de un varón adulto chino escogido al azar
sea menor o igual a 154 cm es de 0.05%
2. De igual manera, calcule la probabilidad de que la estatura de un solo varón
adulto chino escogido al azar sea mayor a 157 cm
𝑧 =
−9,3
3,7
𝑧 = −2,51
𝑃( 𝑧 = −2,51) = 0.4940 → 49.40%
𝑃( 𝑧 ≥ −2,51) = 0.4940 + 0.5 = 0.994
𝑃( 𝑧 ≥ −2,51) = 0.5 + 0.4940 = 0.994 = 99.4%
R/= La probabilidad de que la estatura de un varón adulto chino escogido al azar
sea mayor o igual a 154 cm es de 99.4%
3. Los resultados de la pregunta 1 ¿concuerdan con las probabilidades de
Seligman?
De acuerdo a los resultados obtenidos en la pregunta uno no concuerda con las
posibilidades de Seligman, ya que 2.5% es mucho mayor que 0.05%
4. Comente acerca de la validez de las suposiciones de Seligman ¿Hay algún
error básico en su razonamiento?
De acuerdo a las suposiciones de Seligman según la distribución de frecuencias
relativas sólo 1 de 40 representa el 2,5% de los adultos que tendrían menos de
154 cm de estatura y según los datos analizados encontré que el 0.05% lo que
indica que hay error de razonamiento.
5. Según criterios estadísticos se considera que un individuo es de estatura alta si
supera el promedio en más de 2 desviaciones estándar y de estatura baja si es
inferior al promedio por más de 2 desviaciones estándar. Usando las suposiciones
de Seligman:
a.- Calcule la probabilidad de que un varón adulto chino sea considerado como de
estatura alta.
σ = 3,7 ∗ 2 = 7,4
x = 166,3 + 7,4 = 173,7
13. P(X ≥ 173,7)
𝑧 =
𝑥 − 𝜇
𝜎
𝑧 =
173,7 − 166.3
7,4
𝑧 =
7,4
7,4.
𝑧 = 1
𝑃( 𝑧 = 1) = 0.3413 → 34.13%
𝑃( 𝑧 ≥ 1) = 0.5 − 0,3413 = 01587
𝑃( 𝑧 ≥ 1) = 15,87%
Rta: La probabilidad de que un varón adulto chino sea considerado como de
estatura alta es de 15,87%
b.- Calcule la probabilidad de que un varón adulto chino sea considerado como de
estatura baja.
Dos deviaciones estándar por debajo
σ = 3,7 ∗ 2 = 7,4
x = 166,3 + 7,4 = 173,7
P(X ≥ 173,7)
𝑧 =
𝑥 − 𝜇
𝜎
𝑧 =
173,7 − 166.3
7,4
𝑧 =
7,4
7,4.
𝑧 = 1
𝑃( 𝑧 = 1) = 0.3413 → 34,13%
𝑃( 𝑧 < 1) = 0.5 + 0,3413 = 0.8413
𝑃( 𝑧 < 1) = 84.13%
Rta: La probabilidad de que un varón adulto chino sea considerado como de
estatura baja es del 84.13%
6. Con base en los resultados anteriores, argumente si considera o no que Deng
Xiaping tomo en cuenta la estatura al elegir a su sucesor.
Rta: No la tomó en cuenta porque eligió a otra persona de similar estatura.
14. Referencias Bibliográficas
Walpole, R (1999). Probabilidad y estadística para ingenieros. México;
Hispanoamericana.
Llinás, H. (2006). Estadística descriptiva y distribuciones de probabilidad. Bogotá:
Uninorte
Walpole, R (1999). Probabilidad y estadística para ingenieros. México;
Hispanoamericana.
Universidad Oberta Cataluna U.O.C. Variables aleatorias discretas
Morales, Adriana (2010) Modulo Probabilidad. Bogotá D.C., Universidad Nacional
Abierta y a distancia – UNAD.
http://datateca.unad.edu.co/contenidos/100402/modulo_probabilidad_2010I.pdf