E01_Distribuciones_R01.ppt

Curso Programado de Estadística
Marte 2004
1
Introducción a la Temática del Capítulo.
Puntos del Proyecto de Trabajo
Las Distribuciones de Datos
El Caso a Analizar
Abrir a la Hoja Electrónica
La Variable Continua: Peso del huevo.
La Variable Cualitativa: Sexo del Producto.
La Variable Discreta: Número de Huevos
Conclusiones y Recomendaciones. Salida
© Manuel Pontigo Alvarado: mpontigo@itcr.ac.cr. ISBN 978-9968-9634-3-5
Arrancar el Libro Excel
Esc: Menú Anterior

2
La Era de la Información
Nunca la humanidad ha generado tantas Noticias y Datos.
La tecnología ha desarrollado aparatos que reciben, procesan
y emiten señales de manera automatizada.
Tal es la magnitud de estas señales que se ha creado toda una
Teoría de la Información:
Encargada de relacionar el medio, el canal y el código con
los cuales se trasmite la información.
Los medios más usuales a la información son: La INTERNET
(Red Mundial de Computadoras); La INTRANET (Red Local
de Computadoras); El Radio y la Televisión; Los medios
gráficos como diarios, revistas y libros.

3
La Informática
Es el conjunto de técnicas que permiten procesar datos dando
resultados. Un proceso que se es recomendable realizar
mediante ordenadores.
Los Ordenadores también conocidos como Computadoras son
las herramientas que han propiciado, en gran medida el
“BUM” INFORMATIVO e INFORMÁTICO que se está
viviendo.
Con estos aparatos se captura, procesa y emite información
con sentido, generalmente económico.
La pregunta que surge:
¿Por qué no analizar la información? Si los mismos aparatos
tienen incorporadas las herramientas.

Estadística: Viene De Estado
4
Tiene dos acepciones:
-Sucesión numérica de datos sobre un tema con los que se
pretende caracterizar a una población.
-Y, Ciencia cuyo propósito es la recopilación,
agrupamiento y tratamiento de datos numéricos sobre
fenómenos naturales o sociales, y el método que se usa.
Se puede agregar:
Con el objeto de facilitar al estudioso, el análisis, la síntesis
y las recomendaciones que han sido el propósito de esa
recopilación de datos.
Esto es, dar a la INFORMÁTICA un sentido analítico.

La Recopilación y el
Almacenamiento de Datos
Cuando se investiga una población de individuos en una o más
características, la lógica nos dice que al menos deben
estudiarse algunos individuos que Representen al grupo. A
estos individuos que llamaremos Muestras, se les toman una o
varias medidas conocidas como Datos, importantes para los
fines de la investigación. Al origen de una o más variables se le
conoce como Observación.
La modernidad nos permite que las observaciones sean
capturadas, almacenadas y tratadas en un Ordenador. En este
curso se agregará:
Y analizarlas con las herramientas estadísticas de uso
general que el mismo ordenador opera.
5

El Propósito de la Investigación. 6
En toda investigación, sea que se trate de recopilar información simple o
muy complicada y costosa, el Proyecto debe establecerse de manera clara,
precisa y concisa:
En o los propósitos que se persiguen con la investigación.
También llamados Objetivos del Proyecto. Estos son puntos en el horizonte
del estudio a los que se llegará después de que la información se haya
ordenado, procesado y analizado, esto es, Informatizado.
La claridad, precisión y concisión de los Propósitos de la Investigación
propician recomendaciones cuyos resultados son previsibles con
probabilidad conocida.
Con seguridad, estos propósitos aunque novedosos posiblemente no serán
únicos, por tanto;
“No hay nada nuevo bajo el sol” simplemente una forma diferente de
estudiarlos.

7
Análisis de la Experiencia Humana
“No hay Nada Nuevo Bajo El Sol”
Frase del acervo popular que nos dice qué, por muy novedoso
que suene “nuestro proyecto” alguien, en algún lugar, ya lo
llevó a cabo o al menos hizo algo parecido.
Esto no debe quitarnos el ánimo, la ciencia avanza en un ciclo
interminable de pruebas de acierto y error. Es posible que
algunas circunstancias de “nuestro ensayo” provoquen
diferencias o hagan evidentes errores cometidos en
investigaciones similares.
Por esto, es indispensable enmarcar con precisión los
Propósitos de la Investigación. Proceso que se conoce como
Marco Teórico que incluye la Revisión Bibliográfica.

Y el método que se usará
Frase en la definición de la Ciencia Estadística de
implicaciones trascendentales.
De poco sirve la experiencia humana, al menos en la
investigación científica, sí las recomendaciones de una
experiencia no tienen bases creíbles, y mejor sí son ciertas.
Esta credibilidad es otorgada al proyecto sí los métodos de:
Aplicación de Estímulos; Manipulación de los Sujetos de la
Experiencia; Obtención de Observaciones; Tratamiento
Informático de los Datos; Método Estadístico de Análisis
Y cualquier otra manipulación directa o indirecta de los
sujetos experimentados o explorados y sus observaciones
deberá estar exhaustivamente descritos y correctamente
aplicados.
8

Análisis de Resultados
Una vez que los datos se han recopilado se entra al proceso de
Analizar los Resultados.
Cuando el proyecto ha considerado valorar los resultados
mediante Técnicas Estadísticas de Análisis, sea mediante
Técnicas de Exploración o mediante Experimentos
Planificados, debe hacerse con base en el método que se ha
determinado usar antes de que se iniciara la recopilación de la
información o el tratamiento de las unidades experimentales.
Las Técnicas de Análisis Estadísticos ofrecen resultados
objetivos y con probabilidades totalmente determinadas para
que el investigador haga recomendaciones que le den la
seguridad que él necesita, conociendo exactamente el riesgo
que correrá el usuario de los resultados del proyecto.
9

Conclusión y Recomendación 10
Para que el proyecto sea útil, el Análisis de los Resultados debe derivar en
Conclusiones y Recomendaciones.
En todo el proyecto de investigación se han considerado directa o
indirectamente dos posiciones bien definidas:
La del Investigador cuyos fines usualmente son prácticos y más de las
veces económicos;
Y las de los usuarios de los productos resultantes de la investigación.
Las Técnicas Estadísticas consideran estas posiciones mediante las
probabilidades:
De confianza que tiene el investigador de recomendar las conclusiones
del proyecto;
De riesgo que corre el “comprador” de los productos resultantes de la
investigación.
También conocidos respectivamente como error del fabricante y error del
consumidor .

Puntualización
El estudiante se habrá percatado que desde la diapositiva 6 se
esquematizan los fundamentos de un proyecto de investigación en el
ámbito del método científico:
1. Introducción, que sirve para delinear el proyecto;
2. Las Propósitos del Proyecto, en el que se establecen los objetivos que
se persiguen con el proyecto;
3. La Demarcación del Proyecto, una recopilación de lo que se ha hecho y
se está haciendo sobre el proyecto.
4. Determinación de los métodos de operación, inspección del material
experimental y del método analítico de los resultados.
5. Análisis de los resultados usando el método definido en el apartado
anterior;
6. Conclusiones y Recomendaciones, síntesis y prospectiva del proyecto.
En todo caso, esta normativa prevalecerá para todos los problemas que se
traten en el curso.
11

Dos Preguntas Esenciales 12
Puesto que se van a utilizar Técnicas Estadísticas en el análisis
de proyectos, se estará hablando de conjuntos de individuos a
los que se les toman datos numéricos. O sea, que en esencia se
tratarán conjuntos de observaciones de números.
A la estadística interesan los conjuntos de datos, y más
específicamente sus Distribuciones, respondiendo en todo
momento a las preguntas:
¿De que tipo es la distribución de los datos?
Y, ¿Con qué distribución estadística aproximo al conjunto
de datos en cuestión?
Las dos interrogantes se deberán responder antes de dar inicio
al proyecto.

Los Tipos de Distribuciones
13
La característica que define al tipo de dato, o considerada en su conjunto
es La Variable, está, caracterizará a la distribución que el conjunto de
datos determina.
Si la distancia entre un dato con el teórico precedente es tan pequeña que
resulta tan insignificante que puede graficarse con una línea, entonces La
Distribución de Datos será de tipo Continuo. Formalizando, son Variables
que pertenecen al menos al conjunto de los números racionales o de
razones y más específicamente al conjunto de los números reales.
Si la distancia entre un dato con el teórico precedente establece un espacio
al menos de una unidad, entonces La Distribución de Datos será de tipo
Discreto. Formalizando, son Variables que pertenecen al conjunto de los
números Naturales.
Si un datos característico a una cualidad puede tomar dos valores, dígase 1
si el individuo posee la cualidad y 0 si no la posee, entonces La Distribución
de Datos será de tipo Cualitativo.

Las Distribuciones de tipo Continuo
14
Debe puntualizarse:
EL TIPO DE DISTRIBUCIÓN DE LOS DATOS ES INDISPENSABLE
PARAAPROXIMARSE A POBLACIÓN QUE LOS ORIGINA USANDO
TÉCNICAS ESTADÍSTICAS.
Poblaciones a las que se les toman datos métricos —kilos, metros, litros,
libras, onzas...— para ser caracterizadas deberán ser aproximadas
mediante distribuciones de tipo Continuo.
Para los fines de este curso interesa en especial la denominada:
DISTRIBUCIÓN NORMAL
Y más específicamente:
LA DISTRIBUCIÓN NORMAL ESTÁNDAR
Que ha dado origen a poderosas herramientas de análisis y proyección.

Las Distribuciones de tipo Discreto
Hay variables que se utilizan para valorar datos que por su
naturaleza varían como mínimo de unidad en unidad, por
ejemplo: la cantidad de huevos que pone una gallina en un
año; el número de Gansos Canadienses que llegan a una
laguna del centro de México a pasar el invierno austral; la
cantidad de semillas que afloran de 1.000 semillas sembradas.
Estos valores provenientes de conteos son de tratamiento
estadístico incómodo, la mayoría de las veces se aproximan
mediante distribuciones continuas haciendo salvedades de
continuidad.
En todo caso, este tipo de distribuciones establece
condicionante que deben tomarse en cuenta para su
tratamiento estadístico.
15

Las Distribuciones de tipo Cualitativo
Estas distribuciones de datos reflejan pocos sucesos, la que
más interesa al curso es la resultante de dos posibles
resultados:
Que el individuo estudiado cumpla una cualidad, entonces se
el valor del dato será un uno (1);
Que el individuo estudiado no cumpla esa cualidad, entonces
el valor del dato será un cero (0).
De esta manera la distribución de datos —para fines prácticos
individuos que poseen o no la cualidad— podrá representarse
con mediante dos columnas.
En este curso interesa en especial la Distribución Binomial.
16

Las Distribuciones Relativas
17
Los tres tipos de distribuciones de datos pueden llevarse a
valores relativos, esto es, transformarlas a números puros que
permitan concluir, independientemente de las unidades en que
se mide la variable.
Las unidades relativas más utilizadas son los porcentajes, por
esto, no es extraño escuchar que tal o cual individuo pertenece
a X porcentaje de la población.
Esta facilidad matemática permite comparar distribuciones de
números puros como son las distribuciones estadísticas con las
distribuciones relativas de los datos que se estudian en los
proyectos de investigación.
Otra distribución de importancia es el orden estadístico, esto
es, la asociación de un valor de la variable con la posición
ordenada ascendentemente que ocupa.

Las Distribuciones de Probabilidad
18
Puesto que se pueden comparar distribuciones de números
puros, una parte muy importante de la Teoría Estadística se ha
enfocado a estudiar las distribuciones de de datos para poder
diseñar modelos estadísticos que emulen correctamente los
resultados.
Las distribuciones estadísticas tienen cualidades simples pero
determinantes:
El área que cubre la distribución es exactamente la
unidad;
Si se toma una sección de esa área, los tamaños de las
secciones está perfectamente determinado;
Esas secciones de área representan probabilidades.

Problema 1.1
Mediante un ejemplo se ilustrará el concepto de distribuciones de datos.
Una inversor ha decidido colocar su dinero en un proyecto agrícola
consistente en la reproducción de una especie de gallina con muchas
posibilidades en la producción de carne. El inversor confía en su socio, un
zootecnista dedicado a la crianza de aves pues, sabe poco de estas, pero si
conoce de análisis de la producción y sobre todo, del flujo de dinero
encargándose del análisis de los datos.
Ha considerado tres variables:
•El número de huevos que una gallina pone en una año, dato de tipo
discreto;
•El peso de los huevos, dato de tipo continuo;
•El número de machos y hembras que nacieron de los huevos, dato de
tipo cualitativo.
Por facilidad de análisis se iniciará con la variable de tipo continuo.
19

La Hoja Electrónica
Un motor del avance de la especie humana ha sido la
consecución de instrumentos que hagan la vida del hombre
más cómoda y que son universalmente aceptados, excepto por
individuos reactivos al cambio, como aquél ingeniero que
prefieren la regla de cálculo a la computadora. Al que sus
compañeros de generación ven como un “bicho raro”.
El criterio del profesor es abordar el veloz autobús de la
modernidad utilizando las herramientas modernas de uso
general para el tratamiento informático de datos. Con los
riesgos que esto implica para el estudiante poco dedicado que
supone, por simple pachorra mental, que la herramienta lleva
implícita la base teórica que soportará las conclusiones y
recomendaciones de los proyectos.
20

21
Entrando a la Hoja Electrónica
A partir de este punto el estudiante podrá acceder al análisis de los datos
que han sido recopilados durante un año de 280 gallinas adultas sujetas a
la explotación de huevos para reproducción.
El objetivo del ejemplo es mostrar al estudiante en que consisten las
distribuciones de datos y las diferencias entre estas.
El proyecto trata de una muestra trivariada, esto es, una observación que
consiste en la recopilación de los tres datos en una gallina, a saber:
X, El peso medio de los huevos;
Y, El número de huevos viables ovopositados en una año por la gallina;
Z, El número de machos que resultaron de la incubación de esos
huevos.

EL Intervalo de Clases.
22
Se iniciará el trabajo con la variable continua, el peso promedio de los
huevos. Al ser un promedio, el resultado de una división, la variable se
transforma en una variable continua o muy aproximadamente continua.
La técnica que se ha desarrollado para observar las distribuciones de datos
consiste en establecer un determinado número de clases, entre 5 y 15
considerando intervalos igualmente distanciados que incluyan a todos los
individuos de la población. Después, de acuerdo a su valor, cada individuo
se asignará a la clase correspondiente llevando un conteo que se
acomodará en una tabla especialmente diseñada para el caso.
Una regla empírica nos dice que un indicador del tamaño de las clases se
puede obtenerse dividiendo la Desviación Estándar entre 2 y 4. Después
dividir el Rango por este número y eligiendo el número de clases,
usualmente entre 7 y 21.
Se irán utilizando formulas y estadísticos que serán definidos en el
momento oportuno, por el momento, se mostrarán las instrucciones de la
HE y la fórmula.

El Número de Clases
23
La Desviación Estándar es un estadístico que ofrece una idea de la
variación de la población. Se identifica con una s y se obtiene en la HE
mediante:
Una idea del intervalo de clases o tamaño de clases se obtiene dividiendo
por 2 y por 4.
14,3017
B291)
:
2
DESVEST(B1
= 
s
3,58
4
14,3017
4
7,15;
2
14,3017
2





 

s
IC
s
IC
Dividiendo el Rango = Máximo - Mínimo entre ambos Intervalos de Clase
se obtendrán los números de clase extremos.
21
58
,
3
2
,
76
11
15
,
7
2
,
76
15
,
7
$B$291)
:
MIN($B$12
$B$291)
:
MAX($B$12












IC
r
NC
IC
r
NC
Se puede elegir un IC de manera que se puedan conseguir de 13 a 15
clases. Por ejemplo IC = 6 gramos, un número entero.

Los Límites de las Clases
24
Para tener una perspectiva de las frecuencias de los pesos de los huevos, se
acostumbra acomodar a los datos por su magnitud en un determinado
número de clases. Usualmente se elige el valor mínimo para que sea el
límite superior de la primera clase. Esto es:
13,5
1 
 Mínimo
LS
Que acomodará en la columna 3 (Columna D de la HE) titulada como
Límite Superior. Después calculará el Límite Inferior de la clase 1 restando
el intervalo de Clase:
5
,
7
6
5
,
13
1
1 



 IC
LS
LI
Después se calcula el promedio de la primera clase:
10,5
2
5
,
13
5
,
7
2
1
1
1 




LS
LI
x
A cada uno de los límites se les suma el intervalo de clase hasta que el
máximo caiga en la última clase.

Rango de las Clases
25
El Rango de las Clases es una lista
de límites de clases que determinará
cuáles individuos, de acuerdo a los
valores que presentaros, pertenecen
a qué clase.
El proceso siguiente es efectuar el
conteo. Inspeccionar a cada dato y
asignarlo a la clase correspondiente.
(se le dejará a la computadora).
Al llegar al final de los datos, cada
valor habrá sido asignado a una
clase y el número de individuos en
una clase específica determinará la
Frecuencia de la Clase. Y en
conjunto, se habrá encontrado la
distribución de frecuencias.
Inferior Medio Superior
7,5 10,5 13,5
13,5 16,5 19,5
19,5 22,5 25,5
25,5 28,5 31,5
31,5 34,5 37,5
37,5 40,5 43,5
43,5 46,5 49,5
49,5 52,5 55,5
55,5 58,5 61,5
61,5 64,5 67,5
67,5 70,5 73,5
73,5 76,5 79,5
79,5 82,5 85,5
85,5 88,5 91,5
91,5 94,5 97,5
LÍMITES DE CLASES

Cuadro o Tabla de Frecuencias
26
La HE ubica a cada gallina
de la muestra en la clase
correspondiente al peso
promedio de sus huevos se
obtiene la tabla de
frecuencias en donde, bajo
la columna Frecuencias se
refiere el número de
individuos de la clase.
Como era de esperarse la
suma de frecuencias es
igual al número de
individuos medidos:
Frecuencias
Inferior Medio Superior Observadas
7,5 10,5 13,5 0
13,5 16,5 19,5 3
19,5 22,5 25,5 3
25,5 28,5 31,5 15
31,5 34,5 37,5 23
37,5 40,5 43,5 24
43,5 46,5 49,5 41
49,5 52,5 55,5 50
55,5 58,5 61,5 42
61,5 64,5 67,5 36
67,5 70,5 73,5 19
73,5 76,5 79,5 15
79,5 82,5 85,5 7
85,5 88,5 91,5 2
91,5 94,5 97,5 0
Suma 280
LÍMITES DE CLASES



















15
1
280
0
2
7
15
19
36
42
50
41
24
23
15
3
3
0
i
i
f
n

Afinando el Cuadro de Frecuencias
27
Habrá notado que las columnas del límite inferior y el punto
medio no se utilizaron. Sin embargo, debe considerar que
cada clase forma un subconjunto acotado (limitado) con un
punto central o punto medio o promedio que representa a
todos los individuos de esa clase.
Tratándose de una variable continua, los valores mínimos y
máximos son, apenas, un par de valores entre muchos posibles
y para poder ser graficados se debe considerar el mínimo
factible que sería cero y el máximo factible que sería un
número desconocido.
Por otra parte, la manera de representar a una variable
continua es mediante una línea sin interrupciones o por clases
sin separaciones como se verá en los gráficos siguientes.

Herramientas Gráficas
28
En estadística se acostumbra usar estas figuras. El Histograma es el
diagrama de barras, donde cada barra representa el peso relativo de la
distribución. Entre más alta la barra más individuos hay en la clase y más
peso relativo.
El polígono, aquí graficado como una línea suavizada representa el área
bajo una curva continua.
Hitograma y Polígono de Frecuencias de una
variable continua
0
10
20
30
40
50
60
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5
Peso del huevo en gramos
Frecuencia
de
huevos

Frecuencias Relativas
29
Nº Clase L. Inferior Pto. Medio L. Superior Absoluta Ascendente Descendente
0 7,5 10,5 13,4 0,0 0,0 100,0
1 13,5 16,5 19,4 1,1 1,1 98,9
2 19,5 22,5 25,4 1,1 2,1 97,9
3 25,5 28,5 31,4 5,4 7,5 92,5
4 31,5 34,5 37,4 8,2 15,7 84,3
5 37,5 40,5 43,4 8,6 24,3 75,7
6 43,5 46,5 49,4 14,6 38,9 61,1
7 49,5 52,5 55,4 17,9 56,8 43,2
8 55,5 58,5 61,4 15,0 71,8 28,2
9 61,5 64,5 67,4 12,9 84,6 15,4
10 67,5 70,5 73,4 6,8 91,4 8,6
11 73,5 76,5 79,4 5,4 96,8 3,2
12 79,5 82,5 85,4 2,5 99,3 0,7
13 85,5 88,5 91,4 0,7 100,0 0,0
14 91,5 94,5 97,4 0,0 100,0 0,0
Frecuencias Relativas
Dividiendo cada frecuencia entre el total de individuos se obtiene la
proporción o porcentaje (si se multiplica por 100) de individuos en cada
clase. Si las frecuencias relativas se acumulan se obtienen las frecuencias
acumulativas, útiles en procesos deductivos y para elaborar el siguiente
gráfico.

Las Ojivas o Frecuencias Acumulativas
30
Ojivas: Distribuciones relativas acumulativas
0
10
20
30
40
50
60
70
80
90
100
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5
Peso del huevo en gramos
Porcentajes
0
10
20
30
40
50
60
70
80
90
100
Ascendente Descendente
Las Ojivas son especialmente
útiles para representar los
estadígrafos de orden. Éstos son
los que relacionan el número
índice u ordinal con los valores
de la variable.
El estadígrafo de orden que
mejor se comprende es la
Medina. Valor que divide a los
datos en dos subconjuntos con
los mismos elementos.
Está ubicada en la posición media de los estadígrafos de orden:
Esto es, el valor que presenta la observación 140. Sin la ayuda de la HE, los
datos se debían ordenar a mano y ubicar la observación, a la HE se le solicita.:
2
,
53
B291)
:
2
MEDIANA(B1
=
~ 
x
5
,
140
2
1
280
2
1




n

Utilidad de la Ojivas
31
Si la cantidad de observaciones es par, la mediana es el promedio del valor
para el estadístico mediano x140 y el siguiente x141. En el ejemplo
1
,
53
)
$B$291;140
:
NOR($B$12
K.ESIMO.ME
=
140 
x
Y
53,3
)
$B$291;141
:
NOR($B$12
K.ESIMO.ME
=
141 
x
Por tanto:
2
,
53
2
3
,
53
1
,
53
2
~ 141
140





x
x
x
La Mediana en la ojiva se identifica por ser la línea que parte de los
valores de los márgenes en 50% y cae en el eje x sobre el valor 53,2. De la
misma manera se pueden obtener los cuartos o cuartiles y en general
cualquier percentil mediante la fórmula, ejemplificada para los cuartiles;
    75
,
210
100
75
)
1
280
(
;
25
,
70
100
25
1
280
;
100
1
75
25 






 k
k
P
n
kp
Solicitados a
la HE: 025
,
63
$B$291;3)
:
$12
CUARTIL($B
=
~
43,75;
$B$291;1)
:
$12
CUARTIL($B
=
~
75
25


x
x

Variables Estándar
32
Una alternativa para obtener valores relativos es estandarizar las
variables, esto es, dividir la diferencia entre un dato yi con respecto al
Promedio entre la Desviación Estándar.
s
x
x
z i
i


Esta variable z posee unas características muy importantes en estadística,
por el momento nos interesa saber que el promedio de las variables
estandarizadas es 0 y que la desviación estándar es 1.
 
1
1
;
0 1
2
1







 

n
z
z
s
n
z
z
n
i
i
z
n
i
i

La Normal Estándar
33
Lo trascendente de esta variable Z es que existe una Distribución de
Probabilidad ampliamente estudiada en el Teoría Estadística que posee
media 0 y varianza 1. Que como de mencionó en la diapositiva 18, todas las
probabilidades bajo el área bajo la curva están determinadas.
Entonces, si la distribución de datos estandarizada es similar a la
distribución de probabilidad estadística, con esta se puede aproximar sin
dificultad y efectuar estimaciones y proyecciones con probabilidades.
La Distribución Normal Estándar tiene forma de campana, tal que también
se le conoce como campana de Gaus [Carl Friedrich Gauss (30 Abril 1777
– 23 Febrero 1855)] . Es simétrica y se aproxima muy apropiadamente a
variables biológicas, sociológicas, provenientes de procesos de fabricación y
muchas otras de tipo continuo.

Los Parámetros: La Media
34
Los Parámetros son valores que caracterizan de manera
incompleta a las distribuciones de datos y por consiguiente a
las poblaciones que les dieron origen.
Por el momento interesa la media, o valor medio definido por:
Fórmula para usar los datos de la tabla de frecuencias, y:




 c
i
i
c
i
i
i
f
x
f
x
1
1
n
x
x
n
i
i


 1
Para datos sin agrupar.

Los Parámetros: La Varianza
35
Valor que es un promedio ajustado de las desviaciones
cuadráticas de las observaciones con respecto a la media,
definida por:
Para datos agrupados en las tablas de frecuencias, y:
Para datos individuales. Al momento se usarán las fórmulas
para la tabla de frecuencias.
 
1
1
1
2
2













m
i
i
m
i
i
i
f
x
x
f
s
 

























 





n
i
n
i
i
i
n
I
i
n
x
x
n
n
x
x
s
1
2
1
2
1
2
2
1
1
1

El Cálculo de Media y Varianza.
36
Frecuencias
Inferior Medio Superior Observadas f * xi f(xi - xm)²
7,5 10,5 13,5 0 0,0 0,0
13,5 16,5 19,5 3 49,5 4.014,0
19,5 22,5 25,5 3 67,5 2.805,1
25,5 28,5 31,5 15 427,5 9.061,6
31,5 34,5 37,5 23 793,5 7.938,8
37,5 40,5 43,5 24 972,0 3.797,3
43,5 46,5 49,5 41 1906,5 1.774,4
49,5 52,5 55,5 50 2625,0 16,7
55,5 58,5 61,5 42 2457,0 1.234,5
61,5 64,5 67,5 36 2322,0 4.696,2
67,5 70,5 73,5 19 1339,5 5.766,6
73,5 76,5 79,5 15 1147,5 8.228,4
79,5 82,5 85,5 7 577,5 6.059,3
85,5 88,5 91,5 2 177,0 2.509,4
91,5 94,5 97,5 0 0,0 0,0
Estadísticos:
n = suma frecuencias 280 Suma de cuadrados 57.902,27
Suma total 14.862,0 Varianza 207,54
Promedio 53,08 Desviación Estándar 14,41
LÍMITES DE CLASES

Propiedades de la Media
37
La propiedad más importante del valor promedio es:
La suma de las desviaciones de las observaciones con respecto al promedio
es cero;
Esta propiedad divide a la distribución de los datos en dos secciones con la
misma probabilidad ,50% de valores inferiores al promedio y 50%
superiores al promedio (la Mediana lo hace con las unidades de la
muestra).
Otra implicación importante es que la suma de cuadrados de las
desviaciones de las observaciones con respecto a la media en mínima.
 











n
i
n
i x
x
x
x
x
x
d
D
1
2
1 0
)
(
...
)
(
 












n
i
n SC
x
x
x
x
x
x
d
D i
1
2
2
2
2
1
2
2
)
(
...
)
(
La Media, junto con la Mediana y la Moda son los tres parámetros de
posición que se presentan al centro de las distribuciones.

Propiedades de la Varianza
38
El promedio ajustado de las desviaciones cuadráticas tiene la propiedad de
ser la suma cuadrática mínima en una distribución. Al requerir del cálculo
previo de la media, sus propiedades están sujetas a las propiedades de la
media, por esto a la primera se le llama Primer Momento y a la segunda
Segundo Momento Muestrales.
Por si sola la varianza no indica valores útiles, al sacársele la raíz cuadrada
se obtiene la Desviación Estándar que es un indicador de la variación de la
población. Se espera que en el intervalo de más y menos una Desviación
Estándar del promedio se ubiquen poco más o menos el 68% de los datos
como se puede comprobar en la HE. Por tanto, cuando en trabajos de
investigación se observe la expresión:
 
s
x 
Debe entenderse, para el caso del ejemplo:
  %
68
48
,
67
67
,
38
Pr 

 X
obabilidad

Ajustando la Distribución Esperada
39
Como se apuntó, la importancia de las distribuciones de datos se centra en
que puedan ser emuladas o aproximadas por alguna Distribución
Estadística de Probabilidad.
En la HE se efectúa todo un proceso para crear el gráfico que compara las
distribuciones Observada y Teórica o Esperada.
Se observa que hay
semejanza entre las
distribuciones de datos
como lo confirma la prueba
estadística utilizada de chi-
cuadrada que indica un
84,66% de que las
frecuencias observadas y
esperadas se parezcan.
Estadísticamente suficiente
para considerarlas iguales.
Distribuciones del peso de huevo
0
10
20
30
40
50
60
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5
Peso en gramos
Frecuencias
Esperada Observada

1.40 La Importancia de que las
distribuciones se consideren iguales.
40
Cuando las distribuciones de datos se considera que es similar
a una Distribución Estadística de Probabilidad la labor del
investigador se facilita enormemente pues puede utilizar todo
el acerbo de la Ciencia Estadística para Aproximarse a una
población real conociendo perfectamente las probabilidades
que respaldan las Conclusiones y Recomendaciones.
Cuando no es así, la Teoría Estadística proporciona
herramientas para obtener Conclusiones y Hacer
Recomendaciones con probabilidad conocida, sin embargo,
bajo una serie de restricciones que pueden reducir de manera
importante el ámbito de utilidad.

Conclusión para la Variable:
Peso promedio del Huevo
41
Debe tenerse presente que la variable es de tipo continuo y que
deberá simularse con una Distribución Estadística de tipo continuo.
-La Distribución del peso de los huevos es de forma acampanada,
similar a una distribución estadística que se conoce como La
Normal.
-Gráficamente, las distribuciones de frecuencias observadas y
las esperadas calculadas utilizando la distribución son muy
similares
-La prueba estadística de 2 indica una probabilidad similitud
de 84,66%
-Se puede utilizar la Distribución Normal Estándar o La Normal
para analizar los resultados del proyecto.

La Variable Cualitativa:
Sexo del Producto.
42
Se tratará la variable cualitativa que dio origen al proyecto:
La alta proporción de machos para una raza de gallinas
productora de carne. Se espera que al menos sea de 70% de
nacimientos de machos viables. Esto significa que el 30%
restante incluye nacimientos de hembras y productos no
viables.
Es evidente que únicamente hay dos resultados posibles: 1 si el
producto es un macho viable y 0 si el producto no es un macho
viable, por esto se utilizará la distribución Binomial para
aproximar los datos.

La Distribución Binomial
43
La Distribución de Probabilidad Binomial está definida por:
Donde p es la proporción de que un suceso ocurra —que el
producto sea un macho— q = (1 – p) la proporción de que el
suceso no ocurra. Y rCn que indica las r combinaciones en que
pueden intercambiarse los sucesos en n muestras denominado
Coeficiente Binomial.
Para el caso se toman los sucesos de 10 huevos acomodados en
una charola de la incubadora. Así se presentarían los datos,
recordando que 1 (uno) significa que el producto es un pollito
que al menos llegará a las granjas de los avicultores.










n
x
x
n
x
n
x
q
p
x
F
0
)
(

Cuadro de Frecuencias y Estadísticos
44
El cuadro de frecuencias
proporciona una idea de la
distribución y los estadísticos
necesarios para valorar la hipótesis:
Ho; X ~B(np; npq)
La variable X se distribuye
Binomial, con media np = 10  0.7 =
7 y varianza npq = 10  0,7  0,3 =
2,1.
Por tanto, la distribución que
aproxime a los datos será una
binomial con un muestra de tamaño
n = 10, y una proporción de pollitos
machos viables de 0,7 o 70%.
Evento Frecuencia Sumas
x machos Observada Parciales
0 0 0
1 0 0
2 0 0
3 0 0
4 1 4
5 3 15
6 4 24
7 6 42
8 6 48
9 7 63
10 1 10
Estadísticos
Número de bandejas 28
Suma Total de pollitos machos 206
Promedio de pollitos por bandeja 7,36
Tamaño de la muestra n 10
Proporción de pollitos machos viables 0,7357
Proporción no viable 0,2643

Las Probabilidades Binomiales
45
Las operaciones para obtener las probabilidades binomiales se
detallan en la HE. Con estas, se elabora un cuadro que
permitirá determinar si la distribución de frecuencias del
evento que el producto sea un macho viable pueda
aproximarse mediante la Distribución de Probabilidades
Binomial.
Para esto se comparan las frecuencias esperadas que se
obtienen multiplicando la probabilidad para cada evento x
por el número de muestras de tamaño 10 —charolas de
incubación— observadas, con las frecuencias observadas
mediante la prueba de 2.
NOTA: Se recuerda al estudiante que el capítulo está
orientado a conocer las distribuciones de datos. Las pruebas
debe utilizarlas como herramientas.

El Cuadro con la Prueba de Bondad de Ajuste
46
La prueba estadística de 2 indicó una probabilidad de 0,8915 o 89,15% de
que los nacimientos de pollitos machos se distribuyan como una Binomial.
En términos estadísticos, no hay evidencia para rechazar la hipótesis Ho;
X~B(np = 7; npq = 2,1) con nivel de confianza del 5%. Notará que además
de la distribución se ha valorado la proporción. Esto es, el p = 0,7353
puede considerarse como 0,7.
Ensayos 10
Probabilida 0,7
Evento Probabilida Chi_Cuadrada
x machos del Evento Esperadas Observadas Diferencia Parcial
0 0,0000 0,0 0 0,0 0,0002
1 0,0001 0,0 0 0,0 0,0039
2 0,0014 0,0 0 0,0 0,0405
3 0,0090 0,3 0 -0,3 0,2520
4 0,0368 1,0 1 0,0 0,0008
5 0,1029 2,9 3 0,1 0,0049
6 0,2001 5,6 4 -1,6 0,4588
7 0,2668 7,5 6 -1,5 0,2897
8 0,2335 6,5 6 -0,5 0,0442
9 0,1211 3,4 7 3,6 3,8452
10 0,0282 0,8 1 0,2 0,0553
Sumas 1,0000 28,0 28 0,0 4,9954
Probabilidad de la Chi-Cuadrada 0,8915
Frecuencias

1.47 Un gráfico siempre es de ayuda.
47
Elaborando un Histograma
con las frecuencias
observadas en guinda y las
esperadas en azul se aprecia
una tendencia similar. Como
en el caso de la distribución
Normal, los resultados del
proyecto pueden analizarse
utilizando la distribución de
probabilidad Binomial. Una
conclusión que facilitará
enormemente el análisis y la
conclusión de proyecto en lo
tocante al número de pollitos
machos.
Es importante hacer notar al estudiante
que los gráficos de conteo deben
presentarse usando barras. Esto indicará
al lector que se trata de una distribución de
cualidades.
Frecuencias Binomiales p = 0,7 en el nacimiento
de pollitos machos para engorda
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8 9 10
Número de machos viables / 10.
Frecuencia
en
28
bandejas
Esperadas Observadas

La variable Discreta Número de
Huevos
48
Cuando se trabaja con variables cuya distribución
brinca al menos por unidades debe tenerse cuidado. Casi
siempre y sin mucho análisis, se trabajan como distribuciones
continuas y más específicamente como distribuciones
normales por la facilidad que esto implica.
El experimentador deberá tener, siempre en
consideración, que está trabajando con una variable discreta
que salta de unidad en unidad, pues las gallinas no ponen
medios huevos. Aun cuando los estadísticos indiquen
fracciones o sean elementos de los números racionales.
Para este ejemplo se iniciará solicitando a la HE el cómputo
de las Estadísticas Descriptivas.

Estadísticas Descriptivas
49
Los estadísticos importantes
para determinar si la
distribución de los datos
puede aproximarse mediante
una distribución normal son:
La Media, La Mediana, La
Moda, como parámetros de
tendencia central también
llamados de
posicionamiento.
Huevos
Media 178,436
Error típico 3,581
Mediana 180
Moda 180
Desviación estándar 59,922
Varianza de la muestra 3.590,706
Curtosis 0,002
Coeficiente de asimetría -0,075
Rango 324
Mínimo 18
Máximo 342
Suma 49.962
Cuenta 280
El Coeficiente de Asimetría o Sesgo (valores críticos
0,230(5%) 0,360(1%)); y el Coeficiente de Curtosis con
valores críticos de (-0,41 a +0,47 (5%) y -0,50 a +79 (1%).

Las Medidas de Posicionamiento
50
Se presume que una distribución de datos se parece a una distribución
normal cuando las medidas de posicionamiento están muy próximas:
Sí la Media, Mediana y Moda son iguales, al menos se presume que se tiene
un distribución perfectamente centrada;
Sí el orden ascendente de los estadísticos es Moda, Mediana y Media se
presume una cola a la derecha más larga:
Si el orden ascendente de los estadísticos Media, Median y Moda se
presume una cola izquierda más larga.
En general en una distribución asimétrica, la Media con respecto a la
Moda tiende a situarse al mismo lado que la cola más larga.
En el ejemplo con Media = 178,4 huevos / año, Mediana 180 huevos / año y
Moda = 180 huevos año se puede considerar una distribución centrada.
Siendo muye exigentes se puede presumir una distribución con sesgo
negativo.

El Coeficiente de Curtosis
51
El Coeficiente mide:
El alargamiento o estrechamiento de una distribución de
datos con respecto a una distribución normal de los mismos
datos.
Entre más se aproxime la distribución de los datos a
una normal más próximo a 3 será el coeficiente. O a 0 cuando
se corrige.
Según la tabla de para la valoración de la curtosis
mediante los valores ajustados y para un nivel de confianza
de 95% el coeficiente de curtosis debe mantenerse entre –0,41
y 0,47 para aceptar que la distribución se parece, por su
estrechez a una normal. En el ejemplo se Acepta que la
distribución es semejante a una normal.

El Coeficiente de Sesgo o Asimetría
52
El Coeficiente mide:
La simetría de una distribución de datos con respecto
a una normal.
Este coeficiente siempre se valora con respecto a un valor
cero en el que la distribución es, además de centrada
simétrica.
En el ejemplo el coeficiente de asimetría o sesgo es de –
0,0752 que para la valoración debe tomarse como valor
absoluto. El límite teórico de la distribución del estadístico
para n = 300 es de 0,23. Cómo 0,0752 es menor que 0,23, debe
aceptarse que la distribución de datos es simétrica con
respecto a la normal.

La Recomendación para las
Distribuciones Discretas.
53
Tomando en cuenta el origen biológico de la variable y =
número de huevos en una año de 365 días por gallina y los
estadísticos que se acaban de valorar puede concluirse que la
variable sigue una distribución normal.
No obstante, es conveniente que el investigador obtenga una
visión más directa mediante el gráfico de la distribución de
datos y los estadísticos de posicionamiento y los coeficientes
de sesgo y curtosis desde datos agrupados en una distribución
de frecuencias.
Este proceder es recomendable en análisis de resultados de
una distribución absolutamente discreta.

El Histograma.
54
El gráfico simple
muestra una
distribución muy
similar a una campana,
característica de
distribuciones de datos
que se parecen a una
distribución normal.
Es conveniente que las barras que representan el peso relativo
de cada subclase no se unan, indicando con esto, que se trata
de una distribución discreta.
Así mismo, no es conveniente unir las cúspides de las barras
con la línea del polígono de frecuencias.
Histograma de una variable discreta
0
10
20
30
40
50
60
70
12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5
Número de huevos (gallina por año)
No
de
Gallinas

Estadísticos con Datos Agrupados
55
Frecuencia
Inferior Medio Superior Observada
0 12,5 25 3 37,5 83.363,10 -63,56 175,87
25 37,5 50 4 150,0 80.311,51 -52,05 122,42
50 62,5 75 5 312,5 68.090,28 -36,34 70,40
75 87,5 100 12 1.050,0 100.898,82 -42,32 64,41
100 112,5 125 30 3.375,0 133.452,41 -40,71 45,07
125 137,5 150 25 3.437,5 43.464,80 -8,29 5,74
150 162,5 175 48 7.800,0 13.380,99 -1,02 0,28
175 187,5 200 58 10.875,0 3.999,06 0,15 0,02
200 212,5 225 34 7.225,0 37.710,35 5,74 3,18
225 237,5 250 27 6.412,5 91.781,27 24,47 23,69
250 262,5 275 17 4.462,5 117.971,25 44,95 62,15
275 287,5 300 13 3.737,5 152.485,63 75,53 135,79
300 312,5 325 2 625,0 35.539,68 21,67 47,95
325 337,5 350 2 675,0 50.120,04 36,29 95,36
Número de observaciones 280 Sumas de cuadrados 1.012.569,20
Suma Total 50.175,0 Varianza 3.629,28
Promedio de huevos 179,20 Desviación Estándar 60,24
Mediana 180,8 C. Asimetría -0,128
Moda 182,4 C. Curtosis 0,089
LÍMITES DE CLASES
i
i x
f 2
)
( x
x
f i
i 
3





 
s
x
x
f i
i
4





 
s
x
x
f i
i

Interpretación
56
Se han señalado en el
histograma los estadísticos
de posición y dos líneas en
la parte inferior del
mismo tamaño para hacer
evidente la asimetría
también llamada sesgo
señalada con una llave
invertida. Recodaremos
que no es significante.
La asimetría toma de referencia a la normal indicando una
anormalidad de la distribución de los datos con respecto a la teórica.
Los coeficientes de forma indican que las diferencias se deben al azar
pudiendo, por tanto, utilizar a la distribución Normal Estándar en
proceso de análisis, interpretación y predicción.
Histograma de una variable discreta
0
10
20
30
40
50
60
70
12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5
Número de huevos (gallina por año)
No
de
Gallinas
Media = 179,2
Mediana = 180,8
Moda = 182,4
Asimetria o
Sesgo a la
izquierda

La Prueba de Bondad de Ajuste.
57
Si hubiera dudas se debe hacer la prueba de “Bondad de Ajuste” de las
frecuencias esperadas y observadas mediante la Chi-Cuadrada. Para
declarar que la distribución de datos no se asemeja a una normal la
probabilidad de 2 debe ser inferior a 0,05 0 5%. Para todos los efectos la
variable Y se opera como una variable continua con valores límites en el
conjunto de los reales.
Probabilidad Chi-Cuadradas
Inferior Superior Inferior Superior del intervalo Esperadas Observadas parciales
0 25 0,0000 0,0052 0,0052 1,5 3 0,7268
25 50 0,0052 0,0160 0,0108 3,0 4 0,0795
50 75 0,0160 0,0419 0,0259 7,2 5 0,4183
75 100 0,0419 0,0943 0,0525 14,7 12 0,3269
100 125 0,0943 0,1842 0,0898 25,2 30 0,7505
125 150 0,1842 0,3140 0,1298 36,3 25 3,2363
150 175 0,3140 0,4722 0,1583 44,3 48 0,2289
175 200 0,4722 0,6351 0,1628 45,6 58 3,1080
200 225 0,6351 0,7765 0,1414 39,6 34 0,6542
225 250 0,7765 0,8801 0,1036 29,0 27 0,0783
250 275 0,8801 0,9441 0,0641 17,9 17 0,0105
275 300 0,9441 0,9775 0,0334 9,4 13 1,0555
300 325 0,9775 0,9922 0,0147 4,1 2 0,6367
325 350 0,9922 1,0000 0,0078 2,2 2 0,0497
Sumas 1,0000 280,0 280 11,3602
Probabilidad de Chi_Cuadrada 0,5807
LÍMITES DE CLASES Probabilidad a los límites Frecuencias

Conclusión
58
Éste capítulo hace referencia a las distribuciones de los datos.
Se han utilizado formulas, algunas muy complejas que requiere la
teoría estadística para analizar resultados de pruebas y proyectos,
pero fácilmente computables o obtenibles mediante funciones o
algoritmos de la HE.
Se han abordado los tres tipos de datos: continuos, discretos y
cualitativos asociando la distribución de datos observadas con las
distribuciones estadísticas de mayor uso puntualizando criterios
para determinar si tal o cual distribución estadística puede
utilizarse para estudiar los resultados obtenidos a partir de
conjuntos de datos de una población objetivo.
Se ha concluido con respecto a las implicaciones estadísticas de las
tres variables ejemplificadas.

Recomendación
59
Se recomienda al estudiante que entienda la notación
matemática en las fórmulas para que pueda aplicarla en la
HE sin reparar en la complejidad de la misma. Esto con el
objeto de considerar a las fórmulas de cálculo de estadísticos
como herramientas.
También se ha recomendado al estudiante que ponga atención
en el significado de cada estadístico para que pueda
interpretar y concluir desde los análisis de los resultados.
El estudiante habrá notado que la HE posee una gran
cantidad de funciones y rutinas estadísticas y matemáticas que
le facilitan el análisis de resultados de conjuntos de datos
provenientes de exploraciones o de técnicas de
experimentación: Utilícelas.

Recordatorio
60
Se recuerda al estudiante que la charla es una
manera menos formal de enseñar la teoría estadística
y su aplicación a resultados de proyectos de
exploración o de experimentación de poblaciones.
Puede consultar la parte formal del tema
proporcionado por el profesor en el archivo de
“Word” que lleva explicaciones exhaustivas del tema,
complemento del “PowerPoint” y Excel.
Si aun quiere practicar y profundizar sobre temas
menos rigurosos, puede adquirir el libro electrónico
del curso de Métodos Estadísticos con Excel.

Distribuciones de Datos
Módulo Métodos Estadísticos
Apuntes de Estadística Aplicada con
EXCEL.
Manuel Pontigo Alvarado.
ITCR. 2005

E01_Distribuciones_R01.ppt

Recomendados

Recomendados

Más contenido relacionado

Similar a E01_Distribuciones_R01.ppt

Similar a E01_Distribuciones_R01.ppt (20)

Último

Último (20)

E01_Distribuciones_R01.ppt