SlideShare una empresa de Scribd logo
1 de 61
Curso Programado de Estadística
Marte 2004
1
Introducción a la Temática del Capítulo.
Puntos del Proyecto de Trabajo
Las Distribuciones de Datos
El Caso a Analizar
Abrir a la Hoja Electrónica
La Variable Continua: Peso del huevo.
La Variable Cualitativa: Sexo del Producto.
La Variable Discreta: Número de Huevos
Conclusiones y Recomendaciones. Salida
© Manuel Pontigo Alvarado: mpontigo@itcr.ac.cr. ISBN 978-9968-9634-3-5
Arrancar el Libro Excel
Esc: Menú Anterior
2
La Era de la Información
Nunca la humanidad ha generado tantas Noticias y Datos.
La tecnología ha desarrollado aparatos que reciben, procesan
y emiten señales de manera automatizada.
Tal es la magnitud de estas señales que se ha creado toda una
Teoría de la Información:
Encargada de relacionar el medio, el canal y el código con
los cuales se trasmite la información.
Los medios más usuales a la información son: La INTERNET
(Red Mundial de Computadoras); La INTRANET (Red Local
de Computadoras); El Radio y la Televisión; Los medios
gráficos como diarios, revistas y libros.
3
La Informática
Es el conjunto de técnicas que permiten procesar datos dando
resultados. Un proceso que se es recomendable realizar
mediante ordenadores.
Los Ordenadores también conocidos como Computadoras son
las herramientas que han propiciado, en gran medida el
“BUM” INFORMATIVO e INFORMÁTICO que se está
viviendo.
Con estos aparatos se captura, procesa y emite información
con sentido, generalmente económico.
La pregunta que surge:
¿Por qué no analizar la información? Si los mismos aparatos
tienen incorporadas las herramientas.
Estadística: Viene De Estado
4
Tiene dos acepciones:
-Sucesión numérica de datos sobre un tema con los que se
pretende caracterizar a una población.
-Y, Ciencia cuyo propósito es la recopilación,
agrupamiento y tratamiento de datos numéricos sobre
fenómenos naturales o sociales, y el método que se usa.
Se puede agregar:
Con el objeto de facilitar al estudioso, el análisis, la síntesis
y las recomendaciones que han sido el propósito de esa
recopilación de datos.
Esto es, dar a la INFORMÁTICA un sentido analítico.
La Recopilación y el
Almacenamiento de Datos
Cuando se investiga una población de individuos en una o más
características, la lógica nos dice que al menos deben
estudiarse algunos individuos que Representen al grupo. A
estos individuos que llamaremos Muestras, se les toman una o
varias medidas conocidas como Datos, importantes para los
fines de la investigación. Al origen de una o más variables se le
conoce como Observación.
La modernidad nos permite que las observaciones sean
capturadas, almacenadas y tratadas en un Ordenador. En este
curso se agregará:
Y analizarlas con las herramientas estadísticas de uso
general que el mismo ordenador opera.
5
El Propósito de la Investigación. 6
En toda investigación, sea que se trate de recopilar información simple o
muy complicada y costosa, el Proyecto debe establecerse de manera clara,
precisa y concisa:
En o los propósitos que se persiguen con la investigación.
También llamados Objetivos del Proyecto. Estos son puntos en el horizonte
del estudio a los que se llegará después de que la información se haya
ordenado, procesado y analizado, esto es, Informatizado.
La claridad, precisión y concisión de los Propósitos de la Investigación
propician recomendaciones cuyos resultados son previsibles con
probabilidad conocida.
Con seguridad, estos propósitos aunque novedosos posiblemente no serán
únicos, por tanto;
“No hay nada nuevo bajo el sol” simplemente una forma diferente de
estudiarlos.
7
Análisis de la Experiencia Humana
“No hay Nada Nuevo Bajo El Sol”
Frase del acervo popular que nos dice qué, por muy novedoso
que suene “nuestro proyecto” alguien, en algún lugar, ya lo
llevó a cabo o al menos hizo algo parecido.
Esto no debe quitarnos el ánimo, la ciencia avanza en un ciclo
interminable de pruebas de acierto y error. Es posible que
algunas circunstancias de “nuestro ensayo” provoquen
diferencias o hagan evidentes errores cometidos en
investigaciones similares.
Por esto, es indispensable enmarcar con precisión los
Propósitos de la Investigación. Proceso que se conoce como
Marco Teórico que incluye la Revisión Bibliográfica.
Y el método que se usará
Frase en la definición de la Ciencia Estadística de
implicaciones trascendentales.
De poco sirve la experiencia humana, al menos en la
investigación científica, sí las recomendaciones de una
experiencia no tienen bases creíbles, y mejor sí son ciertas.
Esta credibilidad es otorgada al proyecto sí los métodos de:
Aplicación de Estímulos; Manipulación de los Sujetos de la
Experiencia; Obtención de Observaciones; Tratamiento
Informático de los Datos; Método Estadístico de Análisis
Y cualquier otra manipulación directa o indirecta de los
sujetos experimentados o explorados y sus observaciones
deberá estar exhaustivamente descritos y correctamente
aplicados.
8
Análisis de Resultados
Una vez que los datos se han recopilado se entra al proceso de
Analizar los Resultados.
Cuando el proyecto ha considerado valorar los resultados
mediante Técnicas Estadísticas de Análisis, sea mediante
Técnicas de Exploración o mediante Experimentos
Planificados, debe hacerse con base en el método que se ha
determinado usar antes de que se iniciara la recopilación de la
información o el tratamiento de las unidades experimentales.
Las Técnicas de Análisis Estadísticos ofrecen resultados
objetivos y con probabilidades totalmente determinadas para
que el investigador haga recomendaciones que le den la
seguridad que él necesita, conociendo exactamente el riesgo
que correrá el usuario de los resultados del proyecto.
9
Conclusión y Recomendación 10
Para que el proyecto sea útil, el Análisis de los Resultados debe derivar en
Conclusiones y Recomendaciones.
En todo el proyecto de investigación se han considerado directa o
indirectamente dos posiciones bien definidas:
La del Investigador cuyos fines usualmente son prácticos y más de las
veces económicos;
Y las de los usuarios de los productos resultantes de la investigación.
Las Técnicas Estadísticas consideran estas posiciones mediante las
probabilidades:
De confianza que tiene el investigador de recomendar las conclusiones
del proyecto;
De riesgo que corre el “comprador” de los productos resultantes de la
investigación.
También conocidos respectivamente como error del fabricante y error del
consumidor .
Puntualización
El estudiante se habrá percatado que desde la diapositiva 6 se
esquematizan los fundamentos de un proyecto de investigación en el
ámbito del método científico:
1. Introducción, que sirve para delinear el proyecto;
2. Las Propósitos del Proyecto, en el que se establecen los objetivos que
se persiguen con el proyecto;
3. La Demarcación del Proyecto, una recopilación de lo que se ha hecho y
se está haciendo sobre el proyecto.
4. Determinación de los métodos de operación, inspección del material
experimental y del método analítico de los resultados.
5. Análisis de los resultados usando el método definido en el apartado
anterior;
6. Conclusiones y Recomendaciones, síntesis y prospectiva del proyecto.
En todo caso, esta normativa prevalecerá para todos los problemas que se
traten en el curso.
11
Dos Preguntas Esenciales 12
Puesto que se van a utilizar Técnicas Estadísticas en el análisis
de proyectos, se estará hablando de conjuntos de individuos a
los que se les toman datos numéricos. O sea, que en esencia se
tratarán conjuntos de observaciones de números.
A la estadística interesan los conjuntos de datos, y más
específicamente sus Distribuciones, respondiendo en todo
momento a las preguntas:
¿De que tipo es la distribución de los datos?
Y, ¿Con qué distribución estadística aproximo al conjunto
de datos en cuestión?
Las dos interrogantes se deberán responder antes de dar inicio
al proyecto.
Los Tipos de Distribuciones
13
La característica que define al tipo de dato, o considerada en su conjunto
es La Variable, está, caracterizará a la distribución que el conjunto de
datos determina.
Si la distancia entre un dato con el teórico precedente es tan pequeña que
resulta tan insignificante que puede graficarse con una línea, entonces La
Distribución de Datos será de tipo Continuo. Formalizando, son Variables
que pertenecen al menos al conjunto de los números racionales o de
razones y más específicamente al conjunto de los números reales.
Si la distancia entre un dato con el teórico precedente establece un espacio
al menos de una unidad, entonces La Distribución de Datos será de tipo
Discreto. Formalizando, son Variables que pertenecen al conjunto de los
números Naturales.
Si un datos característico a una cualidad puede tomar dos valores, dígase 1
si el individuo posee la cualidad y 0 si no la posee, entonces La Distribución
de Datos será de tipo Cualitativo.
Las Distribuciones de tipo Continuo
14
Debe puntualizarse:
EL TIPO DE DISTRIBUCIÓN DE LOS DATOS ES INDISPENSABLE
PARAAPROXIMARSE A POBLACIÓN QUE LOS ORIGINA USANDO
TÉCNICAS ESTADÍSTICAS.
Poblaciones a las que se les toman datos métricos —kilos, metros, litros,
libras, onzas...— para ser caracterizadas deberán ser aproximadas
mediante distribuciones de tipo Continuo.
Para los fines de este curso interesa en especial la denominada:
DISTRIBUCIÓN NORMAL
Y más específicamente:
LA DISTRIBUCIÓN NORMAL ESTÁNDAR
Que ha dado origen a poderosas herramientas de análisis y proyección.
Las Distribuciones de tipo Discreto
Hay variables que se utilizan para valorar datos que por su
naturaleza varían como mínimo de unidad en unidad, por
ejemplo: la cantidad de huevos que pone una gallina en un
año; el número de Gansos Canadienses que llegan a una
laguna del centro de México a pasar el invierno austral; la
cantidad de semillas que afloran de 1.000 semillas sembradas.
Estos valores provenientes de conteos son de tratamiento
estadístico incómodo, la mayoría de las veces se aproximan
mediante distribuciones continuas haciendo salvedades de
continuidad.
En todo caso, este tipo de distribuciones establece
condicionante que deben tomarse en cuenta para su
tratamiento estadístico.
15
Las Distribuciones de tipo Cualitativo
Estas distribuciones de datos reflejan pocos sucesos, la que
más interesa al curso es la resultante de dos posibles
resultados:
Que el individuo estudiado cumpla una cualidad, entonces se
el valor del dato será un uno (1);
Que el individuo estudiado no cumpla esa cualidad, entonces
el valor del dato será un cero (0).
De esta manera la distribución de datos —para fines prácticos
individuos que poseen o no la cualidad— podrá representarse
con mediante dos columnas.
En este curso interesa en especial la Distribución Binomial.
16
Las Distribuciones Relativas
17
Los tres tipos de distribuciones de datos pueden llevarse a
valores relativos, esto es, transformarlas a números puros que
permitan concluir, independientemente de las unidades en que
se mide la variable.
Las unidades relativas más utilizadas son los porcentajes, por
esto, no es extraño escuchar que tal o cual individuo pertenece
a X porcentaje de la población.
Esta facilidad matemática permite comparar distribuciones de
números puros como son las distribuciones estadísticas con las
distribuciones relativas de los datos que se estudian en los
proyectos de investigación.
Otra distribución de importancia es el orden estadístico, esto
es, la asociación de un valor de la variable con la posición
ordenada ascendentemente que ocupa.
Las Distribuciones de Probabilidad
18
Puesto que se pueden comparar distribuciones de números
puros, una parte muy importante de la Teoría Estadística se ha
enfocado a estudiar las distribuciones de de datos para poder
diseñar modelos estadísticos que emulen correctamente los
resultados.
Las distribuciones estadísticas tienen cualidades simples pero
determinantes:
El área que cubre la distribución es exactamente la
unidad;
Si se toma una sección de esa área, los tamaños de las
secciones está perfectamente determinado;
Esas secciones de área representan probabilidades.
Problema 1.1
Mediante un ejemplo se ilustrará el concepto de distribuciones de datos.
Una inversor ha decidido colocar su dinero en un proyecto agrícola
consistente en la reproducción de una especie de gallina con muchas
posibilidades en la producción de carne. El inversor confía en su socio, un
zootecnista dedicado a la crianza de aves pues, sabe poco de estas, pero si
conoce de análisis de la producción y sobre todo, del flujo de dinero
encargándose del análisis de los datos.
Ha considerado tres variables:
•El número de huevos que una gallina pone en una año, dato de tipo
discreto;
•El peso de los huevos, dato de tipo continuo;
•El número de machos y hembras que nacieron de los huevos, dato de
tipo cualitativo.
Por facilidad de análisis se iniciará con la variable de tipo continuo.
19
La Hoja Electrónica
Un motor del avance de la especie humana ha sido la
consecución de instrumentos que hagan la vida del hombre
más cómoda y que son universalmente aceptados, excepto por
individuos reactivos al cambio, como aquél ingeniero que
prefieren la regla de cálculo a la computadora. Al que sus
compañeros de generación ven como un “bicho raro”.
El criterio del profesor es abordar el veloz autobús de la
modernidad utilizando las herramientas modernas de uso
general para el tratamiento informático de datos. Con los
riesgos que esto implica para el estudiante poco dedicado que
supone, por simple pachorra mental, que la herramienta lleva
implícita la base teórica que soportará las conclusiones y
recomendaciones de los proyectos.
20
21
Entrando a la Hoja Electrónica
A partir de este punto el estudiante podrá acceder al análisis de los datos
que han sido recopilados durante un año de 280 gallinas adultas sujetas a
la explotación de huevos para reproducción.
El objetivo del ejemplo es mostrar al estudiante en que consisten las
distribuciones de datos y las diferencias entre estas.
El proyecto trata de una muestra trivariada, esto es, una observación que
consiste en la recopilación de los tres datos en una gallina, a saber:
X, El peso medio de los huevos;
Y, El número de huevos viables ovopositados en una año por la gallina;
Z, El número de machos que resultaron de la incubación de esos
huevos.
EL Intervalo de Clases.
22
Se iniciará el trabajo con la variable continua, el peso promedio de los
huevos. Al ser un promedio, el resultado de una división, la variable se
transforma en una variable continua o muy aproximadamente continua.
La técnica que se ha desarrollado para observar las distribuciones de datos
consiste en establecer un determinado número de clases, entre 5 y 15
considerando intervalos igualmente distanciados que incluyan a todos los
individuos de la población. Después, de acuerdo a su valor, cada individuo
se asignará a la clase correspondiente llevando un conteo que se
acomodará en una tabla especialmente diseñada para el caso.
Una regla empírica nos dice que un indicador del tamaño de las clases se
puede obtenerse dividiendo la Desviación Estándar entre 2 y 4. Después
dividir el Rango por este número y eligiendo el número de clases,
usualmente entre 7 y 21.
Se irán utilizando formulas y estadísticos que serán definidos en el
momento oportuno, por el momento, se mostrarán las instrucciones de la
HE y la fórmula.
El Número de Clases
23
La Desviación Estándar es un estadístico que ofrece una idea de la
variación de la población. Se identifica con una s y se obtiene en la HE
mediante:
Una idea del intervalo de clases o tamaño de clases se obtiene dividiendo
por 2 y por 4.
14,3017
B291)
:
2
DESVEST(B1
= 
s
3,58
4
14,3017
4
7,15;
2
14,3017
2





 

s
IC
s
IC
Dividiendo el Rango = Máximo - Mínimo entre ambos Intervalos de Clase
se obtendrán los números de clase extremos.
21
58
,
3
2
,
76
11
15
,
7
2
,
76
15
,
7
$B$291)
:
MIN($B$12
$B$291)
:
MAX($B$12












IC
r
NC
IC
r
NC
Se puede elegir un IC de manera que se puedan conseguir de 13 a 15
clases. Por ejemplo IC = 6 gramos, un número entero.
Los Límites de las Clases
24
Para tener una perspectiva de las frecuencias de los pesos de los huevos, se
acostumbra acomodar a los datos por su magnitud en un determinado
número de clases. Usualmente se elige el valor mínimo para que sea el
límite superior de la primera clase. Esto es:
13,5
1 
 Mínimo
LS
Que acomodará en la columna 3 (Columna D de la HE) titulada como
Límite Superior. Después calculará el Límite Inferior de la clase 1 restando
el intervalo de Clase:
5
,
7
6
5
,
13
1
1 



 IC
LS
LI
Después se calcula el promedio de la primera clase:
10,5
2
5
,
13
5
,
7
2
1
1
1 




LS
LI
x
A cada uno de los límites se les suma el intervalo de clase hasta que el
máximo caiga en la última clase.
Rango de las Clases
25
El Rango de las Clases es una lista
de límites de clases que determinará
cuáles individuos, de acuerdo a los
valores que presentaros, pertenecen
a qué clase.
El proceso siguiente es efectuar el
conteo. Inspeccionar a cada dato y
asignarlo a la clase correspondiente.
(se le dejará a la computadora).
Al llegar al final de los datos, cada
valor habrá sido asignado a una
clase y el número de individuos en
una clase específica determinará la
Frecuencia de la Clase. Y en
conjunto, se habrá encontrado la
distribución de frecuencias.
Inferior Medio Superior
7,5 10,5 13,5
13,5 16,5 19,5
19,5 22,5 25,5
25,5 28,5 31,5
31,5 34,5 37,5
37,5 40,5 43,5
43,5 46,5 49,5
49,5 52,5 55,5
55,5 58,5 61,5
61,5 64,5 67,5
67,5 70,5 73,5
73,5 76,5 79,5
79,5 82,5 85,5
85,5 88,5 91,5
91,5 94,5 97,5
LÍMITES DE CLASES
Cuadro o Tabla de Frecuencias
26
La HE ubica a cada gallina
de la muestra en la clase
correspondiente al peso
promedio de sus huevos se
obtiene la tabla de
frecuencias en donde, bajo
la columna Frecuencias se
refiere el número de
individuos de la clase.
Como era de esperarse la
suma de frecuencias es
igual al número de
individuos medidos:
Frecuencias
Inferior Medio Superior Observadas
7,5 10,5 13,5 0
13,5 16,5 19,5 3
19,5 22,5 25,5 3
25,5 28,5 31,5 15
31,5 34,5 37,5 23
37,5 40,5 43,5 24
43,5 46,5 49,5 41
49,5 52,5 55,5 50
55,5 58,5 61,5 42
61,5 64,5 67,5 36
67,5 70,5 73,5 19
73,5 76,5 79,5 15
79,5 82,5 85,5 7
85,5 88,5 91,5 2
91,5 94,5 97,5 0
Suma 280
LÍMITES DE CLASES



















15
1
280
0
2
7
15
19
36
42
50
41
24
23
15
3
3
0
i
i
f
n
Afinando el Cuadro de Frecuencias
27
Habrá notado que las columnas del límite inferior y el punto
medio no se utilizaron. Sin embargo, debe considerar que
cada clase forma un subconjunto acotado (limitado) con un
punto central o punto medio o promedio que representa a
todos los individuos de esa clase.
Tratándose de una variable continua, los valores mínimos y
máximos son, apenas, un par de valores entre muchos posibles
y para poder ser graficados se debe considerar el mínimo
factible que sería cero y el máximo factible que sería un
número desconocido.
Por otra parte, la manera de representar a una variable
continua es mediante una línea sin interrupciones o por clases
sin separaciones como se verá en los gráficos siguientes.
Herramientas Gráficas
28
En estadística se acostumbra usar estas figuras. El Histograma es el
diagrama de barras, donde cada barra representa el peso relativo de la
distribución. Entre más alta la barra más individuos hay en la clase y más
peso relativo.
El polígono, aquí graficado como una línea suavizada representa el área
bajo una curva continua.
Hitograma y Polígono de Frecuencias de una
variable continua
0
10
20
30
40
50
60
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5
Peso del huevo en gramos
Frecuencia
de
huevos
Frecuencias Relativas
29
Nº Clase L. Inferior Pto. Medio L. Superior Absoluta Ascendente Descendente
0 7,5 10,5 13,4 0,0 0,0 100,0
1 13,5 16,5 19,4 1,1 1,1 98,9
2 19,5 22,5 25,4 1,1 2,1 97,9
3 25,5 28,5 31,4 5,4 7,5 92,5
4 31,5 34,5 37,4 8,2 15,7 84,3
5 37,5 40,5 43,4 8,6 24,3 75,7
6 43,5 46,5 49,4 14,6 38,9 61,1
7 49,5 52,5 55,4 17,9 56,8 43,2
8 55,5 58,5 61,4 15,0 71,8 28,2
9 61,5 64,5 67,4 12,9 84,6 15,4
10 67,5 70,5 73,4 6,8 91,4 8,6
11 73,5 76,5 79,4 5,4 96,8 3,2
12 79,5 82,5 85,4 2,5 99,3 0,7
13 85,5 88,5 91,4 0,7 100,0 0,0
14 91,5 94,5 97,4 0,0 100,0 0,0
Frecuencias Relativas
Dividiendo cada frecuencia entre el total de individuos se obtiene la
proporción o porcentaje (si se multiplica por 100) de individuos en cada
clase. Si las frecuencias relativas se acumulan se obtienen las frecuencias
acumulativas, útiles en procesos deductivos y para elaborar el siguiente
gráfico.
Las Ojivas o Frecuencias Acumulativas
30
Ojivas: Distribuciones relativas acumulativas
0
10
20
30
40
50
60
70
80
90
100
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5
Peso del huevo en gramos
Porcentajes
0
10
20
30
40
50
60
70
80
90
100
Ascendente Descendente
Las Ojivas son especialmente
útiles para representar los
estadígrafos de orden. Éstos son
los que relacionan el número
índice u ordinal con los valores
de la variable.
El estadígrafo de orden que
mejor se comprende es la
Medina. Valor que divide a los
datos en dos subconjuntos con
los mismos elementos.
Está ubicada en la posición media de los estadígrafos de orden:
Esto es, el valor que presenta la observación 140. Sin la ayuda de la HE, los
datos se debían ordenar a mano y ubicar la observación, a la HE se le solicita.:
2
,
53
B291)
:
2
MEDIANA(B1
=
~ 
x
5
,
140
2
1
280
2
1




n
Utilidad de la Ojivas
31
Si la cantidad de observaciones es par, la mediana es el promedio del valor
para el estadístico mediano x140 y el siguiente x141. En el ejemplo
1
,
53
)
$B$291;140
:
NOR($B$12
K.ESIMO.ME
=
140 
x
Y
53,3
)
$B$291;141
:
NOR($B$12
K.ESIMO.ME
=
141 
x
Por tanto:
2
,
53
2
3
,
53
1
,
53
2
~ 141
140





x
x
x
La Mediana en la ojiva se identifica por ser la línea que parte de los
valores de los márgenes en 50% y cae en el eje x sobre el valor 53,2. De la
misma manera se pueden obtener los cuartos o cuartiles y en general
cualquier percentil mediante la fórmula, ejemplificada para los cuartiles;
    75
,
210
100
75
)
1
280
(
;
25
,
70
100
25
1
280
;
100
1
75
25 






 k
k
P
n
kp
Solicitados a
la HE: 025
,
63
$B$291;3)
:
$12
CUARTIL($B
=
~
43,75;
$B$291;1)
:
$12
CUARTIL($B
=
~
75
25


x
x
Variables Estándar
32
Una alternativa para obtener valores relativos es estandarizar las
variables, esto es, dividir la diferencia entre un dato yi con respecto al
Promedio entre la Desviación Estándar.
s
x
x
z i
i


Esta variable z posee unas características muy importantes en estadística,
por el momento nos interesa saber que el promedio de las variables
estandarizadas es 0 y que la desviación estándar es 1.
 
1
1
;
0 1
2
1







 

n
z
z
s
n
z
z
n
i
i
z
n
i
i
La Normal Estándar
33
Lo trascendente de esta variable Z es que existe una Distribución de
Probabilidad ampliamente estudiada en el Teoría Estadística que posee
media 0 y varianza 1. Que como de mencionó en la diapositiva 18, todas las
probabilidades bajo el área bajo la curva están determinadas.
Entonces, si la distribución de datos estandarizada es similar a la
distribución de probabilidad estadística, con esta se puede aproximar sin
dificultad y efectuar estimaciones y proyecciones con probabilidades.
La Distribución Normal Estándar tiene forma de campana, tal que también
se le conoce como campana de Gaus [Carl Friedrich Gauss (30 Abril 1777
– 23 Febrero 1855)] . Es simétrica y se aproxima muy apropiadamente a
variables biológicas, sociológicas, provenientes de procesos de fabricación y
muchas otras de tipo continuo.
Los Parámetros: La Media
34
Los Parámetros son valores que caracterizan de manera
incompleta a las distribuciones de datos y por consiguiente a
las poblaciones que les dieron origen.
Por el momento interesa la media, o valor medio definido por:
Fórmula para usar los datos de la tabla de frecuencias, y:




 c
i
i
c
i
i
i
f
x
f
x
1
1
n
x
x
n
i
i


 1
Para datos sin agrupar.
Los Parámetros: La Varianza
35
Valor que es un promedio ajustado de las desviaciones
cuadráticas de las observaciones con respecto a la media,
definida por:
Para datos agrupados en las tablas de frecuencias, y:
Para datos individuales. Al momento se usarán las fórmulas
para la tabla de frecuencias.
 
1
1
1
2
2













m
i
i
m
i
i
i
f
x
x
f
s
 

























 





n
i
n
i
i
i
n
I
i
n
x
x
n
n
x
x
s
1
2
1
2
1
2
2
1
1
1
El Cálculo de Media y Varianza.
36
Frecuencias
Inferior Medio Superior Observadas f * xi f(xi - xm)²
7,5 10,5 13,5 0 0,0 0,0
13,5 16,5 19,5 3 49,5 4.014,0
19,5 22,5 25,5 3 67,5 2.805,1
25,5 28,5 31,5 15 427,5 9.061,6
31,5 34,5 37,5 23 793,5 7.938,8
37,5 40,5 43,5 24 972,0 3.797,3
43,5 46,5 49,5 41 1906,5 1.774,4
49,5 52,5 55,5 50 2625,0 16,7
55,5 58,5 61,5 42 2457,0 1.234,5
61,5 64,5 67,5 36 2322,0 4.696,2
67,5 70,5 73,5 19 1339,5 5.766,6
73,5 76,5 79,5 15 1147,5 8.228,4
79,5 82,5 85,5 7 577,5 6.059,3
85,5 88,5 91,5 2 177,0 2.509,4
91,5 94,5 97,5 0 0,0 0,0
Estadísticos:
n = suma frecuencias 280 Suma de cuadrados 57.902,27
Suma total 14.862,0 Varianza 207,54
Promedio 53,08 Desviación Estándar 14,41
LÍMITES DE CLASES
Propiedades de la Media
37
La propiedad más importante del valor promedio es:
La suma de las desviaciones de las observaciones con respecto al promedio
es cero;
Esta propiedad divide a la distribución de los datos en dos secciones con la
misma probabilidad ,50% de valores inferiores al promedio y 50%
superiores al promedio (la Mediana lo hace con las unidades de la
muestra).
Otra implicación importante es que la suma de cuadrados de las
desviaciones de las observaciones con respecto a la media en mínima.
 











n
i
n
i x
x
x
x
x
x
d
D
1
2
1 0
)
(
...
)
(
 












n
i
n SC
x
x
x
x
x
x
d
D i
1
2
2
2
2
1
2
2
)
(
...
)
(
La Media, junto con la Mediana y la Moda son los tres parámetros de
posición que se presentan al centro de las distribuciones.
Propiedades de la Varianza
38
El promedio ajustado de las desviaciones cuadráticas tiene la propiedad de
ser la suma cuadrática mínima en una distribución. Al requerir del cálculo
previo de la media, sus propiedades están sujetas a las propiedades de la
media, por esto a la primera se le llama Primer Momento y a la segunda
Segundo Momento Muestrales.
Por si sola la varianza no indica valores útiles, al sacársele la raíz cuadrada
se obtiene la Desviación Estándar que es un indicador de la variación de la
población. Se espera que en el intervalo de más y menos una Desviación
Estándar del promedio se ubiquen poco más o menos el 68% de los datos
como se puede comprobar en la HE. Por tanto, cuando en trabajos de
investigación se observe la expresión:
 
s
x 
Debe entenderse, para el caso del ejemplo:
  %
68
48
,
67
67
,
38
Pr 

 X
obabilidad
Ajustando la Distribución Esperada
39
Como se apuntó, la importancia de las distribuciones de datos se centra en
que puedan ser emuladas o aproximadas por alguna Distribución
Estadística de Probabilidad.
En la HE se efectúa todo un proceso para crear el gráfico que compara las
distribuciones Observada y Teórica o Esperada.
Se observa que hay
semejanza entre las
distribuciones de datos
como lo confirma la prueba
estadística utilizada de chi-
cuadrada que indica un
84,66% de que las
frecuencias observadas y
esperadas se parezcan.
Estadísticamente suficiente
para considerarlas iguales.
Distribuciones del peso de huevo
0
10
20
30
40
50
60
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5
Peso en gramos
Frecuencias
Esperada Observada
1.40 La Importancia de que las
distribuciones se consideren iguales.
40
Cuando las distribuciones de datos se considera que es similar
a una Distribución Estadística de Probabilidad la labor del
investigador se facilita enormemente pues puede utilizar todo
el acerbo de la Ciencia Estadística para Aproximarse a una
población real conociendo perfectamente las probabilidades
que respaldan las Conclusiones y Recomendaciones.
Cuando no es así, la Teoría Estadística proporciona
herramientas para obtener Conclusiones y Hacer
Recomendaciones con probabilidad conocida, sin embargo,
bajo una serie de restricciones que pueden reducir de manera
importante el ámbito de utilidad.
Conclusión para la Variable:
Peso promedio del Huevo
41
Debe tenerse presente que la variable es de tipo continuo y que
deberá simularse con una Distribución Estadística de tipo continuo.
-La Distribución del peso de los huevos es de forma acampanada,
similar a una distribución estadística que se conoce como La
Normal.
-Gráficamente, las distribuciones de frecuencias observadas y
las esperadas calculadas utilizando la distribución son muy
similares
-La prueba estadística de 2 indica una probabilidad similitud
de 84,66%
-Se puede utilizar la Distribución Normal Estándar o La Normal
para analizar los resultados del proyecto.
La Variable Cualitativa:
Sexo del Producto.
42
Se tratará la variable cualitativa que dio origen al proyecto:
La alta proporción de machos para una raza de gallinas
productora de carne. Se espera que al menos sea de 70% de
nacimientos de machos viables. Esto significa que el 30%
restante incluye nacimientos de hembras y productos no
viables.
Es evidente que únicamente hay dos resultados posibles: 1 si el
producto es un macho viable y 0 si el producto no es un macho
viable, por esto se utilizará la distribución Binomial para
aproximar los datos.
La Distribución Binomial
43
La Distribución de Probabilidad Binomial está definida por:
Donde p es la proporción de que un suceso ocurra —que el
producto sea un macho— q = (1 – p) la proporción de que el
suceso no ocurra. Y rCn que indica las r combinaciones en que
pueden intercambiarse los sucesos en n muestras denominado
Coeficiente Binomial.
Para el caso se toman los sucesos de 10 huevos acomodados en
una charola de la incubadora. Así se presentarían los datos,
recordando que 1 (uno) significa que el producto es un pollito
que al menos llegará a las granjas de los avicultores.










n
x
x
n
x
n
x
q
p
x
F
0
)
(
Cuadro de Frecuencias y Estadísticos
44
El cuadro de frecuencias
proporciona una idea de la
distribución y los estadísticos
necesarios para valorar la hipótesis:
Ho; X ~B(np; npq)
La variable X se distribuye
Binomial, con media np = 10  0.7 =
7 y varianza npq = 10  0,7  0,3 =
2,1.
Por tanto, la distribución que
aproxime a los datos será una
binomial con un muestra de tamaño
n = 10, y una proporción de pollitos
machos viables de 0,7 o 70%.
Evento Frecuencia Sumas
x machos Observada Parciales
0 0 0
1 0 0
2 0 0
3 0 0
4 1 4
5 3 15
6 4 24
7 6 42
8 6 48
9 7 63
10 1 10
Estadísticos
Número de bandejas 28
Suma Total de pollitos machos 206
Promedio de pollitos por bandeja 7,36
Tamaño de la muestra n 10
Proporción de pollitos machos viables 0,7357
Proporción no viable 0,2643
Las Probabilidades Binomiales
45
Las operaciones para obtener las probabilidades binomiales se
detallan en la HE. Con estas, se elabora un cuadro que
permitirá determinar si la distribución de frecuencias del
evento que el producto sea un macho viable pueda
aproximarse mediante la Distribución de Probabilidades
Binomial.
Para esto se comparan las frecuencias esperadas que se
obtienen multiplicando la probabilidad para cada evento x
por el número de muestras de tamaño 10 —charolas de
incubación— observadas, con las frecuencias observadas
mediante la prueba de 2.
NOTA: Se recuerda al estudiante que el capítulo está
orientado a conocer las distribuciones de datos. Las pruebas
debe utilizarlas como herramientas.
El Cuadro con la Prueba de Bondad de Ajuste
46
La prueba estadística de 2 indicó una probabilidad de 0,8915 o 89,15% de
que los nacimientos de pollitos machos se distribuyan como una Binomial.
En términos estadísticos, no hay evidencia para rechazar la hipótesis Ho;
X~B(np = 7; npq = 2,1) con nivel de confianza del 5%. Notará que además
de la distribución se ha valorado la proporción. Esto es, el p = 0,7353
puede considerarse como 0,7.
Ensayos 10
Probabilida 0,7
Evento Probabilida Chi_Cuadrada
x machos del Evento Esperadas Observadas Diferencia Parcial
0 0,0000 0,0 0 0,0 0,0002
1 0,0001 0,0 0 0,0 0,0039
2 0,0014 0,0 0 0,0 0,0405
3 0,0090 0,3 0 -0,3 0,2520
4 0,0368 1,0 1 0,0 0,0008
5 0,1029 2,9 3 0,1 0,0049
6 0,2001 5,6 4 -1,6 0,4588
7 0,2668 7,5 6 -1,5 0,2897
8 0,2335 6,5 6 -0,5 0,0442
9 0,1211 3,4 7 3,6 3,8452
10 0,0282 0,8 1 0,2 0,0553
Sumas 1,0000 28,0 28 0,0 4,9954
Probabilidad de la Chi-Cuadrada 0,8915
Frecuencias
1.47 Un gráfico siempre es de ayuda.
47
Elaborando un Histograma
con las frecuencias
observadas en guinda y las
esperadas en azul se aprecia
una tendencia similar. Como
en el caso de la distribución
Normal, los resultados del
proyecto pueden analizarse
utilizando la distribución de
probabilidad Binomial. Una
conclusión que facilitará
enormemente el análisis y la
conclusión de proyecto en lo
tocante al número de pollitos
machos.
Es importante hacer notar al estudiante
que los gráficos de conteo deben
presentarse usando barras. Esto indicará
al lector que se trata de una distribución de
cualidades.
Frecuencias Binomiales p = 0,7 en el nacimiento
de pollitos machos para engorda
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8 9 10
Número de machos viables / 10.
Frecuencia
en
28
bandejas
Esperadas Observadas
La variable Discreta Número de
Huevos
48
Cuando se trabaja con variables cuya distribución
brinca al menos por unidades debe tenerse cuidado. Casi
siempre y sin mucho análisis, se trabajan como distribuciones
continuas y más específicamente como distribuciones
normales por la facilidad que esto implica.
El experimentador deberá tener, siempre en
consideración, que está trabajando con una variable discreta
que salta de unidad en unidad, pues las gallinas no ponen
medios huevos. Aun cuando los estadísticos indiquen
fracciones o sean elementos de los números racionales.
Para este ejemplo se iniciará solicitando a la HE el cómputo
de las Estadísticas Descriptivas.
Estadísticas Descriptivas
49
Los estadísticos importantes
para determinar si la
distribución de los datos
puede aproximarse mediante
una distribución normal son:
La Media, La Mediana, La
Moda, como parámetros de
tendencia central también
llamados de
posicionamiento.
Huevos
Media 178,436
Error típico 3,581
Mediana 180
Moda 180
Desviación estándar 59,922
Varianza de la muestra 3.590,706
Curtosis 0,002
Coeficiente de asimetría -0,075
Rango 324
Mínimo 18
Máximo 342
Suma 49.962
Cuenta 280
El Coeficiente de Asimetría o Sesgo (valores críticos
0,230(5%) 0,360(1%)); y el Coeficiente de Curtosis con
valores críticos de (-0,41 a +0,47 (5%) y -0,50 a +79 (1%).
Las Medidas de Posicionamiento
50
Se presume que una distribución de datos se parece a una distribución
normal cuando las medidas de posicionamiento están muy próximas:
Sí la Media, Mediana y Moda son iguales, al menos se presume que se tiene
un distribución perfectamente centrada;
Sí el orden ascendente de los estadísticos es Moda, Mediana y Media se
presume una cola a la derecha más larga:
Si el orden ascendente de los estadísticos Media, Median y Moda se
presume una cola izquierda más larga.
En general en una distribución asimétrica, la Media con respecto a la
Moda tiende a situarse al mismo lado que la cola más larga.
En el ejemplo con Media = 178,4 huevos / año, Mediana 180 huevos / año y
Moda = 180 huevos año se puede considerar una distribución centrada.
Siendo muye exigentes se puede presumir una distribución con sesgo
negativo.
El Coeficiente de Curtosis
51
El Coeficiente mide:
El alargamiento o estrechamiento de una distribución de
datos con respecto a una distribución normal de los mismos
datos.
Entre más se aproxime la distribución de los datos a
una normal más próximo a 3 será el coeficiente. O a 0 cuando
se corrige.
Según la tabla de para la valoración de la curtosis
mediante los valores ajustados y para un nivel de confianza
de 95% el coeficiente de curtosis debe mantenerse entre –0,41
y 0,47 para aceptar que la distribución se parece, por su
estrechez a una normal. En el ejemplo se Acepta que la
distribución es semejante a una normal.
El Coeficiente de Sesgo o Asimetría
52
El Coeficiente mide:
La simetría de una distribución de datos con respecto
a una normal.
Este coeficiente siempre se valora con respecto a un valor
cero en el que la distribución es, además de centrada
simétrica.
En el ejemplo el coeficiente de asimetría o sesgo es de –
0,0752 que para la valoración debe tomarse como valor
absoluto. El límite teórico de la distribución del estadístico
para n = 300 es de 0,23. Cómo 0,0752 es menor que 0,23, debe
aceptarse que la distribución de datos es simétrica con
respecto a la normal.
La Recomendación para las
Distribuciones Discretas.
53
Tomando en cuenta el origen biológico de la variable y =
número de huevos en una año de 365 días por gallina y los
estadísticos que se acaban de valorar puede concluirse que la
variable sigue una distribución normal.
No obstante, es conveniente que el investigador obtenga una
visión más directa mediante el gráfico de la distribución de
datos y los estadísticos de posicionamiento y los coeficientes
de sesgo y curtosis desde datos agrupados en una distribución
de frecuencias.
Este proceder es recomendable en análisis de resultados de
una distribución absolutamente discreta.
El Histograma.
54
El gráfico simple
muestra una
distribución muy
similar a una campana,
característica de
distribuciones de datos
que se parecen a una
distribución normal.
Es conveniente que las barras que representan el peso relativo
de cada subclase no se unan, indicando con esto, que se trata
de una distribución discreta.
Así mismo, no es conveniente unir las cúspides de las barras
con la línea del polígono de frecuencias.
Histograma de una variable discreta
0
10
20
30
40
50
60
70
12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5
Número de huevos (gallina por año)
No
de
Gallinas
Estadísticos con Datos Agrupados
55
Frecuencia
Inferior Medio Superior Observada
0 12,5 25 3 37,5 83.363,10 -63,56 175,87
25 37,5 50 4 150,0 80.311,51 -52,05 122,42
50 62,5 75 5 312,5 68.090,28 -36,34 70,40
75 87,5 100 12 1.050,0 100.898,82 -42,32 64,41
100 112,5 125 30 3.375,0 133.452,41 -40,71 45,07
125 137,5 150 25 3.437,5 43.464,80 -8,29 5,74
150 162,5 175 48 7.800,0 13.380,99 -1,02 0,28
175 187,5 200 58 10.875,0 3.999,06 0,15 0,02
200 212,5 225 34 7.225,0 37.710,35 5,74 3,18
225 237,5 250 27 6.412,5 91.781,27 24,47 23,69
250 262,5 275 17 4.462,5 117.971,25 44,95 62,15
275 287,5 300 13 3.737,5 152.485,63 75,53 135,79
300 312,5 325 2 625,0 35.539,68 21,67 47,95
325 337,5 350 2 675,0 50.120,04 36,29 95,36
Número de observaciones 280 Sumas de cuadrados 1.012.569,20
Suma Total 50.175,0 Varianza 3.629,28
Promedio de huevos 179,20 Desviación Estándar 60,24
Mediana 180,8 C. Asimetría -0,128
Moda 182,4 C. Curtosis 0,089
LÍMITES DE CLASES
i
i x
f 2
)
( x
x
f i
i 
3





 
s
x
x
f i
i
4





 
s
x
x
f i
i
Interpretación
56
Se han señalado en el
histograma los estadísticos
de posición y dos líneas en
la parte inferior del
mismo tamaño para hacer
evidente la asimetría
también llamada sesgo
señalada con una llave
invertida. Recodaremos
que no es significante.
La asimetría toma de referencia a la normal indicando una
anormalidad de la distribución de los datos con respecto a la teórica.
Los coeficientes de forma indican que las diferencias se deben al azar
pudiendo, por tanto, utilizar a la distribución Normal Estándar en
proceso de análisis, interpretación y predicción.
Histograma de una variable discreta
0
10
20
30
40
50
60
70
12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5
Número de huevos (gallina por año)
No
de
Gallinas
Media = 179,2
Mediana = 180,8
Moda = 182,4
Asimetria o
Sesgo a la
izquierda
La Prueba de Bondad de Ajuste.
57
Si hubiera dudas se debe hacer la prueba de “Bondad de Ajuste” de las
frecuencias esperadas y observadas mediante la Chi-Cuadrada. Para
declarar que la distribución de datos no se asemeja a una normal la
probabilidad de 2 debe ser inferior a 0,05 0 5%. Para todos los efectos la
variable Y se opera como una variable continua con valores límites en el
conjunto de los reales.
Probabilidad Chi-Cuadradas
Inferior Superior Inferior Superior del intervalo Esperadas Observadas parciales
0 25 0,0000 0,0052 0,0052 1,5 3 0,7268
25 50 0,0052 0,0160 0,0108 3,0 4 0,0795
50 75 0,0160 0,0419 0,0259 7,2 5 0,4183
75 100 0,0419 0,0943 0,0525 14,7 12 0,3269
100 125 0,0943 0,1842 0,0898 25,2 30 0,7505
125 150 0,1842 0,3140 0,1298 36,3 25 3,2363
150 175 0,3140 0,4722 0,1583 44,3 48 0,2289
175 200 0,4722 0,6351 0,1628 45,6 58 3,1080
200 225 0,6351 0,7765 0,1414 39,6 34 0,6542
225 250 0,7765 0,8801 0,1036 29,0 27 0,0783
250 275 0,8801 0,9441 0,0641 17,9 17 0,0105
275 300 0,9441 0,9775 0,0334 9,4 13 1,0555
300 325 0,9775 0,9922 0,0147 4,1 2 0,6367
325 350 0,9922 1,0000 0,0078 2,2 2 0,0497
Sumas 1,0000 280,0 280 11,3602
Probabilidad de Chi_Cuadrada 0,5807
LÍMITES DE CLASES Probabilidad a los límites Frecuencias
Conclusión
58
Éste capítulo hace referencia a las distribuciones de los datos.
Se han utilizado formulas, algunas muy complejas que requiere la
teoría estadística para analizar resultados de pruebas y proyectos,
pero fácilmente computables o obtenibles mediante funciones o
algoritmos de la HE.
Se han abordado los tres tipos de datos: continuos, discretos y
cualitativos asociando la distribución de datos observadas con las
distribuciones estadísticas de mayor uso puntualizando criterios
para determinar si tal o cual distribución estadística puede
utilizarse para estudiar los resultados obtenidos a partir de
conjuntos de datos de una población objetivo.
Se ha concluido con respecto a las implicaciones estadísticas de las
tres variables ejemplificadas.
Recomendación
59
Se recomienda al estudiante que entienda la notación
matemática en las fórmulas para que pueda aplicarla en la
HE sin reparar en la complejidad de la misma. Esto con el
objeto de considerar a las fórmulas de cálculo de estadísticos
como herramientas.
También se ha recomendado al estudiante que ponga atención
en el significado de cada estadístico para que pueda
interpretar y concluir desde los análisis de los resultados.
El estudiante habrá notado que la HE posee una gran
cantidad de funciones y rutinas estadísticas y matemáticas que
le facilitan el análisis de resultados de conjuntos de datos
provenientes de exploraciones o de técnicas de
experimentación: Utilícelas.
Recordatorio
60
Se recuerda al estudiante que la charla es una
manera menos formal de enseñar la teoría estadística
y su aplicación a resultados de proyectos de
exploración o de experimentación de poblaciones.
Puede consultar la parte formal del tema
proporcionado por el profesor en el archivo de
“Word” que lleva explicaciones exhaustivas del tema,
complemento del “PowerPoint” y Excel.
Si aun quiere practicar y profundizar sobre temas
menos rigurosos, puede adquirir el libro electrónico
del curso de Métodos Estadísticos con Excel.
Distribuciones de Datos
Módulo Métodos Estadísticos
Apuntes de Estadística Aplicada con
EXCEL.
Manuel Pontigo Alvarado.
ITCR. 2005

Más contenido relacionado

Similar a E01_Distribuciones_R01.ppt

Recolección de datos (3)
Recolección de datos (3)Recolección de datos (3)
Recolección de datos (3)IngridFlores41
 
El Trabajo De Campo
El Trabajo De CampoEl Trabajo De Campo
El Trabajo De CampoJulio
 
El Trabajo De Campo
El Trabajo De CampoEl Trabajo De Campo
El Trabajo De CampoJulio
 
1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docx
1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docx1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docx
1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docxMartha García
 
2 investigacion cuantitativa
2 investigacion cuantitativa2 investigacion cuantitativa
2 investigacion cuantitativaAymaChoqueSilka
 
Recoleccion de datos
Recoleccion de datosRecoleccion de datos
Recoleccion de datosCarlos Neira
 
Marco metodologico-presentacion
Marco metodologico-presentacionMarco metodologico-presentacion
Marco metodologico-presentacionMynor Gonzalez
 
Marco metodologico-presentacion1
Marco metodologico-presentacion1Marco metodologico-presentacion1
Marco metodologico-presentacion1Grecia Naruby
 
Estudio de mercado
Estudio de mercadoEstudio de mercado
Estudio de mercadoMCMurray
 
Presentación3
Presentación3Presentación3
Presentación3oncecsch
 
Análisis de Datos
Análisis de DatosAnálisis de Datos
Análisis de DatosKmilo Perez
 
grupo 2- investigacion cualitativa.pptx
grupo 2- investigacion cualitativa.pptxgrupo 2- investigacion cualitativa.pptx
grupo 2- investigacion cualitativa.pptxGladysCoriConde1
 
Análisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptxAnálisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptxsantiagooscarpazaran
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datosJesusCM7
 

Similar a E01_Distribuciones_R01.ppt (20)

Recolección de datos (3)
Recolección de datos (3)Recolección de datos (3)
Recolección de datos (3)
 
Población y muestra
Población y muestraPoblación y muestra
Población y muestra
 
El Trabajo De Campo
El Trabajo De CampoEl Trabajo De Campo
El Trabajo De Campo
 
El Trabajo De Campo
El Trabajo De CampoEl Trabajo De Campo
El Trabajo De Campo
 
Investigacion cuantitativa
Investigacion cuantitativaInvestigacion cuantitativa
Investigacion cuantitativa
 
Inicio de la libreta
Inicio de la libretaInicio de la libreta
Inicio de la libreta
 
1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docx
1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docx1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docx
1. Est Des 1.1 y 1.2 Fundamentos_1 (1).docx
 
2 investigacion cuantitativa
2 investigacion cuantitativa2 investigacion cuantitativa
2 investigacion cuantitativa
 
Recoleccion de datos
Recoleccion de datosRecoleccion de datos
Recoleccion de datos
 
Marco metodologico-presentacion
Marco metodologico-presentacionMarco metodologico-presentacion
Marco metodologico-presentacion
 
Marco metodologico-presentacion1
Marco metodologico-presentacion1Marco metodologico-presentacion1
Marco metodologico-presentacion1
 
Estudio de mercado
Estudio de mercadoEstudio de mercado
Estudio de mercado
 
Presentación3
Presentación3Presentación3
Presentación3
 
Análisis de Datos
Análisis de DatosAnálisis de Datos
Análisis de Datos
 
Proceso de Investigación de Mercados
Proceso de Investigación de MercadosProceso de Investigación de Mercados
Proceso de Investigación de Mercados
 
U1-T2 M.docx
U1-T2 M.docxU1-T2 M.docx
U1-T2 M.docx
 
trabajo academico
trabajo academicotrabajo academico
trabajo academico
 
grupo 2- investigacion cualitativa.pptx
grupo 2- investigacion cualitativa.pptxgrupo 2- investigacion cualitativa.pptx
grupo 2- investigacion cualitativa.pptx
 
Análisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptxAnálisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptx
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
 

Último

Evaluacion Final de logistica - trabajo final
Evaluacion Final de logistica - trabajo finalEvaluacion Final de logistica - trabajo final
Evaluacion Final de logistica - trabajo finalssuser4a0361
 
exportacion y comercializacion de palta hass
exportacion y comercializacion de palta hassexportacion y comercializacion de palta hass
exportacion y comercializacion de palta hassJhonnyvalenssYupanqu
 
PPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdfPPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdfihmorales
 
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-ComunicacionesIMSA
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosFundación YOD YOD
 
DELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdfDELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdfJaquelinRamos6
 
IDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDINGIDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDINGAndresGEscobar
 
CONSTITUCIÓN, CREACION Y GESTION DE EMPRESAS
CONSTITUCIÓN, CREACION Y GESTION DE EMPRESASCONSTITUCIÓN, CREACION Y GESTION DE EMPRESAS
CONSTITUCIÓN, CREACION Y GESTION DE EMPRESASJorgeLuisEspinolaMar
 
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptxTEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptxFrancoSGonzales
 
COPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESA
COPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESACOPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESA
COPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESADanielAndresBrand
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...antonellamujica
 
Efectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxEfectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxCONSTRUCTORAEINVERSI3
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfOdallizLucanaJalja1
 
Contabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHillContabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHilldanilojaviersantiago
 
modelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursosmodelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursosk7v476sp7t
 
LOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESAS
LOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESASLOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESAS
LOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESASemilyacurio2005
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfConstructiva
 
diseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptxdiseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptxjuanleivagdf
 
PPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAY
PPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAYPPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAY
PPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAYCarlosAlbertoVillafu3
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzassuperamigo2014
 

Último (20)

Evaluacion Final de logistica - trabajo final
Evaluacion Final de logistica - trabajo finalEvaluacion Final de logistica - trabajo final
Evaluacion Final de logistica - trabajo final
 
exportacion y comercializacion de palta hass
exportacion y comercializacion de palta hassexportacion y comercializacion de palta hass
exportacion y comercializacion de palta hass
 
PPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdfPPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdf
 
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de servicios
 
DELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdfDELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdf
 
IDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDINGIDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDING
 
CONSTITUCIÓN, CREACION Y GESTION DE EMPRESAS
CONSTITUCIÓN, CREACION Y GESTION DE EMPRESASCONSTITUCIÓN, CREACION Y GESTION DE EMPRESAS
CONSTITUCIÓN, CREACION Y GESTION DE EMPRESAS
 
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptxTEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
TEMA 6.- MAXIMIZACION DE LA CONDUCTA DEL PRODUCTOR.pptx
 
COPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESA
COPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESACOPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESA
COPASST Y COMITE DE CONVIVENCIA.pptx DE LA EMPRESA
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
 
Efectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxEfectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptx
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
 
Contabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHillContabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHill
 
modelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursosmodelo de flujo maximo unidad 4 en modelos de optimización de recursos
modelo de flujo maximo unidad 4 en modelos de optimización de recursos
 
LOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESAS
LOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESASLOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESAS
LOS MODELOS DE LA COMUNICACIÓN HUMANA 1° ADM. DE EMPRESAS
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
 
diseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptxdiseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptx
 
PPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAY
PPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAYPPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAY
PPT DIAGNOSTICO DAFO Y CAME MEGAPUERTO CHANCAY
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzas
 

E01_Distribuciones_R01.ppt

  • 1. Curso Programado de Estadística Marte 2004 1 Introducción a la Temática del Capítulo. Puntos del Proyecto de Trabajo Las Distribuciones de Datos El Caso a Analizar Abrir a la Hoja Electrónica La Variable Continua: Peso del huevo. La Variable Cualitativa: Sexo del Producto. La Variable Discreta: Número de Huevos Conclusiones y Recomendaciones. Salida © Manuel Pontigo Alvarado: mpontigo@itcr.ac.cr. ISBN 978-9968-9634-3-5 Arrancar el Libro Excel Esc: Menú Anterior
  • 2. 2 La Era de la Información Nunca la humanidad ha generado tantas Noticias y Datos. La tecnología ha desarrollado aparatos que reciben, procesan y emiten señales de manera automatizada. Tal es la magnitud de estas señales que se ha creado toda una Teoría de la Información: Encargada de relacionar el medio, el canal y el código con los cuales se trasmite la información. Los medios más usuales a la información son: La INTERNET (Red Mundial de Computadoras); La INTRANET (Red Local de Computadoras); El Radio y la Televisión; Los medios gráficos como diarios, revistas y libros.
  • 3. 3 La Informática Es el conjunto de técnicas que permiten procesar datos dando resultados. Un proceso que se es recomendable realizar mediante ordenadores. Los Ordenadores también conocidos como Computadoras son las herramientas que han propiciado, en gran medida el “BUM” INFORMATIVO e INFORMÁTICO que se está viviendo. Con estos aparatos se captura, procesa y emite información con sentido, generalmente económico. La pregunta que surge: ¿Por qué no analizar la información? Si los mismos aparatos tienen incorporadas las herramientas.
  • 4. Estadística: Viene De Estado 4 Tiene dos acepciones: -Sucesión numérica de datos sobre un tema con los que se pretende caracterizar a una población. -Y, Ciencia cuyo propósito es la recopilación, agrupamiento y tratamiento de datos numéricos sobre fenómenos naturales o sociales, y el método que se usa. Se puede agregar: Con el objeto de facilitar al estudioso, el análisis, la síntesis y las recomendaciones que han sido el propósito de esa recopilación de datos. Esto es, dar a la INFORMÁTICA un sentido analítico.
  • 5. La Recopilación y el Almacenamiento de Datos Cuando se investiga una población de individuos en una o más características, la lógica nos dice que al menos deben estudiarse algunos individuos que Representen al grupo. A estos individuos que llamaremos Muestras, se les toman una o varias medidas conocidas como Datos, importantes para los fines de la investigación. Al origen de una o más variables se le conoce como Observación. La modernidad nos permite que las observaciones sean capturadas, almacenadas y tratadas en un Ordenador. En este curso se agregará: Y analizarlas con las herramientas estadísticas de uso general que el mismo ordenador opera. 5
  • 6. El Propósito de la Investigación. 6 En toda investigación, sea que se trate de recopilar información simple o muy complicada y costosa, el Proyecto debe establecerse de manera clara, precisa y concisa: En o los propósitos que se persiguen con la investigación. También llamados Objetivos del Proyecto. Estos son puntos en el horizonte del estudio a los que se llegará después de que la información se haya ordenado, procesado y analizado, esto es, Informatizado. La claridad, precisión y concisión de los Propósitos de la Investigación propician recomendaciones cuyos resultados son previsibles con probabilidad conocida. Con seguridad, estos propósitos aunque novedosos posiblemente no serán únicos, por tanto; “No hay nada nuevo bajo el sol” simplemente una forma diferente de estudiarlos.
  • 7. 7 Análisis de la Experiencia Humana “No hay Nada Nuevo Bajo El Sol” Frase del acervo popular que nos dice qué, por muy novedoso que suene “nuestro proyecto” alguien, en algún lugar, ya lo llevó a cabo o al menos hizo algo parecido. Esto no debe quitarnos el ánimo, la ciencia avanza en un ciclo interminable de pruebas de acierto y error. Es posible que algunas circunstancias de “nuestro ensayo” provoquen diferencias o hagan evidentes errores cometidos en investigaciones similares. Por esto, es indispensable enmarcar con precisión los Propósitos de la Investigación. Proceso que se conoce como Marco Teórico que incluye la Revisión Bibliográfica.
  • 8. Y el método que se usará Frase en la definición de la Ciencia Estadística de implicaciones trascendentales. De poco sirve la experiencia humana, al menos en la investigación científica, sí las recomendaciones de una experiencia no tienen bases creíbles, y mejor sí son ciertas. Esta credibilidad es otorgada al proyecto sí los métodos de: Aplicación de Estímulos; Manipulación de los Sujetos de la Experiencia; Obtención de Observaciones; Tratamiento Informático de los Datos; Método Estadístico de Análisis Y cualquier otra manipulación directa o indirecta de los sujetos experimentados o explorados y sus observaciones deberá estar exhaustivamente descritos y correctamente aplicados. 8
  • 9. Análisis de Resultados Una vez que los datos se han recopilado se entra al proceso de Analizar los Resultados. Cuando el proyecto ha considerado valorar los resultados mediante Técnicas Estadísticas de Análisis, sea mediante Técnicas de Exploración o mediante Experimentos Planificados, debe hacerse con base en el método que se ha determinado usar antes de que se iniciara la recopilación de la información o el tratamiento de las unidades experimentales. Las Técnicas de Análisis Estadísticos ofrecen resultados objetivos y con probabilidades totalmente determinadas para que el investigador haga recomendaciones que le den la seguridad que él necesita, conociendo exactamente el riesgo que correrá el usuario de los resultados del proyecto. 9
  • 10. Conclusión y Recomendación 10 Para que el proyecto sea útil, el Análisis de los Resultados debe derivar en Conclusiones y Recomendaciones. En todo el proyecto de investigación se han considerado directa o indirectamente dos posiciones bien definidas: La del Investigador cuyos fines usualmente son prácticos y más de las veces económicos; Y las de los usuarios de los productos resultantes de la investigación. Las Técnicas Estadísticas consideran estas posiciones mediante las probabilidades: De confianza que tiene el investigador de recomendar las conclusiones del proyecto; De riesgo que corre el “comprador” de los productos resultantes de la investigación. También conocidos respectivamente como error del fabricante y error del consumidor .
  • 11. Puntualización El estudiante se habrá percatado que desde la diapositiva 6 se esquematizan los fundamentos de un proyecto de investigación en el ámbito del método científico: 1. Introducción, que sirve para delinear el proyecto; 2. Las Propósitos del Proyecto, en el que se establecen los objetivos que se persiguen con el proyecto; 3. La Demarcación del Proyecto, una recopilación de lo que se ha hecho y se está haciendo sobre el proyecto. 4. Determinación de los métodos de operación, inspección del material experimental y del método analítico de los resultados. 5. Análisis de los resultados usando el método definido en el apartado anterior; 6. Conclusiones y Recomendaciones, síntesis y prospectiva del proyecto. En todo caso, esta normativa prevalecerá para todos los problemas que se traten en el curso. 11
  • 12. Dos Preguntas Esenciales 12 Puesto que se van a utilizar Técnicas Estadísticas en el análisis de proyectos, se estará hablando de conjuntos de individuos a los que se les toman datos numéricos. O sea, que en esencia se tratarán conjuntos de observaciones de números. A la estadística interesan los conjuntos de datos, y más específicamente sus Distribuciones, respondiendo en todo momento a las preguntas: ¿De que tipo es la distribución de los datos? Y, ¿Con qué distribución estadística aproximo al conjunto de datos en cuestión? Las dos interrogantes se deberán responder antes de dar inicio al proyecto.
  • 13. Los Tipos de Distribuciones 13 La característica que define al tipo de dato, o considerada en su conjunto es La Variable, está, caracterizará a la distribución que el conjunto de datos determina. Si la distancia entre un dato con el teórico precedente es tan pequeña que resulta tan insignificante que puede graficarse con una línea, entonces La Distribución de Datos será de tipo Continuo. Formalizando, son Variables que pertenecen al menos al conjunto de los números racionales o de razones y más específicamente al conjunto de los números reales. Si la distancia entre un dato con el teórico precedente establece un espacio al menos de una unidad, entonces La Distribución de Datos será de tipo Discreto. Formalizando, son Variables que pertenecen al conjunto de los números Naturales. Si un datos característico a una cualidad puede tomar dos valores, dígase 1 si el individuo posee la cualidad y 0 si no la posee, entonces La Distribución de Datos será de tipo Cualitativo.
  • 14. Las Distribuciones de tipo Continuo 14 Debe puntualizarse: EL TIPO DE DISTRIBUCIÓN DE LOS DATOS ES INDISPENSABLE PARAAPROXIMARSE A POBLACIÓN QUE LOS ORIGINA USANDO TÉCNICAS ESTADÍSTICAS. Poblaciones a las que se les toman datos métricos —kilos, metros, litros, libras, onzas...— para ser caracterizadas deberán ser aproximadas mediante distribuciones de tipo Continuo. Para los fines de este curso interesa en especial la denominada: DISTRIBUCIÓN NORMAL Y más específicamente: LA DISTRIBUCIÓN NORMAL ESTÁNDAR Que ha dado origen a poderosas herramientas de análisis y proyección.
  • 15. Las Distribuciones de tipo Discreto Hay variables que se utilizan para valorar datos que por su naturaleza varían como mínimo de unidad en unidad, por ejemplo: la cantidad de huevos que pone una gallina en un año; el número de Gansos Canadienses que llegan a una laguna del centro de México a pasar el invierno austral; la cantidad de semillas que afloran de 1.000 semillas sembradas. Estos valores provenientes de conteos son de tratamiento estadístico incómodo, la mayoría de las veces se aproximan mediante distribuciones continuas haciendo salvedades de continuidad. En todo caso, este tipo de distribuciones establece condicionante que deben tomarse en cuenta para su tratamiento estadístico. 15
  • 16. Las Distribuciones de tipo Cualitativo Estas distribuciones de datos reflejan pocos sucesos, la que más interesa al curso es la resultante de dos posibles resultados: Que el individuo estudiado cumpla una cualidad, entonces se el valor del dato será un uno (1); Que el individuo estudiado no cumpla esa cualidad, entonces el valor del dato será un cero (0). De esta manera la distribución de datos —para fines prácticos individuos que poseen o no la cualidad— podrá representarse con mediante dos columnas. En este curso interesa en especial la Distribución Binomial. 16
  • 17. Las Distribuciones Relativas 17 Los tres tipos de distribuciones de datos pueden llevarse a valores relativos, esto es, transformarlas a números puros que permitan concluir, independientemente de las unidades en que se mide la variable. Las unidades relativas más utilizadas son los porcentajes, por esto, no es extraño escuchar que tal o cual individuo pertenece a X porcentaje de la población. Esta facilidad matemática permite comparar distribuciones de números puros como son las distribuciones estadísticas con las distribuciones relativas de los datos que se estudian en los proyectos de investigación. Otra distribución de importancia es el orden estadístico, esto es, la asociación de un valor de la variable con la posición ordenada ascendentemente que ocupa.
  • 18. Las Distribuciones de Probabilidad 18 Puesto que se pueden comparar distribuciones de números puros, una parte muy importante de la Teoría Estadística se ha enfocado a estudiar las distribuciones de de datos para poder diseñar modelos estadísticos que emulen correctamente los resultados. Las distribuciones estadísticas tienen cualidades simples pero determinantes: El área que cubre la distribución es exactamente la unidad; Si se toma una sección de esa área, los tamaños de las secciones está perfectamente determinado; Esas secciones de área representan probabilidades.
  • 19. Problema 1.1 Mediante un ejemplo se ilustrará el concepto de distribuciones de datos. Una inversor ha decidido colocar su dinero en un proyecto agrícola consistente en la reproducción de una especie de gallina con muchas posibilidades en la producción de carne. El inversor confía en su socio, un zootecnista dedicado a la crianza de aves pues, sabe poco de estas, pero si conoce de análisis de la producción y sobre todo, del flujo de dinero encargándose del análisis de los datos. Ha considerado tres variables: •El número de huevos que una gallina pone en una año, dato de tipo discreto; •El peso de los huevos, dato de tipo continuo; •El número de machos y hembras que nacieron de los huevos, dato de tipo cualitativo. Por facilidad de análisis se iniciará con la variable de tipo continuo. 19
  • 20. La Hoja Electrónica Un motor del avance de la especie humana ha sido la consecución de instrumentos que hagan la vida del hombre más cómoda y que son universalmente aceptados, excepto por individuos reactivos al cambio, como aquél ingeniero que prefieren la regla de cálculo a la computadora. Al que sus compañeros de generación ven como un “bicho raro”. El criterio del profesor es abordar el veloz autobús de la modernidad utilizando las herramientas modernas de uso general para el tratamiento informático de datos. Con los riesgos que esto implica para el estudiante poco dedicado que supone, por simple pachorra mental, que la herramienta lleva implícita la base teórica que soportará las conclusiones y recomendaciones de los proyectos. 20
  • 21. 21 Entrando a la Hoja Electrónica A partir de este punto el estudiante podrá acceder al análisis de los datos que han sido recopilados durante un año de 280 gallinas adultas sujetas a la explotación de huevos para reproducción. El objetivo del ejemplo es mostrar al estudiante en que consisten las distribuciones de datos y las diferencias entre estas. El proyecto trata de una muestra trivariada, esto es, una observación que consiste en la recopilación de los tres datos en una gallina, a saber: X, El peso medio de los huevos; Y, El número de huevos viables ovopositados en una año por la gallina; Z, El número de machos que resultaron de la incubación de esos huevos.
  • 22. EL Intervalo de Clases. 22 Se iniciará el trabajo con la variable continua, el peso promedio de los huevos. Al ser un promedio, el resultado de una división, la variable se transforma en una variable continua o muy aproximadamente continua. La técnica que se ha desarrollado para observar las distribuciones de datos consiste en establecer un determinado número de clases, entre 5 y 15 considerando intervalos igualmente distanciados que incluyan a todos los individuos de la población. Después, de acuerdo a su valor, cada individuo se asignará a la clase correspondiente llevando un conteo que se acomodará en una tabla especialmente diseñada para el caso. Una regla empírica nos dice que un indicador del tamaño de las clases se puede obtenerse dividiendo la Desviación Estándar entre 2 y 4. Después dividir el Rango por este número y eligiendo el número de clases, usualmente entre 7 y 21. Se irán utilizando formulas y estadísticos que serán definidos en el momento oportuno, por el momento, se mostrarán las instrucciones de la HE y la fórmula.
  • 23. El Número de Clases 23 La Desviación Estándar es un estadístico que ofrece una idea de la variación de la población. Se identifica con una s y se obtiene en la HE mediante: Una idea del intervalo de clases o tamaño de clases se obtiene dividiendo por 2 y por 4. 14,3017 B291) : 2 DESVEST(B1 =  s 3,58 4 14,3017 4 7,15; 2 14,3017 2         s IC s IC Dividiendo el Rango = Máximo - Mínimo entre ambos Intervalos de Clase se obtendrán los números de clase extremos. 21 58 , 3 2 , 76 11 15 , 7 2 , 76 15 , 7 $B$291) : MIN($B$12 $B$291) : MAX($B$12             IC r NC IC r NC Se puede elegir un IC de manera que se puedan conseguir de 13 a 15 clases. Por ejemplo IC = 6 gramos, un número entero.
  • 24. Los Límites de las Clases 24 Para tener una perspectiva de las frecuencias de los pesos de los huevos, se acostumbra acomodar a los datos por su magnitud en un determinado número de clases. Usualmente se elige el valor mínimo para que sea el límite superior de la primera clase. Esto es: 13,5 1   Mínimo LS Que acomodará en la columna 3 (Columna D de la HE) titulada como Límite Superior. Después calculará el Límite Inferior de la clase 1 restando el intervalo de Clase: 5 , 7 6 5 , 13 1 1      IC LS LI Después se calcula el promedio de la primera clase: 10,5 2 5 , 13 5 , 7 2 1 1 1      LS LI x A cada uno de los límites se les suma el intervalo de clase hasta que el máximo caiga en la última clase.
  • 25. Rango de las Clases 25 El Rango de las Clases es una lista de límites de clases que determinará cuáles individuos, de acuerdo a los valores que presentaros, pertenecen a qué clase. El proceso siguiente es efectuar el conteo. Inspeccionar a cada dato y asignarlo a la clase correspondiente. (se le dejará a la computadora). Al llegar al final de los datos, cada valor habrá sido asignado a una clase y el número de individuos en una clase específica determinará la Frecuencia de la Clase. Y en conjunto, se habrá encontrado la distribución de frecuencias. Inferior Medio Superior 7,5 10,5 13,5 13,5 16,5 19,5 19,5 22,5 25,5 25,5 28,5 31,5 31,5 34,5 37,5 37,5 40,5 43,5 43,5 46,5 49,5 49,5 52,5 55,5 55,5 58,5 61,5 61,5 64,5 67,5 67,5 70,5 73,5 73,5 76,5 79,5 79,5 82,5 85,5 85,5 88,5 91,5 91,5 94,5 97,5 LÍMITES DE CLASES
  • 26. Cuadro o Tabla de Frecuencias 26 La HE ubica a cada gallina de la muestra en la clase correspondiente al peso promedio de sus huevos se obtiene la tabla de frecuencias en donde, bajo la columna Frecuencias se refiere el número de individuos de la clase. Como era de esperarse la suma de frecuencias es igual al número de individuos medidos: Frecuencias Inferior Medio Superior Observadas 7,5 10,5 13,5 0 13,5 16,5 19,5 3 19,5 22,5 25,5 3 25,5 28,5 31,5 15 31,5 34,5 37,5 23 37,5 40,5 43,5 24 43,5 46,5 49,5 41 49,5 52,5 55,5 50 55,5 58,5 61,5 42 61,5 64,5 67,5 36 67,5 70,5 73,5 19 73,5 76,5 79,5 15 79,5 82,5 85,5 7 85,5 88,5 91,5 2 91,5 94,5 97,5 0 Suma 280 LÍMITES DE CLASES                    15 1 280 0 2 7 15 19 36 42 50 41 24 23 15 3 3 0 i i f n
  • 27. Afinando el Cuadro de Frecuencias 27 Habrá notado que las columnas del límite inferior y el punto medio no se utilizaron. Sin embargo, debe considerar que cada clase forma un subconjunto acotado (limitado) con un punto central o punto medio o promedio que representa a todos los individuos de esa clase. Tratándose de una variable continua, los valores mínimos y máximos son, apenas, un par de valores entre muchos posibles y para poder ser graficados se debe considerar el mínimo factible que sería cero y el máximo factible que sería un número desconocido. Por otra parte, la manera de representar a una variable continua es mediante una línea sin interrupciones o por clases sin separaciones como se verá en los gráficos siguientes.
  • 28. Herramientas Gráficas 28 En estadística se acostumbra usar estas figuras. El Histograma es el diagrama de barras, donde cada barra representa el peso relativo de la distribución. Entre más alta la barra más individuos hay en la clase y más peso relativo. El polígono, aquí graficado como una línea suavizada representa el área bajo una curva continua. Hitograma y Polígono de Frecuencias de una variable continua 0 10 20 30 40 50 60 10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5 Peso del huevo en gramos Frecuencia de huevos
  • 29. Frecuencias Relativas 29 Nº Clase L. Inferior Pto. Medio L. Superior Absoluta Ascendente Descendente 0 7,5 10,5 13,4 0,0 0,0 100,0 1 13,5 16,5 19,4 1,1 1,1 98,9 2 19,5 22,5 25,4 1,1 2,1 97,9 3 25,5 28,5 31,4 5,4 7,5 92,5 4 31,5 34,5 37,4 8,2 15,7 84,3 5 37,5 40,5 43,4 8,6 24,3 75,7 6 43,5 46,5 49,4 14,6 38,9 61,1 7 49,5 52,5 55,4 17,9 56,8 43,2 8 55,5 58,5 61,4 15,0 71,8 28,2 9 61,5 64,5 67,4 12,9 84,6 15,4 10 67,5 70,5 73,4 6,8 91,4 8,6 11 73,5 76,5 79,4 5,4 96,8 3,2 12 79,5 82,5 85,4 2,5 99,3 0,7 13 85,5 88,5 91,4 0,7 100,0 0,0 14 91,5 94,5 97,4 0,0 100,0 0,0 Frecuencias Relativas Dividiendo cada frecuencia entre el total de individuos se obtiene la proporción o porcentaje (si se multiplica por 100) de individuos en cada clase. Si las frecuencias relativas se acumulan se obtienen las frecuencias acumulativas, útiles en procesos deductivos y para elaborar el siguiente gráfico.
  • 30. Las Ojivas o Frecuencias Acumulativas 30 Ojivas: Distribuciones relativas acumulativas 0 10 20 30 40 50 60 70 80 90 100 10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 Peso del huevo en gramos Porcentajes 0 10 20 30 40 50 60 70 80 90 100 Ascendente Descendente Las Ojivas son especialmente útiles para representar los estadígrafos de orden. Éstos son los que relacionan el número índice u ordinal con los valores de la variable. El estadígrafo de orden que mejor se comprende es la Medina. Valor que divide a los datos en dos subconjuntos con los mismos elementos. Está ubicada en la posición media de los estadígrafos de orden: Esto es, el valor que presenta la observación 140. Sin la ayuda de la HE, los datos se debían ordenar a mano y ubicar la observación, a la HE se le solicita.: 2 , 53 B291) : 2 MEDIANA(B1 = ~  x 5 , 140 2 1 280 2 1     n
  • 31. Utilidad de la Ojivas 31 Si la cantidad de observaciones es par, la mediana es el promedio del valor para el estadístico mediano x140 y el siguiente x141. En el ejemplo 1 , 53 ) $B$291;140 : NOR($B$12 K.ESIMO.ME = 140  x Y 53,3 ) $B$291;141 : NOR($B$12 K.ESIMO.ME = 141  x Por tanto: 2 , 53 2 3 , 53 1 , 53 2 ~ 141 140      x x x La Mediana en la ojiva se identifica por ser la línea que parte de los valores de los márgenes en 50% y cae en el eje x sobre el valor 53,2. De la misma manera se pueden obtener los cuartos o cuartiles y en general cualquier percentil mediante la fórmula, ejemplificada para los cuartiles;     75 , 210 100 75 ) 1 280 ( ; 25 , 70 100 25 1 280 ; 100 1 75 25         k k P n kp Solicitados a la HE: 025 , 63 $B$291;3) : $12 CUARTIL($B = ~ 43,75; $B$291;1) : $12 CUARTIL($B = ~ 75 25   x x
  • 32. Variables Estándar 32 Una alternativa para obtener valores relativos es estandarizar las variables, esto es, dividir la diferencia entre un dato yi con respecto al Promedio entre la Desviación Estándar. s x x z i i   Esta variable z posee unas características muy importantes en estadística, por el momento nos interesa saber que el promedio de las variables estandarizadas es 0 y que la desviación estándar es 1.   1 1 ; 0 1 2 1           n z z s n z z n i i z n i i
  • 33. La Normal Estándar 33 Lo trascendente de esta variable Z es que existe una Distribución de Probabilidad ampliamente estudiada en el Teoría Estadística que posee media 0 y varianza 1. Que como de mencionó en la diapositiva 18, todas las probabilidades bajo el área bajo la curva están determinadas. Entonces, si la distribución de datos estandarizada es similar a la distribución de probabilidad estadística, con esta se puede aproximar sin dificultad y efectuar estimaciones y proyecciones con probabilidades. La Distribución Normal Estándar tiene forma de campana, tal que también se le conoce como campana de Gaus [Carl Friedrich Gauss (30 Abril 1777 – 23 Febrero 1855)] . Es simétrica y se aproxima muy apropiadamente a variables biológicas, sociológicas, provenientes de procesos de fabricación y muchas otras de tipo continuo.
  • 34. Los Parámetros: La Media 34 Los Parámetros son valores que caracterizan de manera incompleta a las distribuciones de datos y por consiguiente a las poblaciones que les dieron origen. Por el momento interesa la media, o valor medio definido por: Fórmula para usar los datos de la tabla de frecuencias, y:      c i i c i i i f x f x 1 1 n x x n i i    1 Para datos sin agrupar.
  • 35. Los Parámetros: La Varianza 35 Valor que es un promedio ajustado de las desviaciones cuadráticas de las observaciones con respecto a la media, definida por: Para datos agrupados en las tablas de frecuencias, y: Para datos individuales. Al momento se usarán las fórmulas para la tabla de frecuencias.   1 1 1 2 2              m i i m i i i f x x f s                                   n i n i i i n I i n x x n n x x s 1 2 1 2 1 2 2 1 1 1
  • 36. El Cálculo de Media y Varianza. 36 Frecuencias Inferior Medio Superior Observadas f * xi f(xi - xm)² 7,5 10,5 13,5 0 0,0 0,0 13,5 16,5 19,5 3 49,5 4.014,0 19,5 22,5 25,5 3 67,5 2.805,1 25,5 28,5 31,5 15 427,5 9.061,6 31,5 34,5 37,5 23 793,5 7.938,8 37,5 40,5 43,5 24 972,0 3.797,3 43,5 46,5 49,5 41 1906,5 1.774,4 49,5 52,5 55,5 50 2625,0 16,7 55,5 58,5 61,5 42 2457,0 1.234,5 61,5 64,5 67,5 36 2322,0 4.696,2 67,5 70,5 73,5 19 1339,5 5.766,6 73,5 76,5 79,5 15 1147,5 8.228,4 79,5 82,5 85,5 7 577,5 6.059,3 85,5 88,5 91,5 2 177,0 2.509,4 91,5 94,5 97,5 0 0,0 0,0 Estadísticos: n = suma frecuencias 280 Suma de cuadrados 57.902,27 Suma total 14.862,0 Varianza 207,54 Promedio 53,08 Desviación Estándar 14,41 LÍMITES DE CLASES
  • 37. Propiedades de la Media 37 La propiedad más importante del valor promedio es: La suma de las desviaciones de las observaciones con respecto al promedio es cero; Esta propiedad divide a la distribución de los datos en dos secciones con la misma probabilidad ,50% de valores inferiores al promedio y 50% superiores al promedio (la Mediana lo hace con las unidades de la muestra). Otra implicación importante es que la suma de cuadrados de las desviaciones de las observaciones con respecto a la media en mínima.              n i n i x x x x x x d D 1 2 1 0 ) ( ... ) (               n i n SC x x x x x x d D i 1 2 2 2 2 1 2 2 ) ( ... ) ( La Media, junto con la Mediana y la Moda son los tres parámetros de posición que se presentan al centro de las distribuciones.
  • 38. Propiedades de la Varianza 38 El promedio ajustado de las desviaciones cuadráticas tiene la propiedad de ser la suma cuadrática mínima en una distribución. Al requerir del cálculo previo de la media, sus propiedades están sujetas a las propiedades de la media, por esto a la primera se le llama Primer Momento y a la segunda Segundo Momento Muestrales. Por si sola la varianza no indica valores útiles, al sacársele la raíz cuadrada se obtiene la Desviación Estándar que es un indicador de la variación de la población. Se espera que en el intervalo de más y menos una Desviación Estándar del promedio se ubiquen poco más o menos el 68% de los datos como se puede comprobar en la HE. Por tanto, cuando en trabajos de investigación se observe la expresión:   s x  Debe entenderse, para el caso del ejemplo:   % 68 48 , 67 67 , 38 Pr    X obabilidad
  • 39. Ajustando la Distribución Esperada 39 Como se apuntó, la importancia de las distribuciones de datos se centra en que puedan ser emuladas o aproximadas por alguna Distribución Estadística de Probabilidad. En la HE se efectúa todo un proceso para crear el gráfico que compara las distribuciones Observada y Teórica o Esperada. Se observa que hay semejanza entre las distribuciones de datos como lo confirma la prueba estadística utilizada de chi- cuadrada que indica un 84,66% de que las frecuencias observadas y esperadas se parezcan. Estadísticamente suficiente para considerarlas iguales. Distribuciones del peso de huevo 0 10 20 30 40 50 60 10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5 Peso en gramos Frecuencias Esperada Observada
  • 40. 1.40 La Importancia de que las distribuciones se consideren iguales. 40 Cuando las distribuciones de datos se considera que es similar a una Distribución Estadística de Probabilidad la labor del investigador se facilita enormemente pues puede utilizar todo el acerbo de la Ciencia Estadística para Aproximarse a una población real conociendo perfectamente las probabilidades que respaldan las Conclusiones y Recomendaciones. Cuando no es así, la Teoría Estadística proporciona herramientas para obtener Conclusiones y Hacer Recomendaciones con probabilidad conocida, sin embargo, bajo una serie de restricciones que pueden reducir de manera importante el ámbito de utilidad.
  • 41. Conclusión para la Variable: Peso promedio del Huevo 41 Debe tenerse presente que la variable es de tipo continuo y que deberá simularse con una Distribución Estadística de tipo continuo. -La Distribución del peso de los huevos es de forma acampanada, similar a una distribución estadística que se conoce como La Normal. -Gráficamente, las distribuciones de frecuencias observadas y las esperadas calculadas utilizando la distribución son muy similares -La prueba estadística de 2 indica una probabilidad similitud de 84,66% -Se puede utilizar la Distribución Normal Estándar o La Normal para analizar los resultados del proyecto.
  • 42. La Variable Cualitativa: Sexo del Producto. 42 Se tratará la variable cualitativa que dio origen al proyecto: La alta proporción de machos para una raza de gallinas productora de carne. Se espera que al menos sea de 70% de nacimientos de machos viables. Esto significa que el 30% restante incluye nacimientos de hembras y productos no viables. Es evidente que únicamente hay dos resultados posibles: 1 si el producto es un macho viable y 0 si el producto no es un macho viable, por esto se utilizará la distribución Binomial para aproximar los datos.
  • 43. La Distribución Binomial 43 La Distribución de Probabilidad Binomial está definida por: Donde p es la proporción de que un suceso ocurra —que el producto sea un macho— q = (1 – p) la proporción de que el suceso no ocurra. Y rCn que indica las r combinaciones en que pueden intercambiarse los sucesos en n muestras denominado Coeficiente Binomial. Para el caso se toman los sucesos de 10 huevos acomodados en una charola de la incubadora. Así se presentarían los datos, recordando que 1 (uno) significa que el producto es un pollito que al menos llegará a las granjas de los avicultores.           n x x n x n x q p x F 0 ) (
  • 44. Cuadro de Frecuencias y Estadísticos 44 El cuadro de frecuencias proporciona una idea de la distribución y los estadísticos necesarios para valorar la hipótesis: Ho; X ~B(np; npq) La variable X se distribuye Binomial, con media np = 10  0.7 = 7 y varianza npq = 10  0,7  0,3 = 2,1. Por tanto, la distribución que aproxime a los datos será una binomial con un muestra de tamaño n = 10, y una proporción de pollitos machos viables de 0,7 o 70%. Evento Frecuencia Sumas x machos Observada Parciales 0 0 0 1 0 0 2 0 0 3 0 0 4 1 4 5 3 15 6 4 24 7 6 42 8 6 48 9 7 63 10 1 10 Estadísticos Número de bandejas 28 Suma Total de pollitos machos 206 Promedio de pollitos por bandeja 7,36 Tamaño de la muestra n 10 Proporción de pollitos machos viables 0,7357 Proporción no viable 0,2643
  • 45. Las Probabilidades Binomiales 45 Las operaciones para obtener las probabilidades binomiales se detallan en la HE. Con estas, se elabora un cuadro que permitirá determinar si la distribución de frecuencias del evento que el producto sea un macho viable pueda aproximarse mediante la Distribución de Probabilidades Binomial. Para esto se comparan las frecuencias esperadas que se obtienen multiplicando la probabilidad para cada evento x por el número de muestras de tamaño 10 —charolas de incubación— observadas, con las frecuencias observadas mediante la prueba de 2. NOTA: Se recuerda al estudiante que el capítulo está orientado a conocer las distribuciones de datos. Las pruebas debe utilizarlas como herramientas.
  • 46. El Cuadro con la Prueba de Bondad de Ajuste 46 La prueba estadística de 2 indicó una probabilidad de 0,8915 o 89,15% de que los nacimientos de pollitos machos se distribuyan como una Binomial. En términos estadísticos, no hay evidencia para rechazar la hipótesis Ho; X~B(np = 7; npq = 2,1) con nivel de confianza del 5%. Notará que además de la distribución se ha valorado la proporción. Esto es, el p = 0,7353 puede considerarse como 0,7. Ensayos 10 Probabilida 0,7 Evento Probabilida Chi_Cuadrada x machos del Evento Esperadas Observadas Diferencia Parcial 0 0,0000 0,0 0 0,0 0,0002 1 0,0001 0,0 0 0,0 0,0039 2 0,0014 0,0 0 0,0 0,0405 3 0,0090 0,3 0 -0,3 0,2520 4 0,0368 1,0 1 0,0 0,0008 5 0,1029 2,9 3 0,1 0,0049 6 0,2001 5,6 4 -1,6 0,4588 7 0,2668 7,5 6 -1,5 0,2897 8 0,2335 6,5 6 -0,5 0,0442 9 0,1211 3,4 7 3,6 3,8452 10 0,0282 0,8 1 0,2 0,0553 Sumas 1,0000 28,0 28 0,0 4,9954 Probabilidad de la Chi-Cuadrada 0,8915 Frecuencias
  • 47. 1.47 Un gráfico siempre es de ayuda. 47 Elaborando un Histograma con las frecuencias observadas en guinda y las esperadas en azul se aprecia una tendencia similar. Como en el caso de la distribución Normal, los resultados del proyecto pueden analizarse utilizando la distribución de probabilidad Binomial. Una conclusión que facilitará enormemente el análisis y la conclusión de proyecto en lo tocante al número de pollitos machos. Es importante hacer notar al estudiante que los gráficos de conteo deben presentarse usando barras. Esto indicará al lector que se trata de una distribución de cualidades. Frecuencias Binomiales p = 0,7 en el nacimiento de pollitos machos para engorda 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 10 Número de machos viables / 10. Frecuencia en 28 bandejas Esperadas Observadas
  • 48. La variable Discreta Número de Huevos 48 Cuando se trabaja con variables cuya distribución brinca al menos por unidades debe tenerse cuidado. Casi siempre y sin mucho análisis, se trabajan como distribuciones continuas y más específicamente como distribuciones normales por la facilidad que esto implica. El experimentador deberá tener, siempre en consideración, que está trabajando con una variable discreta que salta de unidad en unidad, pues las gallinas no ponen medios huevos. Aun cuando los estadísticos indiquen fracciones o sean elementos de los números racionales. Para este ejemplo se iniciará solicitando a la HE el cómputo de las Estadísticas Descriptivas.
  • 49. Estadísticas Descriptivas 49 Los estadísticos importantes para determinar si la distribución de los datos puede aproximarse mediante una distribución normal son: La Media, La Mediana, La Moda, como parámetros de tendencia central también llamados de posicionamiento. Huevos Media 178,436 Error típico 3,581 Mediana 180 Moda 180 Desviación estándar 59,922 Varianza de la muestra 3.590,706 Curtosis 0,002 Coeficiente de asimetría -0,075 Rango 324 Mínimo 18 Máximo 342 Suma 49.962 Cuenta 280 El Coeficiente de Asimetría o Sesgo (valores críticos 0,230(5%) 0,360(1%)); y el Coeficiente de Curtosis con valores críticos de (-0,41 a +0,47 (5%) y -0,50 a +79 (1%).
  • 50. Las Medidas de Posicionamiento 50 Se presume que una distribución de datos se parece a una distribución normal cuando las medidas de posicionamiento están muy próximas: Sí la Media, Mediana y Moda son iguales, al menos se presume que se tiene un distribución perfectamente centrada; Sí el orden ascendente de los estadísticos es Moda, Mediana y Media se presume una cola a la derecha más larga: Si el orden ascendente de los estadísticos Media, Median y Moda se presume una cola izquierda más larga. En general en una distribución asimétrica, la Media con respecto a la Moda tiende a situarse al mismo lado que la cola más larga. En el ejemplo con Media = 178,4 huevos / año, Mediana 180 huevos / año y Moda = 180 huevos año se puede considerar una distribución centrada. Siendo muye exigentes se puede presumir una distribución con sesgo negativo.
  • 51. El Coeficiente de Curtosis 51 El Coeficiente mide: El alargamiento o estrechamiento de una distribución de datos con respecto a una distribución normal de los mismos datos. Entre más se aproxime la distribución de los datos a una normal más próximo a 3 será el coeficiente. O a 0 cuando se corrige. Según la tabla de para la valoración de la curtosis mediante los valores ajustados y para un nivel de confianza de 95% el coeficiente de curtosis debe mantenerse entre –0,41 y 0,47 para aceptar que la distribución se parece, por su estrechez a una normal. En el ejemplo se Acepta que la distribución es semejante a una normal.
  • 52. El Coeficiente de Sesgo o Asimetría 52 El Coeficiente mide: La simetría de una distribución de datos con respecto a una normal. Este coeficiente siempre se valora con respecto a un valor cero en el que la distribución es, además de centrada simétrica. En el ejemplo el coeficiente de asimetría o sesgo es de – 0,0752 que para la valoración debe tomarse como valor absoluto. El límite teórico de la distribución del estadístico para n = 300 es de 0,23. Cómo 0,0752 es menor que 0,23, debe aceptarse que la distribución de datos es simétrica con respecto a la normal.
  • 53. La Recomendación para las Distribuciones Discretas. 53 Tomando en cuenta el origen biológico de la variable y = número de huevos en una año de 365 días por gallina y los estadísticos que se acaban de valorar puede concluirse que la variable sigue una distribución normal. No obstante, es conveniente que el investigador obtenga una visión más directa mediante el gráfico de la distribución de datos y los estadísticos de posicionamiento y los coeficientes de sesgo y curtosis desde datos agrupados en una distribución de frecuencias. Este proceder es recomendable en análisis de resultados de una distribución absolutamente discreta.
  • 54. El Histograma. 54 El gráfico simple muestra una distribución muy similar a una campana, característica de distribuciones de datos que se parecen a una distribución normal. Es conveniente que las barras que representan el peso relativo de cada subclase no se unan, indicando con esto, que se trata de una distribución discreta. Así mismo, no es conveniente unir las cúspides de las barras con la línea del polígono de frecuencias. Histograma de una variable discreta 0 10 20 30 40 50 60 70 12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5 Número de huevos (gallina por año) No de Gallinas
  • 55. Estadísticos con Datos Agrupados 55 Frecuencia Inferior Medio Superior Observada 0 12,5 25 3 37,5 83.363,10 -63,56 175,87 25 37,5 50 4 150,0 80.311,51 -52,05 122,42 50 62,5 75 5 312,5 68.090,28 -36,34 70,40 75 87,5 100 12 1.050,0 100.898,82 -42,32 64,41 100 112,5 125 30 3.375,0 133.452,41 -40,71 45,07 125 137,5 150 25 3.437,5 43.464,80 -8,29 5,74 150 162,5 175 48 7.800,0 13.380,99 -1,02 0,28 175 187,5 200 58 10.875,0 3.999,06 0,15 0,02 200 212,5 225 34 7.225,0 37.710,35 5,74 3,18 225 237,5 250 27 6.412,5 91.781,27 24,47 23,69 250 262,5 275 17 4.462,5 117.971,25 44,95 62,15 275 287,5 300 13 3.737,5 152.485,63 75,53 135,79 300 312,5 325 2 625,0 35.539,68 21,67 47,95 325 337,5 350 2 675,0 50.120,04 36,29 95,36 Número de observaciones 280 Sumas de cuadrados 1.012.569,20 Suma Total 50.175,0 Varianza 3.629,28 Promedio de huevos 179,20 Desviación Estándar 60,24 Mediana 180,8 C. Asimetría -0,128 Moda 182,4 C. Curtosis 0,089 LÍMITES DE CLASES i i x f 2 ) ( x x f i i  3        s x x f i i 4        s x x f i i
  • 56. Interpretación 56 Se han señalado en el histograma los estadísticos de posición y dos líneas en la parte inferior del mismo tamaño para hacer evidente la asimetría también llamada sesgo señalada con una llave invertida. Recodaremos que no es significante. La asimetría toma de referencia a la normal indicando una anormalidad de la distribución de los datos con respecto a la teórica. Los coeficientes de forma indican que las diferencias se deben al azar pudiendo, por tanto, utilizar a la distribución Normal Estándar en proceso de análisis, interpretación y predicción. Histograma de una variable discreta 0 10 20 30 40 50 60 70 12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5 Número de huevos (gallina por año) No de Gallinas Media = 179,2 Mediana = 180,8 Moda = 182,4 Asimetria o Sesgo a la izquierda
  • 57. La Prueba de Bondad de Ajuste. 57 Si hubiera dudas se debe hacer la prueba de “Bondad de Ajuste” de las frecuencias esperadas y observadas mediante la Chi-Cuadrada. Para declarar que la distribución de datos no se asemeja a una normal la probabilidad de 2 debe ser inferior a 0,05 0 5%. Para todos los efectos la variable Y se opera como una variable continua con valores límites en el conjunto de los reales. Probabilidad Chi-Cuadradas Inferior Superior Inferior Superior del intervalo Esperadas Observadas parciales 0 25 0,0000 0,0052 0,0052 1,5 3 0,7268 25 50 0,0052 0,0160 0,0108 3,0 4 0,0795 50 75 0,0160 0,0419 0,0259 7,2 5 0,4183 75 100 0,0419 0,0943 0,0525 14,7 12 0,3269 100 125 0,0943 0,1842 0,0898 25,2 30 0,7505 125 150 0,1842 0,3140 0,1298 36,3 25 3,2363 150 175 0,3140 0,4722 0,1583 44,3 48 0,2289 175 200 0,4722 0,6351 0,1628 45,6 58 3,1080 200 225 0,6351 0,7765 0,1414 39,6 34 0,6542 225 250 0,7765 0,8801 0,1036 29,0 27 0,0783 250 275 0,8801 0,9441 0,0641 17,9 17 0,0105 275 300 0,9441 0,9775 0,0334 9,4 13 1,0555 300 325 0,9775 0,9922 0,0147 4,1 2 0,6367 325 350 0,9922 1,0000 0,0078 2,2 2 0,0497 Sumas 1,0000 280,0 280 11,3602 Probabilidad de Chi_Cuadrada 0,5807 LÍMITES DE CLASES Probabilidad a los límites Frecuencias
  • 58. Conclusión 58 Éste capítulo hace referencia a las distribuciones de los datos. Se han utilizado formulas, algunas muy complejas que requiere la teoría estadística para analizar resultados de pruebas y proyectos, pero fácilmente computables o obtenibles mediante funciones o algoritmos de la HE. Se han abordado los tres tipos de datos: continuos, discretos y cualitativos asociando la distribución de datos observadas con las distribuciones estadísticas de mayor uso puntualizando criterios para determinar si tal o cual distribución estadística puede utilizarse para estudiar los resultados obtenidos a partir de conjuntos de datos de una población objetivo. Se ha concluido con respecto a las implicaciones estadísticas de las tres variables ejemplificadas.
  • 59. Recomendación 59 Se recomienda al estudiante que entienda la notación matemática en las fórmulas para que pueda aplicarla en la HE sin reparar en la complejidad de la misma. Esto con el objeto de considerar a las fórmulas de cálculo de estadísticos como herramientas. También se ha recomendado al estudiante que ponga atención en el significado de cada estadístico para que pueda interpretar y concluir desde los análisis de los resultados. El estudiante habrá notado que la HE posee una gran cantidad de funciones y rutinas estadísticas y matemáticas que le facilitan el análisis de resultados de conjuntos de datos provenientes de exploraciones o de técnicas de experimentación: Utilícelas.
  • 60. Recordatorio 60 Se recuerda al estudiante que la charla es una manera menos formal de enseñar la teoría estadística y su aplicación a resultados de proyectos de exploración o de experimentación de poblaciones. Puede consultar la parte formal del tema proporcionado por el profesor en el archivo de “Word” que lleva explicaciones exhaustivas del tema, complemento del “PowerPoint” y Excel. Si aun quiere practicar y profundizar sobre temas menos rigurosos, puede adquirir el libro electrónico del curso de Métodos Estadísticos con Excel.
  • 61. Distribuciones de Datos Módulo Métodos Estadísticos Apuntes de Estadística Aplicada con EXCEL. Manuel Pontigo Alvarado. ITCR. 2005