SlideShare una empresa de Scribd logo
1 de 74
Descargar para leer sin conexión
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
1. INTRODUCCIÓN
La presente investigación se refiere al tema de la Estadística, que se puede definir es la
ciencia cuyo objetivo es reunir una información para facilitar al hombre el estudio
de datos masivos de individuos, grupos, series de hechos, etc. y deducir de ello gracias
al análisis de estos datos unos significados precisos o unas previsiones para el futuro.
También se refiere a la importancia, métodos e importancia de la estadística ya que está
relacionada con el estudio de proceso cuyo resultado es más o menos imprescindible y con
la finalidad de obtener conclusiones para tomar decisiones razonables de acuerdo con tales
observaciones
La Estadística se ocupa de los métodos científicos para recolectar, organizar, resumir,
presentar y analizar datos, así como de sacar conclusiones válidas y tomar decisiones con
base en este análisis, así también realizar predicciones a cerca del conjunto del cual se han
seleccionado dichos datos. El empleo cuidadoso de los métodos estadísticos permite obtener
información precisa de los datos
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
2. OBJETIVOS
2.1.OBJETIVO GENERAL
 Comprenderla importancia del estudio de la historia de la estadística, para lo cual es
necesario un recorrido por sus conceptos, métodos e importancia y más definiciones,
con el fin de acercarnos un poco más al tema de la Estadística.
 Conocer sobre el tema con el cual se trabajara a lo largo del semestre en aplicable a
la contabilidad.
 Aplicar apropiadamente los métodos estadísticos en la recolección de información
y procesos matemáticos básicos en cálculos estadísticos.
 Adquirir los conocimientos y habilidades sobre el tema, ser capaz de reconocer los
elementos habituales de la estadística
 Aplicar los fundamentos básicos para realizar un buen trabajo en clase.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
3. GRÁFICOS ESTADÍSTICOS
Los gráficos son medios popularizados y a menudo los más convenientes para presentar
datos, se emplean para tener una representación visual de la totalidad de la información. Los
gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se pueda
percibir fácilmente los hechos esenciales y compararlos con otros.
3.1.TIPOS DE GRÁFICOS ESTADÍSTICOS
3.1.1. GRÁFICOS DE BARRAS VERTICALES
(Llamados por algún software de columnas)
Representan valores usando trazos verticales,
aislados o no unos de otros, según la variable a
graficar sea discreta o continua. Pueden usarse
para representar:
 una serie
 dos o más series (también llamado de barras
comparativas)
3.1.2. GRÁFICOS DE BARRAS HORIZONTALES
Representan valores discretos a base de trazos
horizontales, aislados unos de otros. Se utilizan
cuando los textos correspondientes a cada
categoría son muy extensos.
 para una serie
 para dos o más series
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
3.1.3. GRÁFICOS DE BARRAS PROPORCIONALES
Se usan cuando lo que se busca es resaltar la
representación de los porcentajes de los datos que
componen un total.
Las barras pueden ser:
 Verticales
 Horizontales
3.1.4. GRÁFICOS DE BARRAS COMPARATIVAS
Se utilizan para comparar dos o más series, para
comparar valores entre categorías.
Las barras pueden ser:
 Verticales
 Horizontales
3.1.5. GRÁFICOS DE BARRAS APILADAS
Se usan para mostrar las relaciones entre dos o
más series con el total.
Las barras pueden ser:
verticales
 horizontales
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
3.1.6. GRÁFICOS CIRCULARES
Estos gráficos nos permiten ver la distribución
interna de los datos que representan un hecho, en
forma de porcentajes sobre un total. Se suele
separar el sector correspondiente al mayor o menor
valor, según lo que se desee destacar.
Se pueden ser:
 En dos dimensiones
 en tres dimensiones
3.1.7. HISTOGRAMAS
Estos tipos de gráficos se utilizan para representa
distribuciones de frecuencias. Algún software
específico para estadística grafican la curva de gauss
superpuesta con el histograma.
3.1.8. OTROS GRÁFICOS
En esta categoría se encuentran la mayoría de los gráficos utilizados en publicidad. Se
los complementa con un dibujo que esté relacionado con el origen de la información a
mostrar. Son gráficos llamativos, atraen la atención del lector.
EJEMPLO 2
Gráfico Circular.
El gráfico circular es útil para representar proporciones de distintas clases dentro de una
muestra. La muestra es representada por un círculo y cada una de las clases que la
componen, por un sector de éste. El ángulo de cada sector mantiene la misma proporción
de 360° que la de la clase representada respecto del tamaño total de la muestra.
A modo de ejemplo, a los estudiantes deben aprender lo siguiente: si una clase
corresponde al 25% del total de la muestra, le corresponderá un sector del círculo cuyo
ángulo sea de 90°, exactamente el 25% de 360°. El gráfico siguiente,
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
representa la respuesta de 1886 alumnos de Cuarto Medio al preguntárseles por
su interés de seguir estudios universitarios. Los datos corresponden a alumnos que
cursaban Cuanto Año Medio en el año 1997 en 7 localidades de la V región (Valparaíso,
Viña del Mar, Quilpué, Villa Alemana, Limache, Quillota, La Calera) y en establecimientos
de tipo Municipalizado, Subvencionado y Particular.
De los 1886 alumnos encuestados, 1768 (93.74%) se interesa por seguir estudios
universitarios. Los restantes 118 (6.26%), no.
Para construir el gráfico circular, debemos calcular el ángulo central del sector
correspondiente a cada respuesta. Para el caso de los 1768 Interesados en estudios
universitarios su proporción respecto de la muestra total (93.74%) nos permite
determinar que su ángulo del centro es 337º 28’ 34.1” y por lo tanto, el complemento a
360º (22º 31’ 25.9”) representa a los No Interesados. Hecho este cálculo, con un
transportador se puede hacer un La facilidad de graficación presente en los computadores
personales de hoy día, ha permitido ampliar fuertemente la capacidad de representar
datos con mejores características estéticas. Lo anterior en sí, constituye una cualidad muy
ventajosa.
Sin embargo, en peligroso dejarse llevar sólo por consideraciones estéticas al momento de
graficar una información. Es así que muchas veces se tiende a usar gráficos circulares en
perspectiva, con un dibujo que representa a un disco inclinado en tres dimensiones, de
modo que su cara superior se ve como una elipse. Si bien tiene un aspecto visual agradable,
no es recomendable usarlo, pues desde el punto de vista de la representación de la
información contenida en la muestra, se produce una distorsión.
A modo de ejemplo, se construye un nuevo gráfico circular para los datos anteriores, ahora
en perspectiva.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Como puede verse, el 6.26% ’No Interesado’ tiene aquí una cobertura visual algo mayor
que en el dibujo anterior. Pero, si se cambia la orientación del dibujo central, se tiene una
representación en que los casos ‘No Interesado’ se ven disminuidos.
Estas variaciones de la representación causadas por un giro del gráfico, no están presente
en el caso del círculo en posición normal y, por lo tanto, este último es más fidedigno como
resumen informativo visual. Como conclusión, a pesar de su simplicidad, los gráficos
circulares deben ser construidos teniendo especial cuidado en resguardar su capacidad de
representar sin distorsiones la información original.
3.11.4 Diagrama de Dispersión
El diagrama de dispersión es una herramienta de análisis la cual representa en forma gráfica
la relación existente entre dos variables pudiendo observar la dependencia o influencia que
tiene una variable sobre la otra, permitiendo visualizar de forma gráfica su posible
correlación. Conocidos también como gráficos XY es una herramienta de análisis utilizado
generalmente en el área de la gestión de calidad con el objeto de encontrar las relaciones de
las causas que producen un efecto.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Tal y como hemos citado en la definición anterior el diagrama de dispersión nos indica la
relación existente entre dos variables, y por lo tanto si traducimos estas dos variables
a grupos de datos, podemos relacionar grupos de datos con el objeto de verificar o averiguar
que existe una relación entre ambos y como es esta relación de forma aproximada.
Los diagramas de dispersión se emplean para:
 Observar el grado de intensidad en la relación entre dos variables, esta relación puede
ser entre un efecto y una de las supuestas causas que lo producen o para ver la relación
entre dos causas que provocan un mismo efecto.
 Visualizar rápidamente cambios anómalos.
 Analizar determinadas cuestiones mediante comparaciones.
A Nivel Pedagógico: Modo de aplicación
Los pasos a seguir para construir un diagrama de dispersión son:
 Seleccionar las 2 variables que se van relacionar.
 Establecer una hipótesis de la posible relación entre ambas.
 Construir una tabla que nos relacione los valores de ambas variables por parejas. Si
no disponemos de dichos datos será necesario realizar una toma.
 Dibujar el diagrama poniendo una variable en cada uno de los ejes cartesianos (x,y)
con una escala de valores que se ajuste a los datos que se dispone.
 Representar en el gráfico cada par de valores por un punto.
 Encontrar la correlación analizando la tendencia de la nube de puntos y la correlación
entre las variables.
Hoy en día gracias a la informática disponemos de programas basados en hojas de
cálculo como Excel, Numbers o Calc que te permiten realizar rápidamente un diagrama de
dispersión con solo introducir los datos de las variables.
Interpretación del diagrama de dispersión
Una vez que se ha realizado el diagrama de dispersión la forma que adquiera la nube de
puntos nos permitirá analizar la relación entre las 2 variables o grupos de datos, pudiendo
obtener las siguientes figuras e interpretaciones:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
 Correlación positiva - Se observa como la nube de puntos obtenida adquiere una
forma de recta creciente, cuando los puntos de la nube se encuentra próximos a la
recta se le conoce como fuerte, en el caso que se encuentren distantes a la recta es
conocida como débil. Por ejemplo la relación existente entre la altura y el peso de
una persona es positiva a mayor altura mayor peso.
 Correlación negativa - Al contrario del caso anterior se observa como la nube de
puntos obtenida adquiere una forma de recta decreciente, cuando los puntos de la
nube se encuentra próximos a la recta se le conoce como fuerte, en el caso que se
encuentren distantes a la recta es conocida como débil. Por ejemplo la relación
existente para los fumadores entre el número de paquetes de tabaco al mes y los años
de vida es negativa dado que a mayor cantidad de tabaco fumado menor esperanza de
vida.
 Correlación compleja - La nube de puntos obtenidas adquiere forma de curva, elipse
u otra forma geométrica.
 Correlación nula - Se observa una distribución de la nube de puntos con una forma
circular, indicándonos la no existencia de relación entre ambas variables. Por ejemplo
la relación existente entre el color de los ojos y el tamaño del pie es nula.
Curvas de frecuencias
 Frecuencias relativa.
 Frecuencias acumuladas.
 Curvas de frecuencias u ojivas.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
 Tipos de curva de frecuencias
3.11.5 Frecuencias Relativas
A Nivel Pedagógico el estudiante debe reconocer que: La frecuencia relativa de una clase es
la frecuencia de la clase dividida por el total de frecuencias de todas las clases y se expresa
generalmente como el porcentaje.
 Ejemplo: La frecuencia relativa de 66-68 de la tabla es
 14/80 =0,175
 17,5%
 La suma de todas las frecuencias de todas las clases da 100%
3.11.6 Frecuencias Acumuladas
La frecuencia total de todo los valores menores que el límite real superior de clase de un
intervalo inclusive. Por ejemplo: la frecuencia acumulada hasta el intervalo de clase 66 -68
inclusive en la tabla es 12 + 16 + 14 = 42, el significado es que 42 estudiantes tienen alturas
menores a 68,5.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
La tabla que representa las frecuencias acumuladas se llama distribución de frecuencias
acumuladas.
Hay casos que es preferible considerar una distribución de frecuencia acumulada de todos
los valores mayores o iguales al límite inferior real
3.11.7 Frecuencias Relativas Acumuladas
Es frecuencia acumulada dividida por el total de frecuencias se expresa generalmente como
el porcentaje.
Ejemplo: La frecuencia relativa de 66-68 de la tabla de frecuencias acumuladas menor que
es: 42/80 =0,525 ( 5 La última frecuencia acumulada que es “menor que 74,5” da 100%
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Tipos de Curvas de Frecuencias: Las curvas de frecuencias presentan determinadas formas
características:
1. Las curvas de frecuencias simétricas o bien formadas se caracterizan por el hecho de que
las observaciones del máximo central tienen las mismas frecuencias.
2. Las curvas de frecuencias moderadamente asimétrica se caracterizan por la cola de la
curva a un lado del máximo central es mayor.
3. Las curvas en forma de J o de J invertida, el máximo se presenta en un extremo.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
4. Las curvas en forma U, tiene el máximo en ambos extremos.
5. Las curvas de frecuencias bimodal, tiene dos máximo.
6. Las curvas de frecuencias multimodal, tiene más de dos máximo.
Los histogramas son herramientas estadísticas que nos permiten visualizar gráficamente y
rápidamente la distribución de un estudio realizado, los histogramas son
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
representaciones gráficas por medio de barras verticales, de una distribución de frecuencias
de una variable continua. Cada una de las barras refleja un intervalo o clase y la altura de las
barras representadas es proporcional a la frecuencia (número de veces) con que aparecen
los valores en cada uno de los intervalos.
Los histogramas también se le conocen con el nombre de “Diagramas de distribución de
frecuencias”.
Los Histogramas, son utilizados como una herramienta que ayuda en la toma de decisión para
la resolución de problemas, mediante el histograma se puede identificar las pautas
de comportamiento del conjunto de los datos y extraer conclusiones, así los histogramas la
cual nos permite:
 Realizar un análisis de distribución de datos.
 Comprobar el grado de cumplimiento de las especificaciones.
 Evaluar la eficacia de las soluciones.
A Nivel Pedagógico:
Previo a la explicación de los pasos a seguir para elaborar un histograma, el estudiante debe
conocer algunos conceptos previos como:
 Recorrido o rango ®: es el valor resultante de restar el valor máximo y el mínimo.
 Clase (k): es la dimensión de un intervalo de variabilidad de los datos.
 Frecuencia: número de elementos comprendidos en una determinada clase.
 Los pasos a seguir son:
 Recoger todos los datos (N) en una hoja de datos, en los histogramas se trabaja con
datos, a menudo, con tiempos, pesos, tamaños…, y por lo tanto cuantos más datos
obtengamos más exacto será el Histograma. El número total de valores se denominará
“N”.
 Obtener los valores máximo (Vmáx.) y mínimo (Vmín.).
 Establecer el recorrido o rango ® de la siguiente forma: R = Vmáx. – Vmín, como
vemos en la fórmula, simplemente deberemos restar el valor máximo de los datos
obtenidos del valor mínimo.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
 Determinar el número de clases (k) que queremos que exista, con este dato
determinaremos las barras que queremos que aparezcan en el Histograma,
facilitándonos cuantas clases o grupos tenenos.
 Calcular la amplitud de cada clase de la siguiente manera: i = R / k.
 Redondear, al valor entero superior, si el resultado no es exacto en términos de la
unidad.
 Establecer los valores de los límites de clase.
 Construir una tabla de distribución de frecuencias y asignar los datos obtenidos a su
clase correspondiente, al hacerlo podemos encontrarnos con el problema de que
tengamos valores en el límite entre una clase y otra, y no sepamos a cuál de las dos
clases asignarlo, en este caso se recomienda asignar estos datos a una de las dos clases,
la inferior o la superior, pero siempre con el mismo criterio, para no desvirtuar el
gráfico.
 Construir los ejes del histograma, para construirlos seguiremos los siguientes
criterios, en el eje horizontal se colocan los valores de las marcas de clase y sobre el
eje vertical se colocan los valores de las frecuencias.
 Trazar los rectángulos correspondientes, una vez se hayan determinado los intervalos
y sepamos cuántas mediciones caen dentro de cada intervalo, deberemos poner los
rectángulos en función de los ejes del histograma.
3.11.8 Histogramas
Los histogramas son herramientas estadísticas que nos permiten visualizar gráficamente y
rápidamente la distribución de un estudio realizado, los histogramas son representaciones
gráficas por medio de barras verticales, de una distribución de frecuencias de una variable
continua. Cada una de las barras refleja un intervalo o clase y la altura de las barras
representadas es proporcional a la frecuencia (número de veces) con que aparecen los
valores en cada uno de los intervalos.
Los histogramas también se le conocen con el nombre de “Diagramas de distribución
de frecuencias”
Los Histogramas, son utilizados como una herramienta que ayuda en la toma de decisión para
la resolución de problemas, mediante el histograma se puede identificar las pautas de
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
comportamiento del conjunto de los datos y extraer conclusiones, así los histogramas la cual
nos permite:
 eberemos pRealizar un análisis de distribución de datos.
 Comprobar el grado de cumplimiento de las especificaciones.
 Evaluar la eficacia de las soluciones.
 Método de aplicación de los histogramas
 Previo a la explicación de los pasos a seguir para elaborar un histograma, tenemos que
conocer algunos conceptos previos como:
 Recorrido o rango ®: es el valor resultante de restar el valor máximo y el mínimo.
 Clase (k): es la dimensión de un intervalo de variabilidad de los datos.
 Frecuencia: número de elementos comprendidos en una determinada clase.
 El estudiante debe manejar los pasos a seguir que son:
 Recoger todos los datos (N) en una hoja de datos, en los histogramas se trabaja con
datos, a menudo, con tiempos, pesos, tamaños…, y por lo tanto cuantos más datos
obtengamos más exacto será el Histograma. El número total de valores se denominará
“N”.
 Obtener los valores máximo (Vmáx.) y mínimo (Vmín.).
 Establecer el recorrido o rango ® de la siguiente forma: R = Vmáx. – Vmín, como
vemos en la fórmula, simplemente deberemos restar el valor máximo de los datos
obtenidos del valor mínimo.
 Determinar el número de clases (k) que queremos que exista, con este dato
determinaremos las barras que queremos que aparezcan en el Histograma,
facilitándonos cuantas clases o grupos tenenos.
 Calcular la amplitud de cada clase de la siguiente manera: i = R / k.
 Redondear, al valor entero superior, si el resultado no es exacto en términos de la
unidad.
 Establecer los valores de los límites de clase.
 Construir una tabla de distribución de frecuencias y asignar los datos obtenidos a su
clase correspondiente, al hacerlo podemos encontrarnos con el problema de que
tengamos valores en el límite entre una clase y otra, y no sepamos a cuál de las dos
clases asignarlo, en este caso se recomienda asignar estos datos a una de las dos clases,
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
la inferior o la superior, pero siempre con el mismo criterio, para no desvirtuar el
gráfico.
 Construir los ejes del histograma, para construirlos seguiremos los siguientes
criterios, en el eje horizontal se colocan los valores de las marcas de clase y sobre el
eje vertical se colocan los valores de las frecuencias.
 Trazar los rectángulos correspondientes, una vez se hayan determinado los intervalos
y sepamos cuántas mediciones caen dentro de cada intervalo, doner los rectángulos
en función de los ejes del histograma.
Ejemplos de Tipos de Histograma
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
3,11,9 Polígonos de Frecuencia
Son otra forma de representar gráficamente distribuciones tanto de frecuencias simples
como relativas. Pedagógicamente el estudiante debe:
Para construir un polígono de frecuencias el estudiante tiene que colocar en el eje vertical y
los valores de la variable que estamos midiendo en el eje horizontal. A continuación, se gráfica
cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los
resultantes puntos sucesivos con una línea recta para formar un polígono.
Se añaden dos clases, una en cada extremo de la escala de valores observados. Estas dos
nuevas clases que contienen cero observaciones permiten que el polígono alcance el eje
horizontal en ambos extremos de la distribución.
Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las
barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el
trazado de líneas verticales desde los límites de clase y luego conectando tales líneas con
rectas horizontales a la altura de los puntos medios del polígono.
Un polígono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una
de las clases, en lugar del número real de puntos, se conoce como polígono de frecuencias
relativas. Este polígono tiene la misma forma que el polígono de frecuencias construido a
partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje
vertical.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Medidas tendencia central: Media Mediana
Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se
tienden ha reunir los datos (“Punto central”). Estas medidas aplicadas a las características de
las unidades de una muestra se les denomina estimadores o estadígrafos; mientras que
aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la población.
Los principales métodos utilizados para ubicar el punto central son la media, la mediana y la
moda.
Media
Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular,
debido principalmente a que sus ecuaciones se prestan para el manejoalgebraico, lo cual la
hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de
sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como
la suma de todos los valores observados, dividido por el número total de observaciones.
Cuando los valores representan una población la ecuación se define como:
Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa
cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con
muestras de la población todas las ecuaciones que se presenten a continuación serán
representativas para las muestras. La media aritmética para una muestra esta determinada
como
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi) representa
cada uno de los valores observados. Esta fórmula únicamente es aplicable si los datos se
encuentran desagrupados; en caso contrario debemos calcular la media mediante la
multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la
información; es decir,
Ecuación 5-4
Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número de
observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las
frecuencias de cada clase.
Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5
personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su interpretación
se han generado tres rangos de edad los cuales se han establecido de 21 a 30 años, de 31 a 40
años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los puntos medios son
25, 35 y 45 respectivamente. Losresultados de la organización de estos datos se representan
en la tabla [5-1].
Figura 5-1
Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha estos
mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-3
), tomando como referencia cada uno de los valores
individuales, obtendríamos que la media es igual a
Lo que nos indicaría que el promedio de edad para los datos desagroupados es de 34 añs
aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente
la exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos
inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores
desagrupados, aunque tiene algunos procedimientos para valores agrupados.
Es importante resaltar que existe una gran variedad de medias como la Media geométrica,
la Media ponderada, la Media cuadrática, etc. Por el momento sólo hacemos énfasis en
la media aritmética ya que es la más utilizada, aunque se recomienda a los lectores
profundizar en estos temas.
3.11.10 Mediana
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es
decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto
de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos
indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por
encima del mismo. Para determinar la posición de la mediana se utiliza la fórmula
Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores
(2, 5, 8, 10 y 13), la posición de la mediana sería:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie, que
equivale al número (8). Si por el contrario contamos con un conjunto de datos que contiene
un número par de observaciones, es necesario promediar los dos valores medios de la serie.
Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8, 10,
13 y 15) y la posición de la mediana sería,
Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio, es
necesario promediar los dos valores de la posiciones tercera y cuarta para producir
una mediana equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo que nos
indicaría que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se
encuentra por encima de este valor.
En conclusión la mediana indica el valor que separa los datos en dos fracciones iguales con
el cincuenta porciento de los datos cada una. Para las muestras que cuentan con un número
impar de observaciones o datos, la mediana dará como resultado una de las posiciones de la
serie ordenada; mientras que para las muestras con un número par de observaciones se debe
promediar los valores de las dos posiciones centrales.
3.11.11 Moda
La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir, si
tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien
seria la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con
la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo que
se conoce como multimodal.
En conclusión las Medidas de tendencia central, permite identificar los valores más
representativos de los datos, de acuerdo a la manera como se tienden a concentrar.
La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría
cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por
el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las
cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos indica el valor
que más se repite dentro de los datos.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Ejemplo1: A =es una matriz de orden 2x4, es decir, tiene dos filas y cuatro columnas.
Ejemplo 2. En un curso de 30 alumnos se han realizado cuatro evaluaciones, por lo tanto
existen cuatro notas por cada alumno y los resultados se pueden disponen mediante una
matriz:
Evaluaciones
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
4. REDUCCION DE DATOS
4.1. MEDIDAS DE TENDENCIA CENTRAL
Resumir a una distribución de frecuencias dada, sirviendo la cual además para realizar En
esta sección definiremos una serie de medidas o valores que tratan de representar o
comparaciones entre distintas distribuciones de frecuencias. Estas medidas reciben el
nombre de promedios, medidas de posición o medidas de tendencia central.
4.2. MEDIA ARITMÉTICA
Media aritmética Llamando xl,..., xk a los datos distintos de un carácter en estudio, o las
marcas de clase de los intervalos en los que se han agrupado dichos datos, y ni,..., nk a las
correspondientes frecuencias absolutas de dichos valores o marcas de clase,
llamaremos de la distribución de frecuencias a.
Ejemplo 01.
La media aritmética de las veinticinco familias encuestadas será:
Es decir, las familias encuestadas tienen un número medio de hijos de 1'68. En donde
n es la frecuencia total.
Se midieron los niveles de colinesterasa en un recuento de eritrocitos en
μmol/min/ml de 34 agricultores expuestos a insecticidas agrícolas,
obteniéndose los siguientes datos:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
La distribución de frecuencias las marcas de clase será:
La cual proporciona una media aritmética de
4.3. MEDIANA
La mediana es otra medida de posición, la cual se define como aquel valor de la variable
tal que, supuestos ordenados los valores de ésta en orden creciente, la mitad son menores
o iguales y la otra mitad mayores o iguales
Así, si en la siguiente distribución de frecuencias, ordenamos los
valores en orden creciente,
Individuo Nivel Individuo Nivel Individuo Nivel
1 10,6 13 12,2 25 11,8
2 12,5 14 10,8 26 12,7
3 11,1 15 16,5 27 11,4
4 9,2 16 15,0 28 9,3
5 11,5 17 10,3 29 8,6
6 9,9 18 12,4 30 8,5
7 11,9 19 9,1 31 10,1
8 11,6 20 7,8 32 12,4
9 14,9 21 11,3 33 11,1
10 12,5 22 12,3 34 10,2
11 12,5 23 9,7
12 12,3 24 12,0
Intervalo I i 7'5-9 9-10'5
10'5-
12
12-
13'5
13'5-
15
15-
16'5
Marca de
Clase
x i 8'25 9'75 11'25 12'75 14'25 15'75
Frecuencia n i 3 8 10 10 1 2
?ni=25
x i n i N i
0 3 3
1 2 5
2 2 7
7
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Lógicamente, en cuanto el valor de la frecuencia total sea ligeramente mayor, este
procedimiento resulta inviable. Por esta razón, daremos a continuación una fórmula que
permita calcularla. No obstante, será necesario distinguir los casos en los que los datos
vengan agrupados de aquellos en los que vengan sin agrupar.
4.4. DATOS SIN AGRUPAR:
icas siguientes, correspondientes a un diagrama de frecuencias absolutas acumuladas,
recogen las dos situaciones que se pueden presentar:
Si la situación es como la de la figura de la derecha, es decir, si
Si la situación que se presenta es como la de la figura de la izquierda, entonces la mediana
queda indeterminada, aunque en este caso se toma como mediana la media aritmética de
los dos valores entre los que se produce la indeterminación; así pues, si
Nj-1 = n/2 < Nj entonces la mediana es
Ejemplo 01.
La distribución de frecuencias acumuladas del ejemplo del número de hijos era
y como es n/2=12'5 y en consecuencia 11 < 12'5 < 19 la mediana será Me= 2.
Nº de hijos(xi) 0 1 2 3 4
Frecuencias
Acumuladas(Ni)
5 11 19 23 25
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
4.5. DATOS AGRUPADOS
Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas
acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar:
El más sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal
que n/2 = Nj, la mediana es Me = xj.
Si la situación es como la que se representa en la figura de la izquierda, en la que
Nj-l < n/2 < Nj
Entonces, la mediana, está en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomándose en ese
caso, por razonamientos de proporcionalidad, como mediana el valor siendo cj la amplitud
del intervalo [xj-1, xj).
La distribución de frecuencias del ejemplo de los niveles de colinesterasa es:
Al ser n/2 = 17 y estar
11 < 17 < 21
Intervalo I i 7'5-9 9-10'5 10'5-12 12-13'5 13'5-15 15-16'5
Frecuencia n i 3 8 10 10 1 2
Frecuencia
Acumulada
N i 3 11 21 31 32 34
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
la mediana estará en el intervalo [10'5 , 12), y aplicando la fórmula anterior, será
4.6.MODA
La moda se define como aquel valor de la variable al que corresponde máxima frecuencia
(absoluta o relativa). Para calcularla, también será necesario distinguir si los datos están
o no agrupados.
4.7. DATOS SIN AGRUPAR:
Para datos sin agrupar, la determinación del valor o valores (ya que puede haber más de
uno) modales es muy sencilla. Basta observar a que valor le corresponde una mayor ni. Ese
será la moda.
Así en el ejemplo del número de hijos, la simple inspección de la tabla siguiente
proporciona como valor para la moda el Md = 2.
4.8. DATOS AGRUPADOS:
Si los datos se presentan agrupados en intervalos es necesario, a su vez, distinguir si éstos
tienen o no igual amplitud.
Si tienen amplitud constante c, una vez identificado el intervalo modal [xj-1, xj), es decir el
intervalo al que corresponde mayor frecuencia absoluta nj = max{nl, ..., nk}, la moda se
define, también por razones geométricas, como
Nº de hijos(xi) 0 1 2 3 4
Nº de familias(ni) 5 6 8 4 2 ?ni=25
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
EJEMPLO 01.
Este ejemplo presenta un caso de distribución bimodal, ya que tanto el intervalo [10'5
- 12) como el [12 - 13'5) tienen frecuencia absoluta máxima. Deberíamos aplicar, por
tanto, para cada uno de los dos intervalos la fórmula anterior, determinando así las dos
modas de la distribución. No obstante, este ejemplo presenta además la peculiaridad
adicional de ser ambos intervalos modales contiguos. En esta situación se considera la
distribución uni modal, eligiendo como moda el extremo común, Md = 12.
Si los intervalos tuvieran distinta amplitud cj, primeros debemos normalizar las
frecuencias absolutas nj, determinando los cocientes
y luego aplicar la regla definida para el caso de intervalos de amplitud constante a los lj.
Es decir, primero calcular el lj = max{l1,...., lk} para determinar el intervalo modal [xj-1,
xj) y luego aplicar la fórmula Siendo cj la amplitud del intervalo modal [xj-1, xj).
EJEMPLO 02.
Las frecuencias normalizadas correspondientes al ejemplo de intervalos con distinta
amplitud serán,
Con lo que el intervalo modal es el [40 - 45) y la moda
Ii ni li
0-20 8 0'4
20-30 9 0'9
30-40 12 1'2
40-45 10 2
45-50 9 1'8
50-60 10 1
60-80 8 0'4
80-100 4 0'2
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
A diferencia de lo que ocurre con la media o con la mediana, sí es posible determinar la
moda en el caso de datos cualitativos. Así, en el ejemplo del tratamiento de radiación
seguido de cirugíapuede afirmarse que la causa modal por la que no fue completado el
tratamiento es Md = rehusaron cirugía.
4.9. CUANTILES
Los cuantiles o cuantilas son las últimas medidas de posición que veremos. De hecho
algunos autores las incluyen dentro de las medidas de dispersión al ser medidas de
posición no centrales. El cuantil pr/k r= 1,2,..., k - 1 se define como aquel valor de la variable
que divide la distribución de frecuencias, previamente ordenada de forma creciente, en
dos partes, estando el (100·r/k)% de ésta formado por valores menores que pr/k. Si k = 4
los (tres) cuantiles reciben el nombre de cuartíles. Si k = 10 los (nueve) cuantiles reciben,
en este caso, el nombre de decíles. Por último, si k = 100 los (noventa y nueve) cuantiles
reciben el nombre de centiles. Obsérvese que siempre que r y k mantengan la misma
proporción (r/k) obtendremos el mismo valor. Es decir, por ejemplo, el primer cuartil es
igual al vigésimo quinto centil. En este sentido, la mediana Me es el segundo cuartil, o el
quinto decil, etc. Para el cálculo de los cuantiles de nuevo hay que considerar si los datos
vienen o no agrupados en intervalos.
Datos sin agrupar:
Si los datos vienen sin agrupar y es
Nj- 1 < < Nj
el r-ésimo cuantil de orden k será pr/k= xj, valor al que corresponde la frecuencia
absoluta acumulada Nj. Si la situación fuera de la forma
Nj- 1 = < Nj tomaríamos, en esta situación indeterminada,
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Datos agrupados:
Si los datos se presentan agrupados y, para alguna j, fuera
< Nj el résimo cuantil de orden k sería pr/k= xj.
Por último, si fuera
Nj-1 < < Nj
el intervalo a considerar sería el [xj-1, xj), al que corresponde frecuencia absoluta ni y
absoluta acumulada Ni, siendo entonces el cuantil el dado por la expresión,
en donde cj es la amplitud del intervalo [xj-1, xj).
Si el intervalo a considerar fuera el [x0 , x1), se tomaría en la expresión anterior Nj-1 = 0.
Ejemplo:
Vamos a determinar la tercera cuartila del ejemplo del número de hijos.
Nº de hijos(xi) 0 1 2 3 4
Nº de familias(ni) 5 6 8 4 2 ?ni=25
Nº de familias(ni) 5 11 19 23 25
Como es
y 11 < 18'75 < 19, será p3/4=2.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Ejemplo:
Vamos a determinar la séptima decila del ejemplo de los niveles de colinesterasa.
21 < 23'8 < 31, el intervalo a considerar será el [12, 13'5), siendo
Frecuencia Acumulada N i 3 11
21
31 32 34
7'5 9 10 12 13'5 15
9 10'5 12 13' 15 16'5
Como es:
Frecuencia
n i 3 8
10
10 1 2
Intervalo Ii
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
5. MEDIDA DE POSICION
Las medidas de posición se usan para describir la posición que tiene un dato específico en
relación con el resto de los datos. Dos de estas medidas de posición más conocidas son los
cuartiles y los percentiles.
Dentro de la medida de posición se clasifican en dos variables.
5.1. CUARTILES:
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro
partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la
mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto
(25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual
o por debajo del cual quedan las tres cuartas partes (75%) de los datos.
Los cuartiles son medidas de posición que se determinan mediante un método que
determina la ubicación de los valores que dividen un conjunto de observaciones en partes
iguales.
Los cuartiles son los valores de la distribución que la dividen en partes iguales, es decir,
en intervalos que comprenden el mismo número de valores. Cuando la distribución
contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de
una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes.
Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los
deciles, cuando dividen la distribución en diez partes y los centiles o percentiles, cuando
dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son
en cierta forma una extensión de la mediana.
5.2. PORCENTILES:
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o
clasificación de las personas cuando atienden características tales como peso, estatura,
etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien
partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes
iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer
percentil,..., percentil 99.
Datos Agrupados.
Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la
fórmula:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
a. EJERCICIOS
Ejercicio 1:
. Una distribución estadística viene dada por la siguiente tabla:
Hallar:
SOLUCION
a) Varianza.
b) Los cuartiles 1º y 3º.
c) Los deciles 3º y 6º.
d) Los percentiles 30 y 70.
Ejercicio 2:
a) Completar los datos que faltan en la siguiente tabla estadística, donde n, N y f
representan, respectivamente, la frecuencia absoluta, acumulada y relativa:
X N N f
1 4 0,08
2 4
3 16 0,16
4 7 0,14
5 5 28
6 38
7 7 45
8
b) Calcula la media, mediana y moda de esta distribución
SOLUCION
[10, 15) [15, 20) [20, 25) [25, 30) [30, 35)
fi 3 5 7 4 2
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
La frecuencia relativa de 1 es 0,08 = 4/N, de donde N = 50, lo que nos permite
completar la tabla.
X N N F
1 4 4 0,08
2 4 8 0,08
3 8 16 0,16
4 7 23 0,14
5 5 28 0,10
6 10 38 0,20
7 7 45 0,14
8 5 50 0,10
b) La media x = 4.76 , la mediana es 5 y la moda es 6
Ejercicio 3
Se ha pasado un test de 80 preguntas a 600 personas. El número de respuestas
correctas se refleja en la siguiente tabla:
a) Calcular la media, desviación media y desviación típica.
b) Calcula la mediana, los cuartiles y los percentiles 20 y 85.
c) ¿Cuál es el percentil de una persona que tiene 65 respuestas correctas?
SOLUCION:
Hacemos las tablas de frecuencias:
RESPUESTAS CORRECTAS NUMERO DE
PERSONAS
[0, 10) 40
[10, 20) 60
[20, 30) 75
[30, 40) 90
[40, 50) 105
[50, 60) 85
[60, 70) 80
[70, 80) 65
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
INTRERVALO Xi ni Ni Xi ni
[0, 10) 5 40 40 200 1000 1506,
67
[10, 20) 15 60 100 900 13500 1660,
00
[20, 30) 25 75 175 1875 46875 1325,
00
[30, 40) 35 90 265 3150 11025
0
690,0
0
[40, 50) 45 105 370 4725 21262
5
245,0
0
[50, 60) 55 85 455 4675 25712
5
1048,
33
[60, 70) 65 80 535 5200 33800
0
1786,
67
[70, 80) 75 65 600 4875 36562
5
2101,
67
600 25600 1345000 10363,33
a) X =
25600
600
= 42,67
𝜎2
=
1345000
600
- 42,672
= 420.94 entonces 𝜎 = √420.94 = 20.52
DM =
10363.33
600
= 17.27
b)
 Para la mediana 600/2 = 300, luego voy al intervalo ( 40,50)
Me = 40 +
300−265
370−265
. 10 = 40 + 3,33 = 43,33
 Para Q1 entonces 600/4 = 150 , luego voy al intervalo ( 20,30)
Q1 = 20+
150−100
175−100
. 10 = 20 + 6,66 = 26,66
 Para Q1 (3/4) . 600 = 450 , luego voy al intervalo ( 50, 60)
Q1 = 50 +
450−370
455−370
. 10 = 50 + 9.41 = 59.41
𝑝20 (20/100). 600= 120, luego voy al intervalo (20,30)
P = 20 +
129−100
175−100
. 10 =20 + 2.66 = 22.66
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
 Para 𝑝85 entonces (85/100) .600= 510, luego voy al intervalo (60,70)
𝑝85 = 60 +
510−455
535−455
. 10 = 60 + 8.88 = 68.88
c) 65 = 60 +
𝑑−455
535−455
. 10 entonces d = 495 luego 495 =
𝑘
100
. 600 entonces k= 82.5
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
6. MEDIDA DE DISPERSION
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos
revelan una parte de la información que necesitamos acerca de las características de los
datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir
también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
Proporciona información adicional que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos.
Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser
capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una
amplia dispersión de valores con respecto al centro de distribución o esto
presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger
distribuciones que tengan las dispersiones más grandes.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de
describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es
importante, ¿cómo medimos la variabilidad de una distribución empírica?. Vamos a
considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación
estándar y el coeficiente de variación.
6.1. EL RANGO O RECORRIDO
Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango
se define como la diferencia entre el valor más alto
(Xn ó Xmax.) y el más bajo (X1 ó Xmin) en un conjunto de datos.
Rango para datos no agrupados;
R = Xmáx.-Xmín = Xn-X1
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
a. EJERCICIOS.
EJERCICIO 1:
Se tienen las edades de cinco estudiantes universitarios de primer año, a saber: 18,23,
27,34 y 25., para calcular la media aritmética (promedio de las edades, se tiene que:
SOLUCION:
R = Xn-X1 ) = 34-18 = 16 años
Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos
de clases abiertos podemos aproximar el rango mediante el uso de los de clases. Se
aproxima el rango tomando el límite superior de la última clase menos el límite inferior
de la primera clase.
Rango para datos agrupados;
R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)
EJERCICIO 2:
Los datos que se dan a continuación corresponden a los pesos en Kg. de ochenta
Personas:
(a) Obténgase una distribución de datos en intervalos de amplitud 5, siendo el primer
Intervalo [50; 55].
(b) Calcúlese el porcentaje de personas de peso menor que 65 Kg.
(c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg. pero menor que 85?
6 0 ; 6 6 ; 7 7 ; 7 0 ; 6 6 ; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ; 7 1 ; 5 8 ; 6 6 ; 6 7 ; 7
4 ; 6 1 ; 6 3 ; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ; 8 1 ; 6 2 ; 6 4 ; 6 9 ; 6 8
; 7 2 ; 8 3 ; 5 6 ; 6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ; 6 1 ; 6 7 ; 7 3 ; 5 7 ; 6 2 ; 6 7 ; 6 8 ;
6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ; 6 1 ; 6 2 ; 6 3 ; 7 6 ; 6 1 ; 6 7 ; 6 7 ; 6 4 ; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5
8 ; 6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ; 7 0 ; 6 6 ; 6 2 ; 6 3 ; 6 6 ;
SOLUCIÓN:
(a) Como se trata de efectuar una distribución de datos agrupados, debemos obtener
primero los
Intervalos correspondientes, situando los datos en sus lugares respectivos:
Li-1 - Li Ni Ni
(50, 55)
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
(b) Observando la columna de frecuencias acumuladas se deduce que existen N3 = 26
individuos
Cuyo peso es menor que 65 Kg., que en términos de porcentaje corresponden a:
26
80
. 100 = 32,25%
(c) El número de individuos con peso comprendido entre 70 y 85 Kg. es:
n5 + n6 + n7 = 14 + 7 + 3 = 24
Lo que es equivalente a: N7 – N4 = 80 – 56 = 24
EJERCICIO 3:
Las edades de los empleados de una determinada empresa son las que aparecen en la
Siguiente tabla:
Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de
Frecuencias acumuladas decrecientes (o «más de»).
2 2
(55,60) 7 9
(60,65) 17 26
(65,70) 30 56
(70,75) 14 70
(75,80) 7 77
(80,85) 3 80
80
Edad N°
empleados
Menos
de 25
22
Menos
de 35
70
Menos
de 45
221
Menos
de 55
157
Menos
de 65
184
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
SOLUCION:
Es preciso obtener, en principio, la distribución de frecuencias absolutas:
Li-1 –
Li
Ni
[18;
25)
22
[25;
35)
48
[35;
45)
51
[45;
55)
36
[55;
65]
27
184
A la vista de la tabla anterior, la distribución pedida es:
Edad N.° de
empleados
Más de
18
184
Más de
25
162
Más de
35
114
Más de
45
63
Más de
55
27
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
7. MEDIDAS DE ASIMETRIA
7.1.DEFINICIÓN
Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) que presenta una distribución de probabilidad de una variable aleatoria sin
tener que hacer su representación gráfica. Como eje de simetría consideramos una recta
paralela al eje de ordenadas que pasa por la media de la distribución. Si una distribución
es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media,
por tanto, el mismo número de desviaciones con signo positivo que con signo negativo.
Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es
más larga que la de la izquierda, es decir, si hay valores más separados de la media a la
derecha. Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda
de la media es más larga que la de la derecha, es decir, si hay valores más separados de la
media a la izquierda.
7.2.TIPOS DE ASIMETRÍA
La asimetría presenta las siguientes formas:
Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los
datos está en la parte izquierda de la media. Este tipo
de distribución presenta un alargamiento o sesgo
hacia la izquierda, es decir, la distribución de los datos
tiene a la izquierda una cola más larga que a la
derecha. También se dice que una distribución es
simétrica a la izquierda o tiene sesgo negativo cuando
el valor de la media aritmética es menor que la
mediana y éste valor de la mediana a su vez es menor
que la moda, en símbolos
Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la
simetría.
As<0
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma
cantidad de los datos a ambos lados de la media aritmética.
No tiene alargamiento o sesgo. Se representa por una
curva normal en forma de campana llamada campana de
Gauss (matemático Alemán 1777-1855) o también
conocida como de Laplace (1749-1827).También se dice
que una distribución es simétrica cuando su media aritmética, su mediana y su moda son
iguales, en símbolos Md=Mo
Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los
datos está en la parte derecha de la media aritmética. Este tipo de distribución presenta
un alargamiento o sesgo hacia la derecha, es decir, la
distribución de los datos tiene a la derecha una cola más
larga que a la izquierda.
También se dice que una distribución es simétrica a la
derecha o tiene sesgo positivo cuando el valor de la
media aritmética es mayor que la mediana y éste a valor de la mediana a su vez es mayor
que la moda, en símbolos
7.3.MEDIDAS DE ASIMETRÍA
Coeficiente de asimetría de Pearson
Sólo se puede utilizar en distribuciones uniformes, unimodales y moderadamente
asimétricas. Se basa en que en distribuciones simétricas la media de la distribución es
igual a la moda.
Donde es el momento central de orden 1, que corresponde a la media aritmética de
variable . Si la distribución esla
simétrica, y . Si la distribución es asimétrica
positiva la media se sitúa por encima de la moda y, por tanto .
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Donde:
= media aritmética.
Md = Mediana.
s = desviación típica o estándar.
Nota:
El Coeficiente de Pearson varía entre -3 y 3
Si As < 0? la distribución será asimétrica negativa.
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.
Medida de Yule Bowley o Medida Cuartílica
Está basado en la posición de los cuartiles y la mediana, y utiliza la siguiente expresión:
En una distribución simétrica el tercer cuartil estará a la misma distancia de la mediana
que el primer cuartil. Por tanto .
Si la distribución es positiva o a la derecha,
Donde:
= Cuartil uno; = Cuartil dos = Mediana; = Cuartil tres.
Nota:
La Medida de Bowley varía entre -1 y 1
Si As < 0 ? la distribución será asimétrica negativa.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.
Coeficiente de asimetría de Fisher
En teoría de la probabilidad y estadística, la medida de asimetría más utilizada parte
del uso del tercer momento estándar. La razón de esto es que nos interesa mantener el
signo de las desviaciones con respecto a la media, para obtener si son mayores las que
ocurren a la derecha de la media que las de la izquierda. Sin embargo, no es buena idea
tomar el momento estándar con respecto a la media de orden 1. Debido a que una
simple suma de todas las desviaciones siempre es cero. En efecto, si por ejemplo, los
datos están agrupados en K clases, se tiene que:
]
en donde representa la marca de la clase ésima y denota la frecuencia
relativa de dicha clase. Por ello, lo más sencillo es tomar las desviaciones al cubo.
El coeficiente de asimetría de Fisher, representado por , se define como:
Donde es el tercer momento en torno a la media y es la desviación estándar.
Si , la distribución es asimétrica positiva o a la izquierda.
Si , la distribución es asimétrica negativa o a la derecha.
Si la distribución es simétrica, entonces sabemos qué . El recíproco no es
cierto: es un error común asegurar que si entonces la distribución es
simétrica (lo cual es falso).
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Para datos sin agrupar se emplea la siguiente fórmula:
Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:
Para datos agrupados en intervalos se emplea la siguiente fórmula:
Donde:
= cada uno de los valores; n = número de datos; = media aritmética; f = frecuencia
absoluta
= cubo de la desviación estándar poblacional; xm = marca de clase
Nota:
Si As < 0 ?Indica que existe presencia de la minoría de datos en la parte izquierda de la
media, aunque en algunos casos no necesariamente indicará que la distribución sea
asimétrica negativa
Si As = 0? la distribución será simétrica
Si As > 0? Indica que existe presencia de la minoría de datos en la parte derecha de la
media, aunque en algunos casos no necesariamente indicará que la distribución sea
asimétrica positiva
Ejemplo ilustrativo:
Calcular el Coeficiente de Pearson, Medida Cuartílica y la Medida de Fisher dada la
siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17
Solución:
Calculando la media aritmética se obtiene:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Para calcular los cuartiles se ordena los datos de menor a mayor
6 9 9 12 12 12 15 17
Calculando el cuartil uno se obtiene:
Calculando el cuartil dos se obtiene:
Calculando el cuartil tres se obtiene:
Calculando la desviación estándar muestral se obtiene:
Calculando el Coeficiente de Pearson se obtiene:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Calculando la Medida de Bowley se obtiene
Calculando la desviación estándar poblacional se obtiene:
Calculando la Medida de Fisher se obtiene
Los cálculos en Excel se muestran en la siguiente figura:
Datos
6 -166,375
9 -15,625
9 -15,625
12 0,125
12 0,125
12 0,125
15 42,875
17 166,375
Total 12
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Nota: El COEFICIENTE.ASIMETRIA (A2:A9) es un valor que tiene consideraciones
semejantes a la Medida de Fisher
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
8. CURTOSIS O APUNTAMIENTO
La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la
distribución normal, es decir, mide cuán puntiaguda es una distribución.
8.1. TIPOS DE CURTOSIS
La curtosis determina el grado de concentración que presentan los valores en la región
central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.
8.2. MEDIDAS DE CURTOSIS
Medida de Fisher
Para datos sin agrupar se emplea la siguiente fórmula:
Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:
Para datos agrupados en intervalos se emplea la siguiente fórmula:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Dónde: = cada uno de los valores; n = número de datos; = media aritmética; =
Cuádruplo de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca
de clase
Nota:
Si a < 3 ? la distribución es platicútica
Si a = 3 ? la distribución es normal o mesocúrtica
Si a > 3 ? la distribución es leptocúrtica
Medida basada en Cuartiles y Percentiles
(letra griega minúscula kappa) = Coeficiente percentil de curtosis
Nota:
Si < 0,263 ? la distribución es platicúrtica
Si = 0,263 ? la distribución es normal o mesocúrtica
Si > 0,263 ? la distribución es leptocúrtica
Esta medida no es muy utilizada.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Ejemplo ilustrativo:
Determinar qué tipo de curtosis tiene la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17.
Emplear la medida de Fisher y el coeficiente percentil de curtosis.
Solución: Calculando la media aritmética se obtiene
Calculando la desviación estándar poblacional se obtiene:
Calculando la Medida de Fisher se obtiene:
Para calcular los cuartiles y percentiles se ordena los datos de menor a mayor:
Datos
6 9,150,625
9 390,625
9 390,625
12 0,0625
12 0,0625
12 0,0625
15 1,500,625
17 9,150,625
Total 2058,5
6 9 9 12 12 12 15 17
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Calculando el cuartil uno se obtiene:
Calculando el cuartil tres se obtiene:
Calculando el percentil 90 se tiene:
Calculando el percentil 10 se tiene:
Calculando el coeficiente percentil de curtosis se obtiene:
Como a= 2,23 y la distribución es platicúrtica
Los cálculos en Excel se muestran en la siguiente figura:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Ejercicio
Calcula media, moda, desviación típica, el coeficiente de asimetría y curtosis de la
siguiente tabla de datos:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Luego es una distribución asimétrica negativa o a la izquierda y Platicúrtica
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
9. DISTRIBUCION BIDIMENSIONAL
9.1. CONCEPTOS GENERALES.
Hasta ahora hemos estudiado sobre cada observación de las que forman la muestra el valor
que presenta un determinado carácter. En este tema estudiaremos sobre cada observación
dos caracteres (por ejemplo: peso y altura, edad y salario,...). Estos dos caracteres tendrán
unas variables asociadas que denotaremos por X e Y. cada variable tomara unos valores x1,
x2,..., xk (la variable X) y y1, y2,..., yp (la variable Y).
A la variable (X, Y) la llamaremos variable estadística bidimensional y sus valores serán los
pares de valores (xi, yj).
Los razonamientos que presentaremos para dos variables (estadística bidimensional) son
extrapolables en mayor o menor medida para “n” variables (estadística n-dimensional).
La estadística unidimensional estudia los elementos de un conjunto de datos considerando
sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa
simultáneamente el comportamiento de ambas, entonces estamos en el campo del análisis
bidimensional, cuya agrupación da origen a las distribuciones bidimensionales de
frecuencia. No se trata de elegir dos variables cualesquiera, es una observación simultánea
de variables que tengan entre sí alguna relación, afinidad o dependencia.
Podemos considerar dos aspectos:
a. Las distribuciones bidimensionales de frecuencia, que se refiere a la presentación de
tablas de frecuencia, a través del cálculo de medidas de resumen.
b. Determinar modelos estadísticos y medir la relación o asociación entre dos variables.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
9.2. TABLAS DE CONTINGENCIA
Las tablas de contingencia se utilizan para conocer si existe o no relación entre variables de
tipo cualitativo. Este tipo de variables pueden ser de tipo nominal por ejemplo sexo del
encuestado
(Hombre; mujer), o tipos de marcas de un producto (Coca-cola, Pepsi-cola,…), u ordinal tales
como la medición del grado de satisfacción de un grupo de clientes empleando una escala del
tipo (0 = Nada; 1 = Poco; 2 = Indiferente; 3 = Bastante; 4 = Mucho). El empleo de las tablas
de contingencia está especialmente indicado si las variables son de tipo nominal.
1º. ¿Existe relación entre dos variables de tipo cualitativo? ¿En qué condiciones se
pueden utilizar las tablas de contingencia?
2º. ¿Qué grado de relación existe entre las variables?
3º. ¿En qué grado existe la relación?
• Para responder a la primera pregunta estudiaremos el test de la x2
• Para responder a la segunda analizaremos diferentes coeficientes de asociación: el
de contingencia, el de la Q de Yule, la Gamma, el Tau-b, y el Tau-c de Kendall, y la D
de Sommers.
• Para responder a la tercera estudiaremos la técnica de los residuos estandarizados.
Explicación de la técnica
De forma general, si dos factores o atributos A y B se estudian sobre una misma
población y se miden las unidades estadísticas (frecuencias absolutas) se obtienen dos
series representativas de cada uno de los factores o atributos.
Por ejemplo, tras realizar un estudio en su supermercado sobre la relación entre el sexo
del encuestado y la compra de un determinado producto se obtienen los siguientes
datos.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Sobre estos datos podríamos preguntar si existe relación entre esas variables, es decir
¿existe asociación entre la compra del producto y el sexo al que se pertenece?
Una forma de plantear los resultados, para contestar al tipo de cuestiones
anteriormente planteadas, es su disposición en una tabla de doble entrada, conocida
como tabla de contingencia.
En nuestro ejemplo, la tabla de contingencia sería:
Estas tablas se usan para mostrar la dependencia o independencia entre dos factores,
para el caso de muestras independientes. En esta tabla observamos dos atributos
(Varón, mujer) X dos atributos (Compra, No compra).
Estas tablas se pueden expresar de modo general:
A, B, C, y D son las frecuencias observadas del suceso en realidad (32, 10, 11 y 27 en
nuestro ejemplo). N es el número total de casos estudiados (80). A + B, C + D, A + C y B
+ D son las totales marginales. En nuestro ejemplo A + B sería el número total de
compradores (42), C + D el número total de no compradores (38), A + C el número total
de hombres (43), y B + D (37) el número total de mujeres.
En esta clase se analizará la utilidad de las tablas de contingencia para determinar la
dependencia/independencia entre varios factores. Analizaremos primero las tablas
más sencillas (las tablas 2 x 2) para pasar posteriormente a otras más complejas.
Cuando los datos de investigación consisten en frecuencias medidas en escala nominal
u ordinal, como es el caso de las tablas de contingencia puede usarse la prueba x2 para
determinar la significación de las diferencias entre dos grupos independientes.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
La hipótesis que usualmente se pone a prueba supone que los dos grupos difieren con
respecto a alguna característica y, por lo tanto, con respecto a la frecuencia relativa con
que los miembros del grupo son encontrados en diferentes categorías. Para probar esta
hipótesis, contamos el número de casos de cada grupo en cada categoría y compramos
la proporción de casos en las diferentes categorías de un grupo con las de otro grupo.
9.3. TABULACIÓN DE VARIABLES ESTADÍSTICAS BIDIMENSIONALES.
Vamos a considerar 2 tipos de tabulaciones:
1º) Para variables cuantitativas, que reciben el nombre de tabla de correlación.
2º) Para variables cualitativas, que reciben el nombre de tabla de contingencia.
9.4. TABLAS DE CORRELACIÓN.
Sea una población estudiada simultáneamente según dos caracteres X e Y; que
representaremos genéricamente como (xi; yj; nij), donde xi; yj, son dos valores
cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo
de Y.
Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla
de correlación, la cual podemos representar como sigue:
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
9.5. TIPOS DE DISTRIBUCIONES
Cuando se estudian conjuntamente dos variables, surgen tres tipos de distribuciones:
Distribuciones conjuntas, distribuciones marginales y distribuciones condicionadas.
i. DISTRIBUCIÓN CONJUNTA
- La frecuencia absoluta conjunta, viene determinada por el número de veces que
aparece el par ordenado (xi, yj), y se representa por “nij”.
- La frecuencia relativa conjunta, del par (xi, yj) es el cociente entre la frecuencia
absoluta conjunta y el número total de observaciones. Se trata de “fij”.
Se cumplen las siguientes relaciones entre las frecuencias de distribución conjunta:
1ª. La suma de las frecuencias absolutas conjuntas, extendida a todos los pares es igual al
total de observaciones.
2ª) La suma de todas las frecuencias relativas conjuntas extendida a todos los pares es
igual a la unidad.
ii. DISTRIBUCIONES MARGINALES
Cuando trabajamos con más de una variable y queremos calcular las distribuciones de
frecuencias de cada una de manera independiente, nos encontramos con las distribuciones
marginales.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Variable x variable y
- Frecuencia absoluta marginal: el valor ni. Representa el número de veces que aparece el
valor xi de X, sin tener en cuenta cual es el valor de la variable Y. A ni. se le denomina
frecuencia absoluta marginal del valor xi de X, de forma que:
- De la misma manera, la frecuencia absoluta marginal del valor yj de Y se denotará
por n.j
- Frecuencia relativa marginal
- La frecuencia relativa marginal de xi de X, viene dada por:
- La frecuencia relativa marginal de yj de Y, viene dada por:
- Se cumplen las siguientes relaciones entre las frecuencias de distribución
marginales:
1ª) La suma de frecuencias absolutas marginales de la variable X, es igual al número de
observaciones que componen la muestra
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
2ª) La suma de las frecuencias relativas marginales de la variable X, es igual a 1.
3ª) Las dos propiedades anteriores se cumplen también para la variable Y.
iii. DISTRIBUCIONES CONDICIONADAS
Consideremos a los n.j individuos de la población que representan la modalidad yj de la variable Y,
y obsérvese la columna j-esima de la tabla. Sus n.j elementos constituyen una población, que es un
subconjunto de la población total. Sobre este subconjunto se define la distribución de X
condicionada por yj, que se representa por X / yj; su frecuencia absoluta se representa por ni / j, y
su frecuencia relativa por fi / j , para i = 1, 2, 3, …., nij
El razonamiento es análogo cuando condicionamos la variable Y a un determinado valor de X, es
decir Y /xi
Ejemplo:
Sea X= salario en u.m.
Sea Y = antigüedad en la empresa (años)
¿Cuál es la distribución de la retribución, pero únicamente de los empleados con una
antigüedad de 5 años?, es decir ¿cuál es la distribución condicionada de la variable X
condicionada a que Y sea igual a 5?
X / Y
1 3 5 7 9 11 ni. fi.
90 1 2 1 1 0 0 5 0,053
110 2 4 4 5 2 1 18 0,189
130 1 7 3 1 2 0 14 0,147
150 4 6 6 4 3 0 23 0,242
170 2 3 4 6 4 1 20 0,211
190 0 0 2 5 5 3 15 0,158
n.j 10 22 20 22 16 5 95 1
f.j 0,105 0,232 0,21
1
0,232 0,168 0,053 1
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
iv. COVARIANZA
La covarianza mide la forma en que varía conjuntamente dos variables X e Y
En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si
existe algún tipo de relación entre ellas. Veremos ahora una medida descriptiva que sirve
para medir o cuantificar esta relación:
Si Sxy >0 hay dependencia directa (positiva), es decir las variaciones de las variables
tienen el mismo sentido
Si Sxy = 0 las variables están incorreladas, es decir no hay relación lineal, pero podría
existir otro tipo de relación.
Si Sxy < 0 hay dependencia inversa o negativa, es decir las variaciones de las variables
tienen sentido opuesto.
Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los
siguientes casos:
X / Y
ni/ y=5 fi/ y=5
90 1 1/20
110 4 4/20
130 3 3/20
150 6 6/20
170 4 4/20
190 2 2/20
n.j 20 1
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
- Otra forma de calcular la Covarianza sería:
Será la que utilizaremos en la práctica.
- La covarianza no es un parámetro acotado, y puede tomar cualquier valor real, por lo
que su magnitud no es importante; lo significativo es el signo que adopte la misma.
Ejemplo:
Sea X el tiempo de vida de un insecto (años) e Y la longitud del mismo, ¿podrías
deducir si existe relación entre la “edad” del insecto y su tamaño.
Al tener la covarianza entre ambas variables signo positivo, podemos deducir que
existe una relación directa o positiva entre ambas variables, es decir, cuando
aumenta la “edad” del insecto también aumenta su tamaño.
v. TABLAS DE CONTINGENCIA
Cuando tenemos la información de 2 variables de tipo cualitativo o de una variable
cualitativa y otra cuantitativa, se dispone de una tabla de contingencia. Nos limitaremos al
caso de 2 variables. Es una tabla de doble entrada en la que en las filas se ubican las
X / Y 2 3 4 ni.
1 3 1 0 4
2 1 3 1 5
3 0 1 3 4
n.j 4 5 4 13
1 * 4 + 2 * 5 + 3 * 4
13
= 2 Años= 1
2 * 4 + 3 * 5 + 4 * 4
= 3 cm
13=
1
0.462=
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
modalidades de una de las variables (atributos) y en las columnas las del otro; en las celdas
resultantes del cruce de las filas y las columnas se incluye el número de elementos de la
distribución que presentan ambas modalidades.
Si se tiene información de n elementos acerca de las variables a y b de tal forma que
presentan “r” y “s” modalidades respectivamente, la tabla de contingencia sería de la
forma:
nij= número de elementos de la distribución que presentan la modalidad i – ésima del
atributo A y la modalidad j – esima del atributo B.
ni.= ni1+ ni2+… + nis -- – ésima
modalidad del atributo A.
Como a las variables cualitativas no se les puede someter a operaciones de sumas, restas
y divisiones, al venir expresadas en escalas nominales u ordinales no tiene sentido hablar
de medias marginales, condicionadas, varianzas, etc; si podríamos calcular la moda en el
caso de que se empleara una escala nominal y de la mediana si utilizamos escalas
ordinales.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
9.6. DEPENDENCIA E INDEPENDENCIA
INDEPENDENCIA
Cuando no se da ningún tipo de relación entre 2 variables o atributos, diremos que son
independientes.
Dos variables X e Y, son independientes entre sí, cuando una de ellas no influye en la
distribución de la otra condicionada por el valor que adopte la primera. Por el contrario
existirá dependencia cuando los valores de una distribución condicionan a los de la otra.
Dada dos variables estadísticas X e Y, la condición necesaria y suficiente para que sean
independientes es:
Propiedades:
1ª) Si X es independiente de Y, las distribuciones condicionadas de X/Yj son idénticas
a la distribución marginal de X.
2ª) Si X es independiente de Y, Y es independiente de X.
3ª) Si X e Y son 2 variables estadísticamente independientes, su covarianza es cero. La
recíproca de esta propiedad no es cierta, es decir, la covarianza de 2 variables puede
tomar valor cero, y no ser independientes.
9.7. DEPENDENCIA FUNCIONAL (existe una relación matemática exacta entre ambas
variables)
El carácter X depende del carácter Y, si a cada modalidad yj de Y corresponde una única
modalidad posible de X. Por lo tanto cualquiera que sea j, la frecuencia absoluta nij vale
cero salvo para un valor de i correspondiente a una columna j tal que nij = n.j
Cada columna de la tabla de frecuencias tendrá, por consiguiente, un único término
distinto de cero. Si a cada modalidad xi de X corresponde una única modalidad posible de
Y, será Y dependiente de X. La dependencia de X respecto de Y no implica que Y dependa
de X.
Para que la dependencia sea recíproca, los caracteres X e Y deben presentar el mismo
número de modalidades (debe ser n=m) y en cada fila como en cada columna de la tabla
debe haber uno y solo un término diferente de cero.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Sea X el salario de un empleado e Y la antigüedad del mismo en la empresa
X 
Y
1 3 5 7 9
100 15 0 0 0 0
120 0 20 0 0 0
140 0 0 30 0 0
160 0 0 0 25 0
180 0 0 0 0 10
Dependencia funcional recíproca: X depende de Y e Y depende de X
Y depende de X pero X no depende de Y
9.8. DEPENDENCIA ESTADÍSTICA (existe una relación aproximada)
Existen caracteres que ni son independientes, ni se da entre ellos una relación de
dependencia funcional, pero si se percibe una cierta relación de dependencia entre ambos;
se trata de una dependencia estadística.
Cuando los caracteres son de tipo cuantitativo, el estudio de la dependencia estadística se
conoce como el problema de “regresión”, y el análisis del grado de dependencia que existe
entre las variables se conoce como el problema de correlación.
9.9. REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
Introducción a la regresión lineal simple
Cuando se estudian dos características simultáneamente sobre una muestra, se puede
considerar que una de ellas influye sobre la otra de alguna manera. El objetivo principal
de la regresión es descubrir el modo en que se relacionan.
X 
Y
1 3 5 7 9 10
100 15 0 0 0 0 0
120 0 20 0 0 0 0
140 0 0 30 0 12 0
160 0 0 0 25 0 0
180 0 0 0 0 0 9
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Por ejemplo, en una tabla de pesos y alturas de 10 personas
Altura
17
5
18
0
16
2
15
7
18
0
17
3
17
1
16
8
16
5
16
5
Peso
80 82 57 63 78 65 66 67 62 58
Se puede suponer que la variable “Altura” influye sobre la variable “Peso” en el sentido de
que esos grandes vienen explicados por valores grandes de altura (en general).
De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X
VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE
DEPENDIENTE o EXPLICADA.
En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber qué
variable influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le
supondremos menor altura y a una persona de poca altura le supondremos un peso más
bajo. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y
por igual. Un ejemplo más claro donde distinguir entre variable explicativa y explicada es
aquel donde se anota, de cada alumno de una clase, su tiempo de estudio (en horas) y su
nota de examen. En este caso un pequeño tiempo de estudio tenderá a obtener una nota
más baja, y una nota buena nos indicará que tal vez el alumno ha estudiado mucho. Sin
embargo, a la hora de determinar qué variable explica a la otra, está claro que el “tiempo
de estudio” explica la “nota de examen” y no al contrario, pues el alumno primero estudia
un tiempo que puede decidir libremente, y luego obtiene una nota que ya no decide
arbitrariamente. Por tanto,
X = Tiempo de estudio (variable explicativa o independiente)
Y = Nota de examen (variable explicada o dependiente)
El problema de encontrar una relación funcional entre dos variables es muy complejo, ya
que existen infinidad de funciones de formas distintas. El caso más sencillo de relación
entre dos variables es la relación LINEAL, es decir que
Y = a + b X
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
(Es la ecuación de una recta) donde a y b son números, que es el caso al que nos vamos a
limitar.
9.10. EJERCICIOS
Ejercicio nº 01.-
Se ha preguntado en seis familias por el número de hijos y el número medio de días que
suelen ir al cine cada mes. Las respuestas han sido las siguientes:
a) Halla las dos rectas de regresión y represéntalas.
b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la
correlación entre las dos variables?
Solución:
a)
 Medias:
 Desviaciones típicas:
 Covarianza:
3
6
18
5,2
6
15


y
x
15,133,13
6
62
96,092,05,2
6
43
2
2


y
x


UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Coeficientes de regresión:
Rectas de regresión:
Representación:
b) La correlación es prácticamente nula; las rectas son casi perpendiculares.
17,035,2
6
44
xy
18,0
92,0
17,0
sobre 

 yxmxy
13,0
33,1
17,0
sobre 

 xymyx
  45,318,05,218,03sobre  xyxyxy
 313,05,2sobre  yxyx
89,213,0  yx
xy  89,213,0
23,2269,7
13,0
89,2


 xy
x
y
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
Ejercicio nº 02.-
En un reconocimiento médico a los niños de un colegio, se les ha pesado, en kilogramos,
y se les ha medido, en centímetros. Aquí tienes los datos de los primeros seis niños:
Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos
variables?
Solución:
 Medias:
 Desviaciones típicas:
 Covarianza:
 Coeficiente de correlación:
 La relación entre las variables es positiva, pero débil.
Ejercicio nº 03.-
83,25
6
155
33,123
6
740


y
x
35,564,2883,25
6
4175
90,904,9833,123
6
91850
2
2


y
x


72,2272,2283,2533,123
6
19250
 xyxy 
43,043,0
35,590,9
72,22


 rr
yx
xy


x i y i x i
2
y i
2
x iy i
120 25 14400 625 3000
110 30 12100 900 3300
140 35 19600 1225 4900
130 25 16900 625 3250
125 20 15625 400 2500
115 20 13225 400 2300
740 155 91850 4175 19250
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
En distintos modelos de aspiradores se ha medido el peso, en kilogramos, y la capacidad
útil de la bolsa, en litros, obteniendo los siguientes resultados:
a) Halla la recta de regresión de Y sobre X.
Solución:
a)
 Medias: Varianza de x:
 Covarianza: Coeficiente de regresión
 Ecuación de la recta de regresión de Y sobre X:
Sí es fiable, puesto que la correlación es fuerte, r x
intervalo de datos que estamos considerando. Para un peso de 6 kg la capacidad de la
bolsa será, aproximadamente, de 2,21 litros.
  0,85).que(Sabemos?estimaciónestafiable¿Es.6Calculab) ryˆ
58,2
6
5,15
28,6
6
7,37


y
x
52,058,228,6
6
35,100
xy
  77,533,128,633,158,2  xyxy
  21,277,5633,16ˆb) y
39,028,6
6
97,238 22
x
33,1
39,0
52,0
2

x
xy
yxm


UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
10. CONCLUSIÓN
 La Estadística es una ciencia matemática que se utiliza para describir, analizar e
interpretar ciertas características de un conjunto de individuos llamado población.
Cuando nos referimos a muestra y población hablamos de conceptos relativos pero
estrechamente ligados. Una población es un todo y una muestra es una fracción o
segmento de ese todo.
 Podemos dividir la estadística en dos ramas; la estadística descriptiva, que se dedica
a los métodos de recolección, descripción, visualización y resumen de datos
originados a partir de los fenómenos en estudio; y la estadística inferencial, que se
dedica a la generación de los modelos, inferencias y predicciones asociadas a los
fenómenos en cuestión.
 La estadística trata en primer lugar, de acumular la masa de datos numéricos
provenientes de la observación de multitud de fenómenos, procesándolos de forma
razonable. Mediante la teoría de la probabilidad analiza y explora
la estructura matemática subyacente al fenómeno del que estos datos provienen y,
trata de sacar conclusiones y predicciones que ayuden al mejor aprovechamiento del
fenómeno.
UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL
ESTADISTICA I
11. BIBLIOGRAFIA
 Mª Ángeles palacios, Fernando A. López Hernández, José García Córdoba y Manuel
Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”. Librería
Escarabajal
 Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”. Ed.
Thomson
 Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico de
Estadística Descriptiva. I.N.A.P.
 Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de Estadística
Descriptiva y Probabilidad. Ed. Némesis.
 BENALCÁZAR, Marco, (2002), Unidades para Producir Medios Instruccionales
en Educación, SUÁREZ, Mario Ed. Graficolor, Ibarra, Ecuador. DAZA, Jorge,
(2006), Estadística Aplicada con Microsoft Excel, Grupo Editorial Megabyte, Lima,
Perú. SUÁREZ, Mario, (2004), Interaprendizaje Holístico de Matemática,
Ed. Gráficas Planeta, Ibarra, Ecuador. SUÁREZ, Mario, (2011), Interaprendizaje de
Estadística Básica TAPIA, Fausto Ibarra, Ecuador.

Más contenido relacionado

La actualidad más candente

INFORME "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"
INFORME  "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"INFORME  "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"
INFORME "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"JOSELUISCIEZACARRASC
 
Examen de Topografia (2011)
Examen de Topografia (2011)Examen de Topografia (2011)
Examen de Topografia (2011)Luis Morales
 
Suelos labo 5 info gravedad especifica
Suelos labo 5 info gravedad especificaSuelos labo 5 info gravedad especifica
Suelos labo 5 info gravedad especificaismael cachi vargas
 
Libro de ejercicios resueltos de mecánica de suelos i
Libro de ejercicios resueltos de mecánica de suelos iLibro de ejercicios resueltos de mecánica de suelos i
Libro de ejercicios resueltos de mecánica de suelos iHugo Bravo
 
Peso especifico-y-absorcion de agregado grueso
Peso especifico-y-absorcion de agregado gruesoPeso especifico-y-absorcion de agregado grueso
Peso especifico-y-absorcion de agregado gruesoAlan H
 
Doble integracion
Doble integracionDoble integracion
Doble integracionArturo Cid
 
Presiones efectivas y las presiones totales
Presiones efectivas y  las presiones        totalesPresiones efectivas y  las presiones        totales
Presiones efectivas y las presiones totalesHeiner Ruiz Sanchez
 
Metodo de desplazamiento
Metodo de desplazamientoMetodo de desplazamiento
Metodo de desplazamientoLimber Medina
 
Informe compresion simple para s cdocx
Informe compresion simple para s cdocxInforme compresion simple para s cdocx
Informe compresion simple para s cdocxAli QH
 
Gravedad especifica de los solidos
Gravedad especifica de los solidosGravedad especifica de los solidos
Gravedad especifica de los solidosBrumel Chuquillanqui
 
Solucion del examen final de topografia general ii
Solucion del examen final de topografia general iiSolucion del examen final de topografia general ii
Solucion del examen final de topografia general iiWily Castillo Briceño
 

La actualidad más candente (20)

Limites de consistencia
Limites de consistenciaLimites de consistencia
Limites de consistencia
 
INFORME "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"
INFORME  "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"INFORME  "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"
INFORME "ENSAYO DE LOS LIMITES DE CONSISTENCIA O DE ATTERBERG"
 
Examen de Topografia (2011)
Examen de Topografia (2011)Examen de Topografia (2011)
Examen de Topografia (2011)
 
Trabajo practico6
Trabajo practico6Trabajo practico6
Trabajo practico6
 
Alabeo
AlabeoAlabeo
Alabeo
 
EJERCICIOS DE CIMENTACIÓN
EJERCICIOS DE CIMENTACIÓNEJERCICIOS DE CIMENTACIÓN
EJERCICIOS DE CIMENTACIÓN
 
Suelos labo 5 info gravedad especifica
Suelos labo 5 info gravedad especificaSuelos labo 5 info gravedad especifica
Suelos labo 5 info gravedad especifica
 
Granulometria Hidrometro
Granulometria HidrometroGranulometria Hidrometro
Granulometria Hidrometro
 
Libro de ejercicios resueltos de mecánica de suelos i
Libro de ejercicios resueltos de mecánica de suelos iLibro de ejercicios resueltos de mecánica de suelos i
Libro de ejercicios resueltos de mecánica de suelos i
 
Limite de contraccion
Limite de contraccionLimite de contraccion
Limite de contraccion
 
Peso especifico-y-absorcion de agregado grueso
Peso especifico-y-absorcion de agregado gruesoPeso especifico-y-absorcion de agregado grueso
Peso especifico-y-absorcion de agregado grueso
 
Doble integracion
Doble integracionDoble integracion
Doble integracion
 
Presiones efectivas y las presiones totales
Presiones efectivas y  las presiones        totalesPresiones efectivas y  las presiones        totales
Presiones efectivas y las presiones totales
 
ENSAYO SPT
ENSAYO SPTENSAYO SPT
ENSAYO SPT
 
Metodo de desplazamiento
Metodo de desplazamientoMetodo de desplazamiento
Metodo de desplazamiento
 
Mecanica de fluidos ucv
Mecanica de fluidos ucvMecanica de fluidos ucv
Mecanica de fluidos ucv
 
Informe compresion simple para s cdocx
Informe compresion simple para s cdocxInforme compresion simple para s cdocx
Informe compresion simple para s cdocx
 
Gravedad especifica de los solidos
Gravedad especifica de los solidosGravedad especifica de los solidos
Gravedad especifica de los solidos
 
Solucion del examen final de topografia general ii
Solucion del examen final de topografia general iiSolucion del examen final de topografia general ii
Solucion del examen final de topografia general ii
 
Metodo de-pothenot
Metodo de-pothenotMetodo de-pothenot
Metodo de-pothenot
 

Destacado

3. production experiments(2)
3. production experiments(2)3. production experiments(2)
3. production experiments(2)rhiannah baker
 
Horror poster analysis
Horror poster analysisHorror poster analysis
Horror poster analysisNathan Edser
 
Ethics - or how to have good manners in your scientific career
Ethics - or how to have good manners in your scientific careerEthics - or how to have good manners in your scientific career
Ethics - or how to have good manners in your scientific careerJoshua Knowles
 
Bab 6 nutrisi biologi tingkatan 4
Bab 6 nutrisi biologi tingkatan 4Bab 6 nutrisi biologi tingkatan 4
Bab 6 nutrisi biologi tingkatan 4Syakirah Roslan
 
1 antoniazzi et al, 2011. histopathological changes induced by extracts from...
1  antoniazzi et al, 2011. histopathological changes induced by extracts from...1  antoniazzi et al, 2011. histopathological changes induced by extracts from...
1 antoniazzi et al, 2011. histopathological changes induced by extracts from...pryloock
 
Exploring the Complexities of Child Protection Responses to Forced Marriages ...
Exploring the Complexities of Child Protection Responses to Forced Marriages ...Exploring the Complexities of Child Protection Responses to Forced Marriages ...
Exploring the Complexities of Child Protection Responses to Forced Marriages ...BASPCAN
 
Future tense
Future tenseFuture tense
Future tenseAqsa Ijaz
 
Thoái Hoá Cột Sống Cổ
Thoái Hoá Cột Sống CổThoái Hoá Cột Sống Cổ
Thoái Hoá Cột Sống Cổshavonne690
 

Destacado (9)

3. production experiments(2)
3. production experiments(2)3. production experiments(2)
3. production experiments(2)
 
Horror poster analysis
Horror poster analysisHorror poster analysis
Horror poster analysis
 
Ethics - or how to have good manners in your scientific career
Ethics - or how to have good manners in your scientific careerEthics - or how to have good manners in your scientific career
Ethics - or how to have good manners in your scientific career
 
Bab 6 nutrisi biologi tingkatan 4
Bab 6 nutrisi biologi tingkatan 4Bab 6 nutrisi biologi tingkatan 4
Bab 6 nutrisi biologi tingkatan 4
 
1 antoniazzi et al, 2011. histopathological changes induced by extracts from...
1  antoniazzi et al, 2011. histopathological changes induced by extracts from...1  antoniazzi et al, 2011. histopathological changes induced by extracts from...
1 antoniazzi et al, 2011. histopathological changes induced by extracts from...
 
Exploring the Complexities of Child Protection Responses to Forced Marriages ...
Exploring the Complexities of Child Protection Responses to Forced Marriages ...Exploring the Complexities of Child Protection Responses to Forced Marriages ...
Exploring the Complexities of Child Protection Responses to Forced Marriages ...
 
cv_Andie Setiyawan
cv_Andie Setiyawancv_Andie Setiyawan
cv_Andie Setiyawan
 
Future tense
Future tenseFuture tense
Future tense
 
Thoái Hoá Cột Sống Cổ
Thoái Hoá Cột Sống CổThoái Hoá Cột Sống Cổ
Thoái Hoá Cột Sống Cổ
 

Similar a Estadística UHuancivil

MMonroy herramientas que gestionan la calidad (parte 2). doc
MMonroy herramientas que gestionan la calidad (parte 2). docMMonroy herramientas que gestionan la calidad (parte 2). doc
MMonroy herramientas que gestionan la calidad (parte 2). docMaradelRocoMonroyGar
 
Bioestadistica (1) representacion grafica de la informacion
Bioestadistica (1) representacion grafica de la informacionBioestadistica (1) representacion grafica de la informacion
Bioestadistica (1) representacion grafica de la informacionCarlos Siliézar
 
Representacion grafica en estadistica
Representacion grafica en estadisticaRepresentacion grafica en estadistica
Representacion grafica en estadisticaYorfran Melendez
 
Deber de estadistica
Deber de estadisticaDeber de estadistica
Deber de estadisticaanitadiaz10
 
Trabajo de grafica21
Trabajo de grafica21Trabajo de grafica21
Trabajo de grafica211471989
 
Estadística Básica.pptx
Estadística Básica.pptxEstadística Básica.pptx
Estadística Básica.pptxkarlajaspe28
 
R olivares herramientas de calidad (parte 2)
R olivares  herramientas de calidad (parte 2)R olivares  herramientas de calidad (parte 2)
R olivares herramientas de calidad (parte 2)rosyolivares1
 
Datos agrupados y no agrupados
Datos agrupados y no agrupadosDatos agrupados y no agrupados
Datos agrupados y no agrupadosmaryerlingvargas
 
Estadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOSEstadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOSCésar F. Serrano F.
 
Rsg act.3 herramientas
Rsg act.3 herramientasRsg act.3 herramientas
Rsg act.3 herramientasRosioSoria
 
Revista de estadistica
Revista de estadisticaRevista de estadistica
Revista de estadisticaReisabethReyes
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidadLeo Cisf
 

Similar a Estadística UHuancivil (20)

Graficos estadisticos
Graficos estadisticosGraficos estadisticos
Graficos estadisticos
 
MMonroy herramientas que gestionan la calidad (parte 2). doc
MMonroy herramientas que gestionan la calidad (parte 2). docMMonroy herramientas que gestionan la calidad (parte 2). doc
MMonroy herramientas que gestionan la calidad (parte 2). doc
 
Bioestadistica (1) representacion grafica de la informacion
Bioestadistica (1) representacion grafica de la informacionBioestadistica (1) representacion grafica de la informacion
Bioestadistica (1) representacion grafica de la informacion
 
Representacion grafica en estadistica
Representacion grafica en estadisticaRepresentacion grafica en estadistica
Representacion grafica en estadistica
 
La estadistica
La estadisticaLa estadistica
La estadistica
 
Deber de estadistica
Deber de estadisticaDeber de estadistica
Deber de estadistica
 
Estadistica.pdf
Estadistica.pdfEstadistica.pdf
Estadistica.pdf
 
Trabajo de grafica21
Trabajo de grafica21Trabajo de grafica21
Trabajo de grafica21
 
Estadística Básica.pptx
Estadística Básica.pptxEstadística Básica.pptx
Estadística Básica.pptx
 
Análisis de Datos
Análisis de DatosAnálisis de Datos
Análisis de Datos
 
R olivares herramientas de calidad (parte 2)
R olivares  herramientas de calidad (parte 2)R olivares  herramientas de calidad (parte 2)
R olivares herramientas de calidad (parte 2)
 
Datos agrupados y no agrupados
Datos agrupados y no agrupadosDatos agrupados y no agrupados
Datos agrupados y no agrupados
 
Presentacion
PresentacionPresentacion
Presentacion
 
Graficos
GraficosGraficos
Graficos
 
Estadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOSEstadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOS
 
Rsg act.3 herramientas
Rsg act.3 herramientasRsg act.3 herramientas
Rsg act.3 herramientas
 
Revista de estadistica
Revista de estadisticaRevista de estadistica
Revista de estadistica
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Grafica
GraficaGrafica
Grafica
 
Herramientas de calidad
Herramientas de calidadHerramientas de calidad
Herramientas de calidad
 

Último

programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMarjorie Burga
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arteRaquel Martín Contreras
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docxCeciliaGuerreroGonza1
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfMARIAPAULAMAHECHAMOR
 

Último (20)

programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grande
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
La Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdfLa Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdf
 
Razonamiento Matemático 1. Deta del año 2020
Razonamiento Matemático 1. Deta del año 2020Razonamiento Matemático 1. Deta del año 2020
Razonamiento Matemático 1. Deta del año 2020
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arte
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
6° SEM30 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdf
 

Estadística UHuancivil

  • 1. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 1. INTRODUCCIÓN La presente investigación se refiere al tema de la Estadística, que se puede definir es la ciencia cuyo objetivo es reunir una información para facilitar al hombre el estudio de datos masivos de individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. También se refiere a la importancia, métodos e importancia de la estadística ya que está relacionada con el estudio de proceso cuyo resultado es más o menos imprescindible y con la finalidad de obtener conclusiones para tomar decisiones razonables de acuerdo con tales observaciones La Estadística se ocupa de los métodos científicos para recolectar, organizar, resumir, presentar y analizar datos, así como de sacar conclusiones válidas y tomar decisiones con base en este análisis, así también realizar predicciones a cerca del conjunto del cual se han seleccionado dichos datos. El empleo cuidadoso de los métodos estadísticos permite obtener información precisa de los datos
  • 2. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 2. OBJETIVOS 2.1.OBJETIVO GENERAL  Comprenderla importancia del estudio de la historia de la estadística, para lo cual es necesario un recorrido por sus conceptos, métodos e importancia y más definiciones, con el fin de acercarnos un poco más al tema de la Estadística.  Conocer sobre el tema con el cual se trabajara a lo largo del semestre en aplicable a la contabilidad.  Aplicar apropiadamente los métodos estadísticos en la recolección de información y procesos matemáticos básicos en cálculos estadísticos.  Adquirir los conocimientos y habilidades sobre el tema, ser capaz de reconocer los elementos habituales de la estadística  Aplicar los fundamentos básicos para realizar un buen trabajo en clase.
  • 3. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 3. GRÁFICOS ESTADÍSTICOS Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se emplean para tener una representación visual de la totalidad de la información. Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros. 3.1.TIPOS DE GRÁFICOS ESTADÍSTICOS 3.1.1. GRÁFICOS DE BARRAS VERTICALES (Llamados por algún software de columnas) Representan valores usando trazos verticales, aislados o no unos de otros, según la variable a graficar sea discreta o continua. Pueden usarse para representar:  una serie  dos o más series (también llamado de barras comparativas) 3.1.2. GRÁFICOS DE BARRAS HORIZONTALES Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los textos correspondientes a cada categoría son muy extensos.  para una serie  para dos o más series
  • 4. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 3.1.3. GRÁFICOS DE BARRAS PROPORCIONALES Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datos que componen un total. Las barras pueden ser:  Verticales  Horizontales 3.1.4. GRÁFICOS DE BARRAS COMPARATIVAS Se utilizan para comparar dos o más series, para comparar valores entre categorías. Las barras pueden ser:  Verticales  Horizontales 3.1.5. GRÁFICOS DE BARRAS APILADAS Se usan para mostrar las relaciones entre dos o más series con el total. Las barras pueden ser: verticales  horizontales
  • 5. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 3.1.6. GRÁFICOS CIRCULARES Estos gráficos nos permiten ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor valor, según lo que se desee destacar. Se pueden ser:  En dos dimensiones  en tres dimensiones 3.1.7. HISTOGRAMAS Estos tipos de gráficos se utilizan para representa distribuciones de frecuencias. Algún software específico para estadística grafican la curva de gauss superpuesta con el histograma. 3.1.8. OTROS GRÁFICOS En esta categoría se encuentran la mayoría de los gráficos utilizados en publicidad. Se los complementa con un dibujo que esté relacionado con el origen de la información a mostrar. Son gráficos llamativos, atraen la atención del lector. EJEMPLO 2 Gráfico Circular. El gráfico circular es útil para representar proporciones de distintas clases dentro de una muestra. La muestra es representada por un círculo y cada una de las clases que la componen, por un sector de éste. El ángulo de cada sector mantiene la misma proporción de 360° que la de la clase representada respecto del tamaño total de la muestra. A modo de ejemplo, a los estudiantes deben aprender lo siguiente: si una clase corresponde al 25% del total de la muestra, le corresponderá un sector del círculo cuyo ángulo sea de 90°, exactamente el 25% de 360°. El gráfico siguiente,
  • 6. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I representa la respuesta de 1886 alumnos de Cuarto Medio al preguntárseles por su interés de seguir estudios universitarios. Los datos corresponden a alumnos que cursaban Cuanto Año Medio en el año 1997 en 7 localidades de la V región (Valparaíso, Viña del Mar, Quilpué, Villa Alemana, Limache, Quillota, La Calera) y en establecimientos de tipo Municipalizado, Subvencionado y Particular. De los 1886 alumnos encuestados, 1768 (93.74%) se interesa por seguir estudios universitarios. Los restantes 118 (6.26%), no. Para construir el gráfico circular, debemos calcular el ángulo central del sector correspondiente a cada respuesta. Para el caso de los 1768 Interesados en estudios universitarios su proporción respecto de la muestra total (93.74%) nos permite determinar que su ángulo del centro es 337º 28’ 34.1” y por lo tanto, el complemento a 360º (22º 31’ 25.9”) representa a los No Interesados. Hecho este cálculo, con un transportador se puede hacer un La facilidad de graficación presente en los computadores personales de hoy día, ha permitido ampliar fuertemente la capacidad de representar datos con mejores características estéticas. Lo anterior en sí, constituye una cualidad muy ventajosa. Sin embargo, en peligroso dejarse llevar sólo por consideraciones estéticas al momento de graficar una información. Es así que muchas veces se tiende a usar gráficos circulares en perspectiva, con un dibujo que representa a un disco inclinado en tres dimensiones, de modo que su cara superior se ve como una elipse. Si bien tiene un aspecto visual agradable, no es recomendable usarlo, pues desde el punto de vista de la representación de la información contenida en la muestra, se produce una distorsión. A modo de ejemplo, se construye un nuevo gráfico circular para los datos anteriores, ahora en perspectiva.
  • 7. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Como puede verse, el 6.26% ’No Interesado’ tiene aquí una cobertura visual algo mayor que en el dibujo anterior. Pero, si se cambia la orientación del dibujo central, se tiene una representación en que los casos ‘No Interesado’ se ven disminuidos. Estas variaciones de la representación causadas por un giro del gráfico, no están presente en el caso del círculo en posición normal y, por lo tanto, este último es más fidedigno como resumen informativo visual. Como conclusión, a pesar de su simplicidad, los gráficos circulares deben ser construidos teniendo especial cuidado en resguardar su capacidad de representar sin distorsiones la información original. 3.11.4 Diagrama de Dispersión El diagrama de dispersión es una herramienta de análisis la cual representa en forma gráfica la relación existente entre dos variables pudiendo observar la dependencia o influencia que tiene una variable sobre la otra, permitiendo visualizar de forma gráfica su posible correlación. Conocidos también como gráficos XY es una herramienta de análisis utilizado generalmente en el área de la gestión de calidad con el objeto de encontrar las relaciones de las causas que producen un efecto.
  • 8. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Tal y como hemos citado en la definición anterior el diagrama de dispersión nos indica la relación existente entre dos variables, y por lo tanto si traducimos estas dos variables a grupos de datos, podemos relacionar grupos de datos con el objeto de verificar o averiguar que existe una relación entre ambos y como es esta relación de forma aproximada. Los diagramas de dispersión se emplean para:  Observar el grado de intensidad en la relación entre dos variables, esta relación puede ser entre un efecto y una de las supuestas causas que lo producen o para ver la relación entre dos causas que provocan un mismo efecto.  Visualizar rápidamente cambios anómalos.  Analizar determinadas cuestiones mediante comparaciones. A Nivel Pedagógico: Modo de aplicación Los pasos a seguir para construir un diagrama de dispersión son:  Seleccionar las 2 variables que se van relacionar.  Establecer una hipótesis de la posible relación entre ambas.  Construir una tabla que nos relacione los valores de ambas variables por parejas. Si no disponemos de dichos datos será necesario realizar una toma.  Dibujar el diagrama poniendo una variable en cada uno de los ejes cartesianos (x,y) con una escala de valores que se ajuste a los datos que se dispone.  Representar en el gráfico cada par de valores por un punto.  Encontrar la correlación analizando la tendencia de la nube de puntos y la correlación entre las variables. Hoy en día gracias a la informática disponemos de programas basados en hojas de cálculo como Excel, Numbers o Calc que te permiten realizar rápidamente un diagrama de dispersión con solo introducir los datos de las variables. Interpretación del diagrama de dispersión Una vez que se ha realizado el diagrama de dispersión la forma que adquiera la nube de puntos nos permitirá analizar la relación entre las 2 variables o grupos de datos, pudiendo obtener las siguientes figuras e interpretaciones:
  • 9. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I  Correlación positiva - Se observa como la nube de puntos obtenida adquiere una forma de recta creciente, cuando los puntos de la nube se encuentra próximos a la recta se le conoce como fuerte, en el caso que se encuentren distantes a la recta es conocida como débil. Por ejemplo la relación existente entre la altura y el peso de una persona es positiva a mayor altura mayor peso.  Correlación negativa - Al contrario del caso anterior se observa como la nube de puntos obtenida adquiere una forma de recta decreciente, cuando los puntos de la nube se encuentra próximos a la recta se le conoce como fuerte, en el caso que se encuentren distantes a la recta es conocida como débil. Por ejemplo la relación existente para los fumadores entre el número de paquetes de tabaco al mes y los años de vida es negativa dado que a mayor cantidad de tabaco fumado menor esperanza de vida.  Correlación compleja - La nube de puntos obtenidas adquiere forma de curva, elipse u otra forma geométrica.  Correlación nula - Se observa una distribución de la nube de puntos con una forma circular, indicándonos la no existencia de relación entre ambas variables. Por ejemplo la relación existente entre el color de los ojos y el tamaño del pie es nula. Curvas de frecuencias  Frecuencias relativa.  Frecuencias acumuladas.  Curvas de frecuencias u ojivas.
  • 10. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I  Tipos de curva de frecuencias 3.11.5 Frecuencias Relativas A Nivel Pedagógico el estudiante debe reconocer que: La frecuencia relativa de una clase es la frecuencia de la clase dividida por el total de frecuencias de todas las clases y se expresa generalmente como el porcentaje.  Ejemplo: La frecuencia relativa de 66-68 de la tabla es  14/80 =0,175  17,5%  La suma de todas las frecuencias de todas las clases da 100% 3.11.6 Frecuencias Acumuladas La frecuencia total de todo los valores menores que el límite real superior de clase de un intervalo inclusive. Por ejemplo: la frecuencia acumulada hasta el intervalo de clase 66 -68 inclusive en la tabla es 12 + 16 + 14 = 42, el significado es que 42 estudiantes tienen alturas menores a 68,5.
  • 11. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I La tabla que representa las frecuencias acumuladas se llama distribución de frecuencias acumuladas. Hay casos que es preferible considerar una distribución de frecuencia acumulada de todos los valores mayores o iguales al límite inferior real 3.11.7 Frecuencias Relativas Acumuladas Es frecuencia acumulada dividida por el total de frecuencias se expresa generalmente como el porcentaje. Ejemplo: La frecuencia relativa de 66-68 de la tabla de frecuencias acumuladas menor que es: 42/80 =0,525 ( 5 La última frecuencia acumulada que es “menor que 74,5” da 100%
  • 12. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Tipos de Curvas de Frecuencias: Las curvas de frecuencias presentan determinadas formas características: 1. Las curvas de frecuencias simétricas o bien formadas se caracterizan por el hecho de que las observaciones del máximo central tienen las mismas frecuencias. 2. Las curvas de frecuencias moderadamente asimétrica se caracterizan por la cola de la curva a un lado del máximo central es mayor. 3. Las curvas en forma de J o de J invertida, el máximo se presenta en un extremo.
  • 13. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 4. Las curvas en forma U, tiene el máximo en ambos extremos. 5. Las curvas de frecuencias bimodal, tiene dos máximo. 6. Las curvas de frecuencias multimodal, tiene más de dos máximo. Los histogramas son herramientas estadísticas que nos permiten visualizar gráficamente y rápidamente la distribución de un estudio realizado, los histogramas son
  • 14. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I representaciones gráficas por medio de barras verticales, de una distribución de frecuencias de una variable continua. Cada una de las barras refleja un intervalo o clase y la altura de las barras representadas es proporcional a la frecuencia (número de veces) con que aparecen los valores en cada uno de los intervalos. Los histogramas también se le conocen con el nombre de “Diagramas de distribución de frecuencias”. Los Histogramas, son utilizados como una herramienta que ayuda en la toma de decisión para la resolución de problemas, mediante el histograma se puede identificar las pautas de comportamiento del conjunto de los datos y extraer conclusiones, así los histogramas la cual nos permite:  Realizar un análisis de distribución de datos.  Comprobar el grado de cumplimiento de las especificaciones.  Evaluar la eficacia de las soluciones. A Nivel Pedagógico: Previo a la explicación de los pasos a seguir para elaborar un histograma, el estudiante debe conocer algunos conceptos previos como:  Recorrido o rango ®: es el valor resultante de restar el valor máximo y el mínimo.  Clase (k): es la dimensión de un intervalo de variabilidad de los datos.  Frecuencia: número de elementos comprendidos en una determinada clase.  Los pasos a seguir son:  Recoger todos los datos (N) en una hoja de datos, en los histogramas se trabaja con datos, a menudo, con tiempos, pesos, tamaños…, y por lo tanto cuantos más datos obtengamos más exacto será el Histograma. El número total de valores se denominará “N”.  Obtener los valores máximo (Vmáx.) y mínimo (Vmín.).  Establecer el recorrido o rango ® de la siguiente forma: R = Vmáx. – Vmín, como vemos en la fórmula, simplemente deberemos restar el valor máximo de los datos obtenidos del valor mínimo.
  • 15. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I  Determinar el número de clases (k) que queremos que exista, con este dato determinaremos las barras que queremos que aparezcan en el Histograma, facilitándonos cuantas clases o grupos tenenos.  Calcular la amplitud de cada clase de la siguiente manera: i = R / k.  Redondear, al valor entero superior, si el resultado no es exacto en términos de la unidad.  Establecer los valores de los límites de clase.  Construir una tabla de distribución de frecuencias y asignar los datos obtenidos a su clase correspondiente, al hacerlo podemos encontrarnos con el problema de que tengamos valores en el límite entre una clase y otra, y no sepamos a cuál de las dos clases asignarlo, en este caso se recomienda asignar estos datos a una de las dos clases, la inferior o la superior, pero siempre con el mismo criterio, para no desvirtuar el gráfico.  Construir los ejes del histograma, para construirlos seguiremos los siguientes criterios, en el eje horizontal se colocan los valores de las marcas de clase y sobre el eje vertical se colocan los valores de las frecuencias.  Trazar los rectángulos correspondientes, una vez se hayan determinado los intervalos y sepamos cuántas mediciones caen dentro de cada intervalo, deberemos poner los rectángulos en función de los ejes del histograma. 3.11.8 Histogramas Los histogramas son herramientas estadísticas que nos permiten visualizar gráficamente y rápidamente la distribución de un estudio realizado, los histogramas son representaciones gráficas por medio de barras verticales, de una distribución de frecuencias de una variable continua. Cada una de las barras refleja un intervalo o clase y la altura de las barras representadas es proporcional a la frecuencia (número de veces) con que aparecen los valores en cada uno de los intervalos. Los histogramas también se le conocen con el nombre de “Diagramas de distribución de frecuencias” Los Histogramas, son utilizados como una herramienta que ayuda en la toma de decisión para la resolución de problemas, mediante el histograma se puede identificar las pautas de
  • 16. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I comportamiento del conjunto de los datos y extraer conclusiones, así los histogramas la cual nos permite:  eberemos pRealizar un análisis de distribución de datos.  Comprobar el grado de cumplimiento de las especificaciones.  Evaluar la eficacia de las soluciones.  Método de aplicación de los histogramas  Previo a la explicación de los pasos a seguir para elaborar un histograma, tenemos que conocer algunos conceptos previos como:  Recorrido o rango ®: es el valor resultante de restar el valor máximo y el mínimo.  Clase (k): es la dimensión de un intervalo de variabilidad de los datos.  Frecuencia: número de elementos comprendidos en una determinada clase.  El estudiante debe manejar los pasos a seguir que son:  Recoger todos los datos (N) en una hoja de datos, en los histogramas se trabaja con datos, a menudo, con tiempos, pesos, tamaños…, y por lo tanto cuantos más datos obtengamos más exacto será el Histograma. El número total de valores se denominará “N”.  Obtener los valores máximo (Vmáx.) y mínimo (Vmín.).  Establecer el recorrido o rango ® de la siguiente forma: R = Vmáx. – Vmín, como vemos en la fórmula, simplemente deberemos restar el valor máximo de los datos obtenidos del valor mínimo.  Determinar el número de clases (k) que queremos que exista, con este dato determinaremos las barras que queremos que aparezcan en el Histograma, facilitándonos cuantas clases o grupos tenenos.  Calcular la amplitud de cada clase de la siguiente manera: i = R / k.  Redondear, al valor entero superior, si el resultado no es exacto en términos de la unidad.  Establecer los valores de los límites de clase.  Construir una tabla de distribución de frecuencias y asignar los datos obtenidos a su clase correspondiente, al hacerlo podemos encontrarnos con el problema de que tengamos valores en el límite entre una clase y otra, y no sepamos a cuál de las dos clases asignarlo, en este caso se recomienda asignar estos datos a una de las dos clases,
  • 17. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I la inferior o la superior, pero siempre con el mismo criterio, para no desvirtuar el gráfico.  Construir los ejes del histograma, para construirlos seguiremos los siguientes criterios, en el eje horizontal se colocan los valores de las marcas de clase y sobre el eje vertical se colocan los valores de las frecuencias.  Trazar los rectángulos correspondientes, una vez se hayan determinado los intervalos y sepamos cuántas mediciones caen dentro de cada intervalo, doner los rectángulos en función de los ejes del histograma. Ejemplos de Tipos de Histograma
  • 18. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 3,11,9 Polígonos de Frecuencia Son otra forma de representar gráficamente distribuciones tanto de frecuencias simples como relativas. Pedagógicamente el estudiante debe: Para construir un polígono de frecuencias el estudiante tiene que colocar en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. A continuación, se gráfica cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una línea recta para formar un polígono. Se añaden dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas clases que contienen cero observaciones permiten que el polígono alcance el eje horizontal en ambos extremos de la distribución. Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el trazado de líneas verticales desde los límites de clase y luego conectando tales líneas con rectas horizontales a la altura de los puntos medios del polígono. Un polígono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las clases, en lugar del número real de puntos, se conoce como polígono de frecuencias relativas. Este polígono tiene la misma forma que el polígono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical.
  • 19. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Medidas tendencia central: Media Mediana Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se tienden ha reunir los datos (“Punto central”). Estas medidas aplicadas a las características de las unidades de una muestra se les denomina estimadores o estadígrafos; mientras que aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la población. Los principales métodos utilizados para ubicar el punto central son la media, la mediana y la moda. Media Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejoalgebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de todos los valores observados, dividido por el número total de observaciones. Cuando los valores representan una población la ecuación se define como: Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con muestras de la población todas las ecuaciones que se presenten a continuación serán representativas para las muestras. La media aritmética para una muestra esta determinada como
  • 20. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi) representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si los datos se encuentran desagrupados; en caso contrario debemos calcular la media mediante la multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la información; es decir, Ecuación 5-4 Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las frecuencias de cada clase. Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5 personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a 30 años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los puntos medios son 25, 35 y 45 respectivamente. Losresultados de la organización de estos datos se representan en la tabla [5-1]. Figura 5-1 Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a
  • 21. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha estos mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-3 ), tomando como referencia cada uno de los valores individuales, obtendríamos que la media es igual a Lo que nos indicaría que el promedio de edad para los datos desagroupados es de 34 añs aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores desagrupados, aunque tiene algunos procedimientos para valores agrupados. Es importante resaltar que existe una gran variedad de medias como la Media geométrica, la Media ponderada, la Media cuadrática, etc. Por el momento sólo hacemos énfasis en la media aritmética ya que es la más utilizada, aunque se recomienda a los lectores profundizar en estos temas. 3.11.10 Mediana Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo. Para determinar la posición de la mediana se utiliza la fórmula Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2, 5, 8, 10 y 13), la posición de la mediana sería:
  • 22. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie, que equivale al número (8). Si por el contrario contamos con un conjunto de datos que contiene un número par de observaciones, es necesario promediar los dos valores medios de la serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8, 10, 13 y 15) y la posición de la mediana sería, Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para producir una mediana equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo que nos indicaría que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por encima de este valor. En conclusión la mediana indica el valor que separa los datos en dos fracciones iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan con un número impar de observaciones o datos, la mediana dará como resultado una de las posiciones de la serie ordenada; mientras que para las muestras con un número par de observaciones se debe promediar los valores de las dos posiciones centrales. 3.11.11 Moda La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien seria la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo que se conoce como multimodal. En conclusión las Medidas de tendencia central, permite identificar los valores más representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos indica el valor que más se repite dentro de los datos.
  • 23. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Ejemplo1: A =es una matriz de orden 2x4, es decir, tiene dos filas y cuatro columnas. Ejemplo 2. En un curso de 30 alumnos se han realizado cuatro evaluaciones, por lo tanto existen cuatro notas por cada alumno y los resultados se pueden disponen mediante una matriz: Evaluaciones
  • 24. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 4. REDUCCION DE DATOS 4.1. MEDIDAS DE TENDENCIA CENTRAL Resumir a una distribución de frecuencias dada, sirviendo la cual además para realizar En esta sección definiremos una serie de medidas o valores que tratan de representar o comparaciones entre distintas distribuciones de frecuencias. Estas medidas reciben el nombre de promedios, medidas de posición o medidas de tendencia central. 4.2. MEDIA ARITMÉTICA Media aritmética Llamando xl,..., xk a los datos distintos de un carácter en estudio, o las marcas de clase de los intervalos en los que se han agrupado dichos datos, y ni,..., nk a las correspondientes frecuencias absolutas de dichos valores o marcas de clase, llamaremos de la distribución de frecuencias a. Ejemplo 01. La media aritmética de las veinticinco familias encuestadas será: Es decir, las familias encuestadas tienen un número medio de hijos de 1'68. En donde n es la frecuencia total. Se midieron los niveles de colinesterasa en un recuento de eritrocitos en &mu;mol/min/ml de 34 agricultores expuestos a insecticidas agrícolas, obteniéndose los siguientes datos:
  • 25. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I La distribución de frecuencias las marcas de clase será: La cual proporciona una media aritmética de 4.3. MEDIANA La mediana es otra medida de posición, la cual se define como aquel valor de la variable tal que, supuestos ordenados los valores de ésta en orden creciente, la mitad son menores o iguales y la otra mitad mayores o iguales Así, si en la siguiente distribución de frecuencias, ordenamos los valores en orden creciente, Individuo Nivel Individuo Nivel Individuo Nivel 1 10,6 13 12,2 25 11,8 2 12,5 14 10,8 26 12,7 3 11,1 15 16,5 27 11,4 4 9,2 16 15,0 28 9,3 5 11,5 17 10,3 29 8,6 6 9,9 18 12,4 30 8,5 7 11,9 19 9,1 31 10,1 8 11,6 20 7,8 32 12,4 9 14,9 21 11,3 33 11,1 10 12,5 22 12,3 34 10,2 11 12,5 23 9,7 12 12,3 24 12,0 Intervalo I i 7'5-9 9-10'5 10'5- 12 12- 13'5 13'5- 15 15- 16'5 Marca de Clase x i 8'25 9'75 11'25 12'75 14'25 15'75 Frecuencia n i 3 8 10 10 1 2 ?ni=25 x i n i N i 0 3 3 1 2 5 2 2 7 7
  • 26. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Lógicamente, en cuanto el valor de la frecuencia total sea ligeramente mayor, este procedimiento resulta inviable. Por esta razón, daremos a continuación una fórmula que permita calcularla. No obstante, será necesario distinguir los casos en los que los datos vengan agrupados de aquellos en los que vengan sin agrupar. 4.4. DATOS SIN AGRUPAR: icas siguientes, correspondientes a un diagrama de frecuencias absolutas acumuladas, recogen las dos situaciones que se pueden presentar: Si la situación es como la de la figura de la derecha, es decir, si Si la situación que se presenta es como la de la figura de la izquierda, entonces la mediana queda indeterminada, aunque en este caso se toma como mediana la media aritmética de los dos valores entre los que se produce la indeterminación; así pues, si Nj-1 = n/2 < Nj entonces la mediana es Ejemplo 01. La distribución de frecuencias acumuladas del ejemplo del número de hijos era y como es n/2=12'5 y en consecuencia 11 < 12'5 < 19 la mediana será Me= 2. Nº de hijos(xi) 0 1 2 3 4 Frecuencias Acumuladas(Ni) 5 11 19 23 25
  • 27. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 4.5. DATOS AGRUPADOS Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar: El más sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal que n/2 = Nj, la mediana es Me = xj. Si la situación es como la que se representa en la figura de la izquierda, en la que Nj-l < n/2 < Nj Entonces, la mediana, está en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomándose en ese caso, por razonamientos de proporcionalidad, como mediana el valor siendo cj la amplitud del intervalo [xj-1, xj). La distribución de frecuencias del ejemplo de los niveles de colinesterasa es: Al ser n/2 = 17 y estar 11 < 17 < 21 Intervalo I i 7'5-9 9-10'5 10'5-12 12-13'5 13'5-15 15-16'5 Frecuencia n i 3 8 10 10 1 2 Frecuencia Acumulada N i 3 11 21 31 32 34
  • 28. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I la mediana estará en el intervalo [10'5 , 12), y aplicando la fórmula anterior, será 4.6.MODA La moda se define como aquel valor de la variable al que corresponde máxima frecuencia (absoluta o relativa). Para calcularla, también será necesario distinguir si los datos están o no agrupados. 4.7. DATOS SIN AGRUPAR: Para datos sin agrupar, la determinación del valor o valores (ya que puede haber más de uno) modales es muy sencilla. Basta observar a que valor le corresponde una mayor ni. Ese será la moda. Así en el ejemplo del número de hijos, la simple inspección de la tabla siguiente proporciona como valor para la moda el Md = 2. 4.8. DATOS AGRUPADOS: Si los datos se presentan agrupados en intervalos es necesario, a su vez, distinguir si éstos tienen o no igual amplitud. Si tienen amplitud constante c, una vez identificado el intervalo modal [xj-1, xj), es decir el intervalo al que corresponde mayor frecuencia absoluta nj = max{nl, ..., nk}, la moda se define, también por razones geométricas, como Nº de hijos(xi) 0 1 2 3 4 Nº de familias(ni) 5 6 8 4 2 ?ni=25
  • 29. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I EJEMPLO 01. Este ejemplo presenta un caso de distribución bimodal, ya que tanto el intervalo [10'5 - 12) como el [12 - 13'5) tienen frecuencia absoluta máxima. Deberíamos aplicar, por tanto, para cada uno de los dos intervalos la fórmula anterior, determinando así las dos modas de la distribución. No obstante, este ejemplo presenta además la peculiaridad adicional de ser ambos intervalos modales contiguos. En esta situación se considera la distribución uni modal, eligiendo como moda el extremo común, Md = 12. Si los intervalos tuvieran distinta amplitud cj, primeros debemos normalizar las frecuencias absolutas nj, determinando los cocientes y luego aplicar la regla definida para el caso de intervalos de amplitud constante a los lj. Es decir, primero calcular el lj = max{l1,...., lk} para determinar el intervalo modal [xj-1, xj) y luego aplicar la fórmula Siendo cj la amplitud del intervalo modal [xj-1, xj). EJEMPLO 02. Las frecuencias normalizadas correspondientes al ejemplo de intervalos con distinta amplitud serán, Con lo que el intervalo modal es el [40 - 45) y la moda Ii ni li 0-20 8 0'4 20-30 9 0'9 30-40 12 1'2 40-45 10 2 45-50 9 1'8 50-60 10 1 60-80 8 0'4 80-100 4 0'2
  • 30. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I A diferencia de lo que ocurre con la media o con la mediana, sí es posible determinar la moda en el caso de datos cualitativos. Así, en el ejemplo del tratamiento de radiación seguido de cirugíapuede afirmarse que la causa modal por la que no fue completado el tratamiento es Md = rehusaron cirugía. 4.9. CUANTILES Los cuantiles o cuantilas son las últimas medidas de posición que veremos. De hecho algunos autores las incluyen dentro de las medidas de dispersión al ser medidas de posición no centrales. El cuantil pr/k r= 1,2,..., k - 1 se define como aquel valor de la variable que divide la distribución de frecuencias, previamente ordenada de forma creciente, en dos partes, estando el (100·r/k)% de ésta formado por valores menores que pr/k. Si k = 4 los (tres) cuantiles reciben el nombre de cuartíles. Si k = 10 los (nueve) cuantiles reciben, en este caso, el nombre de decíles. Por último, si k = 100 los (noventa y nueve) cuantiles reciben el nombre de centiles. Obsérvese que siempre que r y k mantengan la misma proporción (r/k) obtendremos el mismo valor. Es decir, por ejemplo, el primer cuartil es igual al vigésimo quinto centil. En este sentido, la mediana Me es el segundo cuartil, o el quinto decil, etc. Para el cálculo de los cuantiles de nuevo hay que considerar si los datos vienen o no agrupados en intervalos. Datos sin agrupar: Si los datos vienen sin agrupar y es Nj- 1 < < Nj el r-ésimo cuantil de orden k será pr/k= xj, valor al que corresponde la frecuencia absoluta acumulada Nj. Si la situación fuera de la forma Nj- 1 = < Nj tomaríamos, en esta situación indeterminada,
  • 31. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Datos agrupados: Si los datos se presentan agrupados y, para alguna j, fuera < Nj el résimo cuantil de orden k sería pr/k= xj. Por último, si fuera Nj-1 < < Nj el intervalo a considerar sería el [xj-1, xj), al que corresponde frecuencia absoluta ni y absoluta acumulada Ni, siendo entonces el cuantil el dado por la expresión, en donde cj es la amplitud del intervalo [xj-1, xj). Si el intervalo a considerar fuera el [x0 , x1), se tomaría en la expresión anterior Nj-1 = 0. Ejemplo: Vamos a determinar la tercera cuartila del ejemplo del número de hijos. Nº de hijos(xi) 0 1 2 3 4 Nº de familias(ni) 5 6 8 4 2 ?ni=25 Nº de familias(ni) 5 11 19 23 25 Como es y 11 < 18'75 < 19, será p3/4=2.
  • 32. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Ejemplo: Vamos a determinar la séptima decila del ejemplo de los niveles de colinesterasa. 21 < 23'8 < 31, el intervalo a considerar será el [12, 13'5), siendo Frecuencia Acumulada N i 3 11 21 31 32 34 7'5 9 10 12 13'5 15 9 10'5 12 13' 15 16'5 Como es: Frecuencia n i 3 8 10 10 1 2 Intervalo Ii
  • 33. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 5. MEDIDA DE POSICION Las medidas de posición se usan para describir la posición que tiene un dato específico en relación con el resto de los datos. Dos de estas medidas de posición más conocidas son los cuartiles y los percentiles. Dentro de la medida de posición se clasifican en dos variables. 5.1. CUARTILES: Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. Los cuartiles son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales. Los cuartiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes. Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana. 5.2. PORCENTILES: Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99. Datos Agrupados. Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:
  • 34. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I a. EJERCICIOS Ejercicio 1: . Una distribución estadística viene dada por la siguiente tabla: Hallar: SOLUCION a) Varianza. b) Los cuartiles 1º y 3º. c) Los deciles 3º y 6º. d) Los percentiles 30 y 70. Ejercicio 2: a) Completar los datos que faltan en la siguiente tabla estadística, donde n, N y f representan, respectivamente, la frecuencia absoluta, acumulada y relativa: X N N f 1 4 0,08 2 4 3 16 0,16 4 7 0,14 5 5 28 6 38 7 7 45 8 b) Calcula la media, mediana y moda de esta distribución SOLUCION [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) fi 3 5 7 4 2
  • 35. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I La frecuencia relativa de 1 es 0,08 = 4/N, de donde N = 50, lo que nos permite completar la tabla. X N N F 1 4 4 0,08 2 4 8 0,08 3 8 16 0,16 4 7 23 0,14 5 5 28 0,10 6 10 38 0,20 7 7 45 0,14 8 5 50 0,10 b) La media x = 4.76 , la mediana es 5 y la moda es 6 Ejercicio 3 Se ha pasado un test de 80 preguntas a 600 personas. El número de respuestas correctas se refleja en la siguiente tabla: a) Calcular la media, desviación media y desviación típica. b) Calcula la mediana, los cuartiles y los percentiles 20 y 85. c) ¿Cuál es el percentil de una persona que tiene 65 respuestas correctas? SOLUCION: Hacemos las tablas de frecuencias: RESPUESTAS CORRECTAS NUMERO DE PERSONAS [0, 10) 40 [10, 20) 60 [20, 30) 75 [30, 40) 90 [40, 50) 105 [50, 60) 85 [60, 70) 80 [70, 80) 65
  • 36. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I INTRERVALO Xi ni Ni Xi ni [0, 10) 5 40 40 200 1000 1506, 67 [10, 20) 15 60 100 900 13500 1660, 00 [20, 30) 25 75 175 1875 46875 1325, 00 [30, 40) 35 90 265 3150 11025 0 690,0 0 [40, 50) 45 105 370 4725 21262 5 245,0 0 [50, 60) 55 85 455 4675 25712 5 1048, 33 [60, 70) 65 80 535 5200 33800 0 1786, 67 [70, 80) 75 65 600 4875 36562 5 2101, 67 600 25600 1345000 10363,33 a) X = 25600 600 = 42,67 𝜎2 = 1345000 600 - 42,672 = 420.94 entonces 𝜎 = √420.94 = 20.52 DM = 10363.33 600 = 17.27 b)  Para la mediana 600/2 = 300, luego voy al intervalo ( 40,50) Me = 40 + 300−265 370−265 . 10 = 40 + 3,33 = 43,33  Para Q1 entonces 600/4 = 150 , luego voy al intervalo ( 20,30) Q1 = 20+ 150−100 175−100 . 10 = 20 + 6,66 = 26,66  Para Q1 (3/4) . 600 = 450 , luego voy al intervalo ( 50, 60) Q1 = 50 + 450−370 455−370 . 10 = 50 + 9.41 = 59.41 𝑝20 (20/100). 600= 120, luego voy al intervalo (20,30) P = 20 + 129−100 175−100 . 10 =20 + 2.66 = 22.66
  • 37. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I  Para 𝑝85 entonces (85/100) .600= 510, luego voy al intervalo (60,70) 𝑝85 = 60 + 510−455 535−455 . 10 = 60 + 8.88 = 68.88 c) 65 = 60 + 𝑑−455 535−455 . 10 entonces d = 495 luego 495 = 𝑘 100 . 600 entonces k= 82.5
  • 38. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 6. MEDIDA DE DISPERSION Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad. La dispersión es importante porque: Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos. Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas. Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes. Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica?. Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de variación. 6.1. EL RANGO O RECORRIDO Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor más alto (Xn ó Xmax.) y el más bajo (X1 ó Xmin) en un conjunto de datos. Rango para datos no agrupados; R = Xmáx.-Xmín = Xn-X1
  • 39. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I a. EJERCICIOS. EJERCICIO 1: Se tienen las edades de cinco estudiantes universitarios de primer año, a saber: 18,23, 27,34 y 25., para calcular la media aritmética (promedio de las edades, se tiene que: SOLUCION: R = Xn-X1 ) = 34-18 = 16 años Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los de clases. Se aproxima el rango tomando el límite superior de la última clase menos el límite inferior de la primera clase. Rango para datos agrupados; R= (lim. Sup. de la clase n – lim. Inf. De la clase 1) EJERCICIO 2: Los datos que se dan a continuación corresponden a los pesos en Kg. de ochenta Personas: (a) Obténgase una distribución de datos en intervalos de amplitud 5, siendo el primer Intervalo [50; 55]. (b) Calcúlese el porcentaje de personas de peso menor que 65 Kg. (c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg. pero menor que 85? 6 0 ; 6 6 ; 7 7 ; 7 0 ; 6 6 ; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ; 7 1 ; 5 8 ; 6 6 ; 6 7 ; 7 4 ; 6 1 ; 6 3 ; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ; 8 1 ; 6 2 ; 6 4 ; 6 9 ; 6 8 ; 7 2 ; 8 3 ; 5 6 ; 6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ; 6 1 ; 6 7 ; 7 3 ; 5 7 ; 6 2 ; 6 7 ; 6 8 ; 6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ; 6 1 ; 6 2 ; 6 3 ; 7 6 ; 6 1 ; 6 7 ; 6 7 ; 6 4 ; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5 8 ; 6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ; 7 0 ; 6 6 ; 6 2 ; 6 3 ; 6 6 ; SOLUCIÓN: (a) Como se trata de efectuar una distribución de datos agrupados, debemos obtener primero los Intervalos correspondientes, situando los datos en sus lugares respectivos: Li-1 - Li Ni Ni (50, 55)
  • 40. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I (b) Observando la columna de frecuencias acumuladas se deduce que existen N3 = 26 individuos Cuyo peso es menor que 65 Kg., que en términos de porcentaje corresponden a: 26 80 . 100 = 32,25% (c) El número de individuos con peso comprendido entre 70 y 85 Kg. es: n5 + n6 + n7 = 14 + 7 + 3 = 24 Lo que es equivalente a: N7 – N4 = 80 – 56 = 24 EJERCICIO 3: Las edades de los empleados de una determinada empresa son las que aparecen en la Siguiente tabla: Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de Frecuencias acumuladas decrecientes (o «más de»). 2 2 (55,60) 7 9 (60,65) 17 26 (65,70) 30 56 (70,75) 14 70 (75,80) 7 77 (80,85) 3 80 80 Edad N° empleados Menos de 25 22 Menos de 35 70 Menos de 45 221 Menos de 55 157 Menos de 65 184
  • 41. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I SOLUCION: Es preciso obtener, en principio, la distribución de frecuencias absolutas: Li-1 – Li Ni [18; 25) 22 [25; 35) 48 [35; 45) 51 [45; 55) 36 [55; 65] 27 184 A la vista de la tabla anterior, la distribución pedida es: Edad N.° de empleados Más de 18 184 Más de 25 162 Más de 35 114 Más de 45 63 Más de 55 27
  • 42. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 7. MEDIDAS DE ASIMETRIA 7.1.DEFINICIÓN Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o asimetría) que presenta una distribución de probabilidad de una variable aleatoria sin tener que hacer su representación gráfica. Como eje de simetría consideramos una recta paralela al eje de ordenadas que pasa por la media de la distribución. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda. 7.2.TIPOS DE ASIMETRÍA La asimetría presenta las siguientes formas: Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de los datos tiene a la izquierda una cola más larga que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la mediana a su vez es menor que la moda, en símbolos Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría. As<0
  • 43. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es simétrica cuando su media aritmética, su mediana y su moda son iguales, en símbolos Md=Mo Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la derecha una cola más larga que a la izquierda. También se dice que una distribución es simétrica a la derecha o tiene sesgo positivo cuando el valor de la media aritmética es mayor que la mediana y éste a valor de la mediana a su vez es mayor que la moda, en símbolos 7.3.MEDIDAS DE ASIMETRÍA Coeficiente de asimetría de Pearson Sólo se puede utilizar en distribuciones uniformes, unimodales y moderadamente asimétricas. Se basa en que en distribuciones simétricas la media de la distribución es igual a la moda. Donde es el momento central de orden 1, que corresponde a la media aritmética de variable . Si la distribución esla simétrica, y . Si la distribución es asimétrica positiva la media se sitúa por encima de la moda y, por tanto .
  • 44. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Donde: = media aritmética. Md = Mediana. s = desviación típica o estándar. Nota: El Coeficiente de Pearson varía entre -3 y 3 Si As < 0? la distribución será asimétrica negativa. Si As = 0 ? la distribución será simétrica. Si As > 0 ? la distribución será asimétrica positiva. Medida de Yule Bowley o Medida Cuartílica Está basado en la posición de los cuartiles y la mediana, y utiliza la siguiente expresión: En una distribución simétrica el tercer cuartil estará a la misma distancia de la mediana que el primer cuartil. Por tanto . Si la distribución es positiva o a la derecha, Donde: = Cuartil uno; = Cuartil dos = Mediana; = Cuartil tres. Nota: La Medida de Bowley varía entre -1 y 1 Si As < 0 ? la distribución será asimétrica negativa.
  • 45. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Si As = 0 ? la distribución será simétrica. Si As > 0 ? la distribución será asimétrica positiva. Coeficiente de asimetría de Fisher En teoría de la probabilidad y estadística, la medida de asimetría más utilizada parte del uso del tercer momento estándar. La razón de esto es que nos interesa mantener el signo de las desviaciones con respecto a la media, para obtener si son mayores las que ocurren a la derecha de la media que las de la izquierda. Sin embargo, no es buena idea tomar el momento estándar con respecto a la media de orden 1. Debido a que una simple suma de todas las desviaciones siempre es cero. En efecto, si por ejemplo, los datos están agrupados en K clases, se tiene que: ] en donde representa la marca de la clase ésima y denota la frecuencia relativa de dicha clase. Por ello, lo más sencillo es tomar las desviaciones al cubo. El coeficiente de asimetría de Fisher, representado por , se define como: Donde es el tercer momento en torno a la media y es la desviación estándar. Si , la distribución es asimétrica positiva o a la izquierda. Si , la distribución es asimétrica negativa o a la derecha. Si la distribución es simétrica, entonces sabemos qué . El recíproco no es cierto: es un error común asegurar que si entonces la distribución es simétrica (lo cual es falso).
  • 46. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Para datos sin agrupar se emplea la siguiente fórmula: Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula: Para datos agrupados en intervalos se emplea la siguiente fórmula: Donde: = cada uno de los valores; n = número de datos; = media aritmética; f = frecuencia absoluta = cubo de la desviación estándar poblacional; xm = marca de clase Nota: Si As < 0 ?Indica que existe presencia de la minoría de datos en la parte izquierda de la media, aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica negativa Si As = 0? la distribución será simétrica Si As > 0? Indica que existe presencia de la minoría de datos en la parte derecha de la media, aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica positiva Ejemplo ilustrativo: Calcular el Coeficiente de Pearson, Medida Cuartílica y la Medida de Fisher dada la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17 Solución: Calculando la media aritmética se obtiene:
  • 47. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Para calcular los cuartiles se ordena los datos de menor a mayor 6 9 9 12 12 12 15 17 Calculando el cuartil uno se obtiene: Calculando el cuartil dos se obtiene: Calculando el cuartil tres se obtiene: Calculando la desviación estándar muestral se obtiene: Calculando el Coeficiente de Pearson se obtiene:
  • 48. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Calculando la Medida de Bowley se obtiene Calculando la desviación estándar poblacional se obtiene: Calculando la Medida de Fisher se obtiene Los cálculos en Excel se muestran en la siguiente figura: Datos 6 -166,375 9 -15,625 9 -15,625 12 0,125 12 0,125 12 0,125 15 42,875 17 166,375 Total 12
  • 49. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Nota: El COEFICIENTE.ASIMETRIA (A2:A9) es un valor que tiene consideraciones semejantes a la Medida de Fisher
  • 50. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 8. CURTOSIS O APUNTAMIENTO La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la distribución normal, es decir, mide cuán puntiaguda es una distribución. 8.1. TIPOS DE CURTOSIS La curtosis determina el grado de concentración que presentan los valores en la región central de la distribución. Así puede ser: Leptocúrtica.- Existe una gran concentración. Mesocúrtica.- Existe una concentración normal. Platicúrtica.- Existe una baja concentración. 8.2. MEDIDAS DE CURTOSIS Medida de Fisher Para datos sin agrupar se emplea la siguiente fórmula: Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula: Para datos agrupados en intervalos se emplea la siguiente fórmula:
  • 51. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Dónde: = cada uno de los valores; n = número de datos; = media aritmética; = Cuádruplo de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca de clase Nota: Si a < 3 ? la distribución es platicútica Si a = 3 ? la distribución es normal o mesocúrtica Si a > 3 ? la distribución es leptocúrtica Medida basada en Cuartiles y Percentiles (letra griega minúscula kappa) = Coeficiente percentil de curtosis Nota: Si < 0,263 ? la distribución es platicúrtica Si = 0,263 ? la distribución es normal o mesocúrtica Si > 0,263 ? la distribución es leptocúrtica Esta medida no es muy utilizada.
  • 52. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Ejemplo ilustrativo: Determinar qué tipo de curtosis tiene la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17. Emplear la medida de Fisher y el coeficiente percentil de curtosis. Solución: Calculando la media aritmética se obtiene Calculando la desviación estándar poblacional se obtiene: Calculando la Medida de Fisher se obtiene: Para calcular los cuartiles y percentiles se ordena los datos de menor a mayor: Datos 6 9,150,625 9 390,625 9 390,625 12 0,0625 12 0,0625 12 0,0625 15 1,500,625 17 9,150,625 Total 2058,5 6 9 9 12 12 12 15 17
  • 53. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Calculando el cuartil uno se obtiene: Calculando el cuartil tres se obtiene: Calculando el percentil 90 se tiene: Calculando el percentil 10 se tiene: Calculando el coeficiente percentil de curtosis se obtiene: Como a= 2,23 y la distribución es platicúrtica Los cálculos en Excel se muestran en la siguiente figura:
  • 54. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Ejercicio Calcula media, moda, desviación típica, el coeficiente de asimetría y curtosis de la siguiente tabla de datos:
  • 55. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Luego es una distribución asimétrica negativa o a la izquierda y Platicúrtica
  • 56. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 9. DISTRIBUCION BIDIMENSIONAL 9.1. CONCEPTOS GENERALES. Hasta ahora hemos estudiado sobre cada observación de las que forman la muestra el valor que presenta un determinado carácter. En este tema estudiaremos sobre cada observación dos caracteres (por ejemplo: peso y altura, edad y salario,...). Estos dos caracteres tendrán unas variables asociadas que denotaremos por X e Y. cada variable tomara unos valores x1, x2,..., xk (la variable X) y y1, y2,..., yp (la variable Y). A la variable (X, Y) la llamaremos variable estadística bidimensional y sus valores serán los pares de valores (xi, yj). Los razonamientos que presentaremos para dos variables (estadística bidimensional) son extrapolables en mayor o menor medida para “n” variables (estadística n-dimensional). La estadística unidimensional estudia los elementos de un conjunto de datos considerando sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa simultáneamente el comportamiento de ambas, entonces estamos en el campo del análisis bidimensional, cuya agrupación da origen a las distribuciones bidimensionales de frecuencia. No se trata de elegir dos variables cualesquiera, es una observación simultánea de variables que tengan entre sí alguna relación, afinidad o dependencia. Podemos considerar dos aspectos: a. Las distribuciones bidimensionales de frecuencia, que se refiere a la presentación de tablas de frecuencia, a través del cálculo de medidas de resumen. b. Determinar modelos estadísticos y medir la relación o asociación entre dos variables.
  • 57. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 9.2. TABLAS DE CONTINGENCIA Las tablas de contingencia se utilizan para conocer si existe o no relación entre variables de tipo cualitativo. Este tipo de variables pueden ser de tipo nominal por ejemplo sexo del encuestado (Hombre; mujer), o tipos de marcas de un producto (Coca-cola, Pepsi-cola,…), u ordinal tales como la medición del grado de satisfacción de un grupo de clientes empleando una escala del tipo (0 = Nada; 1 = Poco; 2 = Indiferente; 3 = Bastante; 4 = Mucho). El empleo de las tablas de contingencia está especialmente indicado si las variables son de tipo nominal. 1º. ¿Existe relación entre dos variables de tipo cualitativo? ¿En qué condiciones se pueden utilizar las tablas de contingencia? 2º. ¿Qué grado de relación existe entre las variables? 3º. ¿En qué grado existe la relación? • Para responder a la primera pregunta estudiaremos el test de la x2 • Para responder a la segunda analizaremos diferentes coeficientes de asociación: el de contingencia, el de la Q de Yule, la Gamma, el Tau-b, y el Tau-c de Kendall, y la D de Sommers. • Para responder a la tercera estudiaremos la técnica de los residuos estandarizados. Explicación de la técnica De forma general, si dos factores o atributos A y B se estudian sobre una misma población y se miden las unidades estadísticas (frecuencias absolutas) se obtienen dos series representativas de cada uno de los factores o atributos. Por ejemplo, tras realizar un estudio en su supermercado sobre la relación entre el sexo del encuestado y la compra de un determinado producto se obtienen los siguientes datos.
  • 58. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Sobre estos datos podríamos preguntar si existe relación entre esas variables, es decir ¿existe asociación entre la compra del producto y el sexo al que se pertenece? Una forma de plantear los resultados, para contestar al tipo de cuestiones anteriormente planteadas, es su disposición en una tabla de doble entrada, conocida como tabla de contingencia. En nuestro ejemplo, la tabla de contingencia sería: Estas tablas se usan para mostrar la dependencia o independencia entre dos factores, para el caso de muestras independientes. En esta tabla observamos dos atributos (Varón, mujer) X dos atributos (Compra, No compra). Estas tablas se pueden expresar de modo general: A, B, C, y D son las frecuencias observadas del suceso en realidad (32, 10, 11 y 27 en nuestro ejemplo). N es el número total de casos estudiados (80). A + B, C + D, A + C y B + D son las totales marginales. En nuestro ejemplo A + B sería el número total de compradores (42), C + D el número total de no compradores (38), A + C el número total de hombres (43), y B + D (37) el número total de mujeres. En esta clase se analizará la utilidad de las tablas de contingencia para determinar la dependencia/independencia entre varios factores. Analizaremos primero las tablas más sencillas (las tablas 2 x 2) para pasar posteriormente a otras más complejas. Cuando los datos de investigación consisten en frecuencias medidas en escala nominal u ordinal, como es el caso de las tablas de contingencia puede usarse la prueba x2 para determinar la significación de las diferencias entre dos grupos independientes.
  • 59. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I La hipótesis que usualmente se pone a prueba supone que los dos grupos difieren con respecto a alguna característica y, por lo tanto, con respecto a la frecuencia relativa con que los miembros del grupo son encontrados en diferentes categorías. Para probar esta hipótesis, contamos el número de casos de cada grupo en cada categoría y compramos la proporción de casos en las diferentes categorías de un grupo con las de otro grupo. 9.3. TABULACIÓN DE VARIABLES ESTADÍSTICAS BIDIMENSIONALES. Vamos a considerar 2 tipos de tabulaciones: 1º) Para variables cuantitativas, que reciben el nombre de tabla de correlación. 2º) Para variables cualitativas, que reciben el nombre de tabla de contingencia. 9.4. TABLAS DE CORRELACIÓN. Sea una población estudiada simultáneamente según dos caracteres X e Y; que representaremos genéricamente como (xi; yj; nij), donde xi; yj, son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de correlación, la cual podemos representar como sigue:
  • 60. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 9.5. TIPOS DE DISTRIBUCIONES Cuando se estudian conjuntamente dos variables, surgen tres tipos de distribuciones: Distribuciones conjuntas, distribuciones marginales y distribuciones condicionadas. i. DISTRIBUCIÓN CONJUNTA - La frecuencia absoluta conjunta, viene determinada por el número de veces que aparece el par ordenado (xi, yj), y se representa por “nij”. - La frecuencia relativa conjunta, del par (xi, yj) es el cociente entre la frecuencia absoluta conjunta y el número total de observaciones. Se trata de “fij”. Se cumplen las siguientes relaciones entre las frecuencias de distribución conjunta: 1ª. La suma de las frecuencias absolutas conjuntas, extendida a todos los pares es igual al total de observaciones. 2ª) La suma de todas las frecuencias relativas conjuntas extendida a todos los pares es igual a la unidad. ii. DISTRIBUCIONES MARGINALES Cuando trabajamos con más de una variable y queremos calcular las distribuciones de frecuencias de cada una de manera independiente, nos encontramos con las distribuciones marginales.
  • 61. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Variable x variable y - Frecuencia absoluta marginal: el valor ni. Representa el número de veces que aparece el valor xi de X, sin tener en cuenta cual es el valor de la variable Y. A ni. se le denomina frecuencia absoluta marginal del valor xi de X, de forma que: - De la misma manera, la frecuencia absoluta marginal del valor yj de Y se denotará por n.j - Frecuencia relativa marginal - La frecuencia relativa marginal de xi de X, viene dada por: - La frecuencia relativa marginal de yj de Y, viene dada por: - Se cumplen las siguientes relaciones entre las frecuencias de distribución marginales: 1ª) La suma de frecuencias absolutas marginales de la variable X, es igual al número de observaciones que componen la muestra
  • 62. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 2ª) La suma de las frecuencias relativas marginales de la variable X, es igual a 1. 3ª) Las dos propiedades anteriores se cumplen también para la variable Y. iii. DISTRIBUCIONES CONDICIONADAS Consideremos a los n.j individuos de la población que representan la modalidad yj de la variable Y, y obsérvese la columna j-esima de la tabla. Sus n.j elementos constituyen una población, que es un subconjunto de la población total. Sobre este subconjunto se define la distribución de X condicionada por yj, que se representa por X / yj; su frecuencia absoluta se representa por ni / j, y su frecuencia relativa por fi / j , para i = 1, 2, 3, …., nij El razonamiento es análogo cuando condicionamos la variable Y a un determinado valor de X, es decir Y /xi Ejemplo: Sea X= salario en u.m. Sea Y = antigüedad en la empresa (años) ¿Cuál es la distribución de la retribución, pero únicamente de los empleados con una antigüedad de 5 años?, es decir ¿cuál es la distribución condicionada de la variable X condicionada a que Y sea igual a 5? X / Y 1 3 5 7 9 11 ni. fi. 90 1 2 1 1 0 0 5 0,053 110 2 4 4 5 2 1 18 0,189 130 1 7 3 1 2 0 14 0,147 150 4 6 6 4 3 0 23 0,242 170 2 3 4 6 4 1 20 0,211 190 0 0 2 5 5 3 15 0,158 n.j 10 22 20 22 16 5 95 1 f.j 0,105 0,232 0,21 1 0,232 0,168 0,053 1
  • 63. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I iv. COVARIANZA La covarianza mide la forma en que varía conjuntamente dos variables X e Y En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas. Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relación: Si Sxy >0 hay dependencia directa (positiva), es decir las variaciones de las variables tienen el mismo sentido Si Sxy = 0 las variables están incorreladas, es decir no hay relación lineal, pero podría existir otro tipo de relación. Si Sxy < 0 hay dependencia inversa o negativa, es decir las variaciones de las variables tienen sentido opuesto. Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los siguientes casos: X / Y ni/ y=5 fi/ y=5 90 1 1/20 110 4 4/20 130 3 3/20 150 6 6/20 170 4 4/20 190 2 2/20 n.j 20 1
  • 64. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I - Otra forma de calcular la Covarianza sería: Será la que utilizaremos en la práctica. - La covarianza no es un parámetro acotado, y puede tomar cualquier valor real, por lo que su magnitud no es importante; lo significativo es el signo que adopte la misma. Ejemplo: Sea X el tiempo de vida de un insecto (años) e Y la longitud del mismo, ¿podrías deducir si existe relación entre la “edad” del insecto y su tamaño. Al tener la covarianza entre ambas variables signo positivo, podemos deducir que existe una relación directa o positiva entre ambas variables, es decir, cuando aumenta la “edad” del insecto también aumenta su tamaño. v. TABLAS DE CONTINGENCIA Cuando tenemos la información de 2 variables de tipo cualitativo o de una variable cualitativa y otra cuantitativa, se dispone de una tabla de contingencia. Nos limitaremos al caso de 2 variables. Es una tabla de doble entrada en la que en las filas se ubican las X / Y 2 3 4 ni. 1 3 1 0 4 2 1 3 1 5 3 0 1 3 4 n.j 4 5 4 13 1 * 4 + 2 * 5 + 3 * 4 13 = 2 Años= 1 2 * 4 + 3 * 5 + 4 * 4 = 3 cm 13= 1 0.462=
  • 65. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I modalidades de una de las variables (atributos) y en las columnas las del otro; en las celdas resultantes del cruce de las filas y las columnas se incluye el número de elementos de la distribución que presentan ambas modalidades. Si se tiene información de n elementos acerca de las variables a y b de tal forma que presentan “r” y “s” modalidades respectivamente, la tabla de contingencia sería de la forma: nij= número de elementos de la distribución que presentan la modalidad i – ésima del atributo A y la modalidad j – esima del atributo B. ni.= ni1+ ni2+… + nis -- – ésima modalidad del atributo A. Como a las variables cualitativas no se les puede someter a operaciones de sumas, restas y divisiones, al venir expresadas en escalas nominales u ordinales no tiene sentido hablar de medias marginales, condicionadas, varianzas, etc; si podríamos calcular la moda en el caso de que se empleara una escala nominal y de la mediana si utilizamos escalas ordinales.
  • 66. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 9.6. DEPENDENCIA E INDEPENDENCIA INDEPENDENCIA Cuando no se da ningún tipo de relación entre 2 variables o atributos, diremos que son independientes. Dos variables X e Y, son independientes entre sí, cuando una de ellas no influye en la distribución de la otra condicionada por el valor que adopte la primera. Por el contrario existirá dependencia cuando los valores de una distribución condicionan a los de la otra. Dada dos variables estadísticas X e Y, la condición necesaria y suficiente para que sean independientes es: Propiedades: 1ª) Si X es independiente de Y, las distribuciones condicionadas de X/Yj son idénticas a la distribución marginal de X. 2ª) Si X es independiente de Y, Y es independiente de X. 3ª) Si X e Y son 2 variables estadísticamente independientes, su covarianza es cero. La recíproca de esta propiedad no es cierta, es decir, la covarianza de 2 variables puede tomar valor cero, y no ser independientes. 9.7. DEPENDENCIA FUNCIONAL (existe una relación matemática exacta entre ambas variables) El carácter X depende del carácter Y, si a cada modalidad yj de Y corresponde una única modalidad posible de X. Por lo tanto cualquiera que sea j, la frecuencia absoluta nij vale cero salvo para un valor de i correspondiente a una columna j tal que nij = n.j Cada columna de la tabla de frecuencias tendrá, por consiguiente, un único término distinto de cero. Si a cada modalidad xi de X corresponde una única modalidad posible de Y, será Y dependiente de X. La dependencia de X respecto de Y no implica que Y dependa de X. Para que la dependencia sea recíproca, los caracteres X e Y deben presentar el mismo número de modalidades (debe ser n=m) y en cada fila como en cada columna de la tabla debe haber uno y solo un término diferente de cero.
  • 67. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Sea X el salario de un empleado e Y la antigüedad del mismo en la empresa X Y 1 3 5 7 9 100 15 0 0 0 0 120 0 20 0 0 0 140 0 0 30 0 0 160 0 0 0 25 0 180 0 0 0 0 10 Dependencia funcional recíproca: X depende de Y e Y depende de X Y depende de X pero X no depende de Y 9.8. DEPENDENCIA ESTADÍSTICA (existe una relación aproximada) Existen caracteres que ni son independientes, ni se da entre ellos una relación de dependencia funcional, pero si se percibe una cierta relación de dependencia entre ambos; se trata de una dependencia estadística. Cuando los caracteres son de tipo cuantitativo, el estudio de la dependencia estadística se conoce como el problema de “regresión”, y el análisis del grado de dependencia que existe entre las variables se conoce como el problema de correlación. 9.9. REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE Introducción a la regresión lineal simple Cuando se estudian dos características simultáneamente sobre una muestra, se puede considerar que una de ellas influye sobre la otra de alguna manera. El objetivo principal de la regresión es descubrir el modo en que se relacionan. X Y 1 3 5 7 9 10 100 15 0 0 0 0 0 120 0 20 0 0 0 0 140 0 0 30 0 12 0 160 0 0 0 25 0 0 180 0 0 0 0 0 9
  • 68. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Por ejemplo, en una tabla de pesos y alturas de 10 personas Altura 17 5 18 0 16 2 15 7 18 0 17 3 17 1 16 8 16 5 16 5 Peso 80 82 57 63 78 65 66 67 62 58 Se puede suponer que la variable “Altura” influye sobre la variable “Peso” en el sentido de que esos grandes vienen explicados por valores grandes de altura (en general). De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE DEPENDIENTE o EXPLICADA. En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber qué variable influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le supondremos menor altura y a una persona de poca altura le supondremos un peso más bajo. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y por igual. Un ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde se anota, de cada alumno de una clase, su tiempo de estudio (en horas) y su nota de examen. En este caso un pequeño tiempo de estudio tenderá a obtener una nota más baja, y una nota buena nos indicará que tal vez el alumno ha estudiado mucho. Sin embargo, a la hora de determinar qué variable explica a la otra, está claro que el “tiempo de estudio” explica la “nota de examen” y no al contrario, pues el alumno primero estudia un tiempo que puede decidir libremente, y luego obtiene una nota que ya no decide arbitrariamente. Por tanto, X = Tiempo de estudio (variable explicativa o independiente) Y = Nota de examen (variable explicada o dependiente) El problema de encontrar una relación funcional entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. El caso más sencillo de relación entre dos variables es la relación LINEAL, es decir que Y = a + b X
  • 69. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I (Es la ecuación de una recta) donde a y b son números, que es el caso al que nos vamos a limitar. 9.10. EJERCICIOS Ejercicio nº 01.- Se ha preguntado en seis familias por el número de hijos y el número medio de días que suelen ir al cine cada mes. Las respuestas han sido las siguientes: a) Halla las dos rectas de regresión y represéntalas. b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables? Solución: a)  Medias:  Desviaciones típicas:  Covarianza: 3 6 18 5,2 6 15   y x 15,133,13 6 62 96,092,05,2 6 43 2 2   y x  
  • 70. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Coeficientes de regresión: Rectas de regresión: Representación: b) La correlación es prácticamente nula; las rectas son casi perpendiculares. 17,035,2 6 44 xy 18,0 92,0 17,0 sobre    yxmxy 13,0 33,1 17,0 sobre    xymyx   45,318,05,218,03sobre  xyxyxy  313,05,2sobre  yxyx 89,213,0  yx xy  89,213,0 23,2269,7 13,0 89,2    xy x y
  • 71. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I Ejercicio nº 02.- En un reconocimiento médico a los niños de un colegio, se les ha pesado, en kilogramos, y se les ha medido, en centímetros. Aquí tienes los datos de los primeros seis niños: Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables? Solución:  Medias:  Desviaciones típicas:  Covarianza:  Coeficiente de correlación:  La relación entre las variables es positiva, pero débil. Ejercicio nº 03.- 83,25 6 155 33,123 6 740   y x 35,564,2883,25 6 4175 90,904,9833,123 6 91850 2 2   y x   72,2272,2283,2533,123 6 19250  xyxy  43,043,0 35,590,9 72,22    rr yx xy   x i y i x i 2 y i 2 x iy i 120 25 14400 625 3000 110 30 12100 900 3300 140 35 19600 1225 4900 130 25 16900 625 3250 125 20 15625 400 2500 115 20 13225 400 2300 740 155 91850 4175 19250
  • 72. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I En distintos modelos de aspiradores se ha medido el peso, en kilogramos, y la capacidad útil de la bolsa, en litros, obteniendo los siguientes resultados: a) Halla la recta de regresión de Y sobre X. Solución: a)  Medias: Varianza de x:  Covarianza: Coeficiente de regresión  Ecuación de la recta de regresión de Y sobre X: Sí es fiable, puesto que la correlación es fuerte, r x intervalo de datos que estamos considerando. Para un peso de 6 kg la capacidad de la bolsa será, aproximadamente, de 2,21 litros.   0,85).que(Sabemos?estimaciónestafiable¿Es.6Calculab) ryˆ 58,2 6 5,15 28,6 6 7,37   y x 52,058,228,6 6 35,100 xy   77,533,128,633,158,2  xyxy   21,277,5633,16ˆb) y 39,028,6 6 97,238 22 x 33,1 39,0 52,0 2  x xy yxm  
  • 73. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 10. CONCLUSIÓN  La Estadística es una ciencia matemática que se utiliza para describir, analizar e interpretar ciertas características de un conjunto de individuos llamado población. Cuando nos referimos a muestra y población hablamos de conceptos relativos pero estrechamente ligados. Una población es un todo y una muestra es una fracción o segmento de ese todo.  Podemos dividir la estadística en dos ramas; la estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio; y la estadística inferencial, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión.  La estadística trata en primer lugar, de acumular la masa de datos numéricos provenientes de la observación de multitud de fenómenos, procesándolos de forma razonable. Mediante la teoría de la probabilidad analiza y explora la estructura matemática subyacente al fenómeno del que estos datos provienen y, trata de sacar conclusiones y predicciones que ayuden al mejor aprovechamiento del fenómeno.
  • 74. UNIVERSIDAD DE HUANUCO INGENIERIA CIVIL ESTADISTICA I 11. BIBLIOGRAFIA  Mª Ángeles palacios, Fernando A. López Hernández, José García Córdoba y Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”. Librería Escarabajal  Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”. Ed. Thomson  Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico de Estadística Descriptiva. I.N.A.P.  Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de Estadística Descriptiva y Probabilidad. Ed. Némesis.  BENALCÁZAR, Marco, (2002), Unidades para Producir Medios Instruccionales en Educación, SUÁREZ, Mario Ed. Graficolor, Ibarra, Ecuador. DAZA, Jorge, (2006), Estadística Aplicada con Microsoft Excel, Grupo Editorial Megabyte, Lima, Perú. SUÁREZ, Mario, (2004), Interaprendizaje Holístico de Matemática, Ed. Gráficas Planeta, Ibarra, Ecuador. SUÁREZ, Mario, (2011), Interaprendizaje de Estadística Básica TAPIA, Fausto Ibarra, Ecuador.