1. CONCEPTO DE ESTADISTICA
La estadística es un conjunto de técnicas, mediante las cuales se
recopilan, organizan, presentan y analizan datos, con el fin de obtener
conclusiones validas sobre el comportamiento presente o futuro de algo.
La estadística moderna esta orientada a la toma de decisiones en
condiciones de incertidumbre
La estadística se divide en dos ramas:
• Estadística descriptiva
• Estadística inductiva
ESTADISTICA DESCRIPTIVA
La estadística es su forma mas simple consiste en una colección de datos
calificados según un criterio. Otras veces se refiere a ella como una
técnica para recopilar datos, clasificarlos, ordenarlos, compararlos, etc.
Este procedimiento, se denomina proceso estadístico y se puede resumir
en los pasos siguientes:
1. Elección de la unidad estadística
2. Recolilacion análisis y presentación de los datos
3. Ordenación de los datos
4. Determinación las medidas de posición y de calculo
5. Representación grafica
6. análisis y predicción de resultados
7. análisis de errores
2. ESTADISTICA INDUCTIVA O INFERENCIAL
Cuando una muestra es representativa de una población se puede
deducir importantes conclusiones acerca de esta, a partir de su análisis.
La inferencia comprende aquellas técnicas por medio de las cuales se
toman decisiones sobre una población estadística basadas solo en la
MUESTRA OBSERVAD. Debido a dichas decisiones se toman en
conclusiones de incertidumbre entonces estas serán confiables con
cierto grado de probabilidad.
POBLACION Y MUESTRA
POBLACION
La población o universo es el conjunto de elementos que tienen
características de identificación comparables en cada estudio, es el total
de individuos u objetos que se desean investigar. Cada uno de los datos
corresponde a un individuo
MUESTRA
La muestra es un parte del total de la población, se utiliza
frecuentemente cuando esta es numerosa, infinita o muy difícil de
contar.
Una medida de resumen que se calcula para describir una característica
de la totalidad de una población se llama parámetro, y aquella que se
calcula para describir una característica de una muestra de la población
de llama estadístico.
ETAPAS DE LA INVESTIGACION ESTADISTICA
No existe ningún ordenamiento específico en el cual se puedan incluir
todas las situaciones particulares del trabajo estadístico. Sin embargo, en
la mayoría de casos de la investigación estadística se define las
siguientes etapas.
3. • Planificación
• Obtención de la información
• Revisión o rectificación de la información
• Clasificación, tabulacion y presentación de la información
• Obtención de conclusiones y juicios validos sobre lo que se
investiga
PLANIFICACION
La planificación es el punto de partida de toda investigación. En
esta etapa de debe definirse ¿Qué investigar?, ¿se realizara dicha
investigación?, ¿Cómo se realizara? Con la obtención de estas
definiciones se estará en la capacidad de programar y calendarizar la
investigación. Esta etapa tiene estrecha relación con el plan de
investigación.
OBTENCION DE LA INFORMACION
Es la etapa más importante de la investigación estadística, ya que
de ella depende el resultado final del trabajo. Debe ser lo mas
significativa posible si la información se obtiene por muestreo. Los
medios típicos para obtener información son: personal y por correo.
REVISION O RECTIFICACION DE LA INFORMACION
Esta etapa es indispensable realizarla debido a que, toda toma de
información, realizada incluso por persona especialista, no escapa a estar
expuesta a algunos errores, que por muy sencillos que sean le restan
validez a la investigación.
4. CLASIFICACION, TABULACION Y PRESENTACIÓN DE LA
INFORMACION
Clasificaciones más comunes son: cronológica, cualitativa, numérica y
geográfica
CRONOLOGICA
La base de clasificación es el tiempo.
Ejemplo:
Tabla 1.1 de estudiante que ingresaron a la universidad
Desde el año 1997 al 2001
CUALITATIVA
La base de la agrupación es algún atributo o cualidad de los
elementos a analizar.
Ejemplo:
Tabla 1.2 clasificación de las secretarias según comportamiento
Comportamiento No. de secretarias
Excelente 10
Bueno 6
Regular 7
Malo 5
Año No. de estudiantes egresados
1997 1500
1998 800
1999 700
2000 1000
2001 2300
5. NUMERICA
Se toma como base de la agrupación una variable numérica
dividida en intervalos. Ejemplo:
Tabla 1.3 ingreso familiar de 100 familias en el área rural
Ingreso No. de familias
50-59 30
60-99 20
100-124 18
GEOGRAFICA
Se toma como base algún aspecto geográfico.
Ejemplo:
Tabla 1.4 cantidad de accidentes automovilísticos ocurridos durante la
presente semana
Región del país No de accidentes ocurridos
Oriental 30
Occidental 20
Norte 18
Sur 15
Central 17
TEXTUAL
Es la forma menos empleada par tal fin, consiste en presentar la
información en un párrafo o texto.
6. OBTENCION DE CONCLUCIONES Y JUICIS VALIDOS SOBRE LO
QUE SE INVESTIGA
En esta etapa de la investigación estadísticas e concentra todas las
técnicas de análisis. Se calcula las medidas de tendencia central, de
dispersión y de correlación de variables en análisis y con base a ellas se
aceptan o rechazan conjeturas, con lo cual se hace posible la obtención
de conclusiones que pueden apuntar como reglas, juicios o leyes del
fenómeno o situaciones que se investiga. Con la obtención de
conclusiones se puede tomar decisiones o hacer recomendaciones con
base a lo investigado.
VARIABLEA CUALITATIVAS Y CUANTITATIVAS
Una variable es una simbolización de una situación o cualidad que
pueden tomar diferentes valores. En la investigación estadística podemos
distinguir dos tipos de variables, las cuales se representan mediante un
símbolo o una letra.
VARIABLES CUALITATIVAS
Las variables cualitativas son las que se expresan una cualidad que
generalmente no puede representarse por medio de números. De estas
variables, puede determinarse únicamente la frecuencia con que aparece
cada una de sus modalidades; por ejemplo una pieza que sale se una
fabrica puede ser aceptada o no.
VARIABLES CUANTITACTIVAS
7. Las variables cuantitativas son las que permite dar un valor
numérico a cada elemento de la población por ejemplo la edad de un
grupo de individuos
VARIABLE DISCRETA
Cuando la variable solo puede tomar valores numéricos exactos se
dice que es discreta; por ejemplo, el numero de vehículos que pasan por
el anillo periférico a determinada hora de la mañana.
VARIABLE CONTINUA
Una variable continua por el contrario es la que puede tomar
cualquier valor real, por ejemplo podría tomarse la estatura de las
personas con mucha precisión. Las variables también pueden clasificarse
atendiendo a su causa y efecto como:
VARIABLE DEPENDIENTE.
Variable aleatoria “Y” cuyo valor depende de otra variable “X”.
Una variable es dependiente cuando es el efecto de otra.
Variable independiente. Variable matemática mediante la cual se puede
pronosticar el valor o los valores de una variable aleatoria “Y”. Una
variable es independiente cuando es la causa del valor de otra.
Si cada valor que una variable X puede tomar le corresponde o mas
valores de otra variable Y, se dice que Y es en función de X y se escribe
Y=F(X). La variables se llama independiente e Y es la variable
dependiente.
8. DISTRIBUCION DE FRECUENCIAS
La distribución de frecuencias es un resumen tabular en el que los
datos se presentan en agrupamientos o categorías convenientes
establecidas de clases ordenadas numéricamente. En una tabla de
distribución de frecuencias de una serie de datos, se muestra el número
de observación llamado frecuencia de determinada variable dentro de un
grupo específico. La tabla de distribución de frecuencias proporciona
pistas acerca de las características de la población sujeta al estudio.
Además permite realizar cálculos posteriores para el análisis de los datos.
Al agrupar o condensar en tablas de distribución de frecuencias, el
proceso del análisis e interpretación de los datos se hace mucho mas
manejable y significativo
La tabla de distribución de frecuencias, esta compuesta por los siguientes
elementos:
• Rango
• Numero de clase
• Ancho de clase
• Limites aparentes reales
• Frecuencias
• Marcas de clase
9. RANGO (R)
Indica la amplitud de la ubicación numérica del conjunto de datos.
Es la diferencia que existe entre el mayor y el menor de los datos:
R= dato mayor- dato menor
NUMERO DE CLASE O INTERVALOS (K)
El número de agrupamientos de clase a utilizar depende
principalmente del número de observaciones en los datos, es decir, un
número mayor de observaciones requiere un número mayor de grupos de
clase o intervalos. El número de clase debe estar entre 5 y 15. Si no hay
suficientes intervalos o si hay demasiados se obtendrá poca
información. Para determinar el numero de clase de emplea ka siguiente
relación: 1+3.32 Log (n), donde “n” es el numero de datos de la muestra.
K=1+3.32. Log n
10. AMPLITUD O INTERVALOS DE CLASE (i)
Cada grupo denominado también clase, debe poseer unos tamaños
o amplitud. A esta amplitud se le denomina intervalo y es representado
por i.
I=rango/N0. De clase o sea i=R/K
LIMITES APARENTES (la)
Todo intervalo esta formado por dos limites de clase o limites
aparentes, un límite inferior y un límite superior. Los límites aparentes se
utilizan para evitar ambigüedad en la clasificación por intervalos. Por
ejemplo, de las estaturas anteriores se tiene: menos 160 a 169, de 170 a
179, igual o más de 180 cm.
LIMITES REALES DE CLASE (lr)
Debido a la discontinuidad que existe entre los grupo, conviene
lograr que, donde finalice un grupo comience el siguiente, con lo cual de
obtendrán nuevos limites a los cuales se les denomina limites reales o
verdaderos y se obtiene encontrando el punto medio de el limite
aparente superior de un grupo y el limite aparente inferior del siguiente
11. grupo. También puede calcularse a partir de los límites aparentes
considerando que:
• Si los límites son números esteros, entonces, restar 0.5 al límite
inferior y sumar 0.5 al límite superior.
• Si los limites no son números enteros, se debe restar y sumar a
los intervalos de clase 0.05 si tienen un solo decimal, 0.005 .si
tiene dos decimales, 0.0005 si tienen tres decimales, etc.
MARCA DE CLASE (xі)
Son los puntos medios de cada intervalo y son los valores usados
para representar todos los datos resumidos en un intervalo particular.
FRECUENCIAS
FRECUENCIA ABSOLUTA O DE INTERVALO (fi)
La frecuencia absoluta es la que indica como están distribuidos los
datos en cada grupo, es decir, como esta repartida la cantidad total de
datos entre los grupos. Indica cuantos datos posee el primer grupo, el
segundo grupo, el tercero.
12. FRECUENCIA RELATIVA (fr)
La frecuencia relativa es la proporción entre la frecuencia de un
intervalo y es el numero total de datos, es decir, el valor de una fracción
cuyo numerador es la frecuencia absoluta y cuyo denominador es el
numero de individuos de la población. La frecuencia relativa esta
comprendida siempre entre 0 y 1 y esta dada por:
Fr=fi/n
El uso de la frecuencia relativa o porcentual se vuelve esencial siempre
que una serie de datos se compara con otras series de datos,
especialmente si difiere el número de observaciones en cada serie de
datos.
FRECUENCIA ACUMULADA ABSOLUTA (Fa)
La frecuencia acumulad identifica en numero de observaciones
acumuladas en cada grupo. Se calcula a partir de las frecuencias
absolutas ya que estas proporcionan la suma de las repeticiones
anteriores a un intervalo.
13. FRECUENCIA ACUMULADA RELATIVA (Fr)
La frecuencia acumulada relativa es el cociente entre la frecuencia
acumulada y el numero total de datos observados, con lo que se obtienen
la suma de las
Frecuencias relativas de las repeticiones anteriores a esta. Se calcula de
la siguiente forma
Fr=Fa/n
EJEMPLO 1
Los punteos obtenidos por un grupo de 40 estudiantes en el curso de
física son:
80-20-60-75-40-55-70-75-60-85
40-60-75-78-37-42-60-80-88-75
70-60-80-90-95-65-32-43-44-62
28-45-35-63-66-88-95-98-96-94
CALCULAR
• Numero de clase
• Rango
• Intervalo
• Distribución de frecuencia
14. SOLUCION
El numero de grupos o clase a formar estado dado por:
K=1+3.32.Log 40=1+32. (1.60206)
=1+5.3188=6.3188
El rango se calcula de la siguiente manera:
R=dato mayor-dato menor
R= 98-20=78
Intervalo
I=78/6.3188=12.340
Como los datos son números enteros se aproxima “i” al entero mas
cercanos, entonces:
I=12
Los intervalos se calculan iniciando del dato menor (20). Los datos se
muestran en la tabla 2.1. El primer intervalo de la tabla es 20-31.
15. Tabla 2.1 ejemplo de un grupo de 40 estudiantes de física
Limite inferior Limite superior
20 31
32 43
44 55
56 67
68 79
80 92
92 103
FRECUENCIAS ABSOLUTAS
Para calcular las frecuencias hacemos un conteo del número de datos
que pertenecen a cada intervalo. El procedimiento puede ser:
• Ordenando los datos en forma ascendente o descendente,
• Contando cuantos valores hay en cada intervalo, es decir de 20 a
31 hay 2 de 32 a 43 hay 7 etc.
• O bien por cada dato el grupo original marcamos mediante una
línea en el intervalo al que pertenece, como se ilustra a
continuación (tabla 2.2)
Tabla 2.2 distribución de frecuencia del ejemplo 1
16. Limite inferior Limite superior conteo Frecuencia absoluta fi
20 31 II 2
32 43 IIIIII 7
44 55 III 3
56 67 IIIIIIII 9
68 79 IIIIIII 7
80 91 IIIIIII 7
92 103 IIIII 5
N= 40
GRAFICAS UTILIZADAS EN ESTADISTICA
GRAFICA DE LINEAS
Es el tipo de grafica más simple que existe. Se representa por líneas
rectas, donde el alto de la línea indica el valor que se desea representar,
y en la base el atributo o valor de la variable. La base y la altura deben
dar una impresión rectangular. La grafica de líneas puede representarse
horizontal y verticalmente.
Diagramas de líneas
Ejemplo:
En la empresa “SEPRO”; 30 personas laboran en la jornada diurna, 20 en
la jornada mixta y 10 en la jornada nocturna. Trace un grafico de líneas
17. 0
5
10
15
20
25
30
35
diurna
mixta
nocturna
vertical y un grafico de líneas horizontales, para representar la
información dada.
Figura 3.1 diagrama de líneas (vertical)
DIAGRAMA DE BARRAS MULTIPLES
Cuando es importante hacer comparaciones entre datos estadísticos, es
uti8l realizarlas a trabes de un diagrama de barras compuestas en el cual
se utilizan barras distintas para cada serie de datos y dibujandolas unas al
lado de otras en el mismo grafico.
DIAGRAMA DE BARRAS COMPUESTAS
Consiste en dibujar el diagrama de barras de una de las series
estadísticas y continuar encima con otras de distinto fondo que
representaran la segunda serie estadística. De forma cada barra tendrá
una altura total, que será la suma de la frecuencia absoluta del suceso que
representa la primera serie mas la frecuencia absoluta del mismo suceso
en la segunda serie etc.
GRAFICA DE CAMBIOS LINEALES
18. Las graficas de cambios lineales son aquellas que se representan en
coordenadas cartesianas mediante puntos que se unen por medio de
líneas rectas, lo que nos da una curva final de la representación.
GRAFICAS DE SERIES INDEPENDIENTESS
Consiste en un conjunto de graficas de cambios lineales de una serie
independiente de otra, diferenciándolas por medio de códigos.
DIAGRAMA DE SECTORES
Es una representación tipo de e se utiliza el circulo como base, este tipo
de grafico es de la misma naturaleza que el de barras; en este caso, el
circulo se subdivide en partes proporcionales a cada cantidad de la
variable que se desea representar. La frecuencia absoluta total
corresponde a los 360 grados de la circunferencia y con el uso de un
transportador se puede trazar los sectores resultantes.
PICTOGRAMA
Gráficos de figuras, utilizadas para representar datos
estadísticos de tal forma que llame la atención de quien los analiza.
GRAFICA PARA DISTRIBUCION DE FRECUENCIA
19. Hasta ahora se ha visto graficas para las variables cualitativas o
cuantitativas de tipo discreto; sin embargo es importante recordar que las
variables pueden tomar valores reales o de tipo continuo y que para
estudiarlas es necesario dividirlas en intervalos de clase. Además, cuando
se trate de muestra que contienen más de 30 datos es conveniente agrupar
en intervalos o clases dichos datos construyendo una tabla de
distribución de frecuencia.
HISTOGRAMAS
Un histograma es una grafica de barras que representa el
numero de elementos que comprende cada clase de la distribución de
frecuencia, esta formando por rectángulos unidos unos a otros, en el eje
de las abscisas los vértices de las bases son los extremos de los intervalos
(limites reales) y el centro de cada rectángulo corresponde a la marca de
clase.
Al asumir intervalos de igual amplitud, en el eje de las “Y” se
representan las alturas de los rectángulos que son iguales a las
frecuencias absolutas o relativas se acostumbra a tomar las alturas
numéricamente iguales a dichas frecuencias.
GRAFICAS DE FRECUENCIAS ACUMULADAS: OJIVAS
Las graficas de frecuencia acumulada también llamada ojivas son útiles
cuando los datos de la muestra se dividen en intervalos de clase y desea
conocer, por ejemplo, cuantos individuos de la población están
comprendidos en los intervalos hasta cada una de las marcas de la clase
sucesivas. Se pueden graficar dos tipos de ojivas:
OJIVAS ASCENDENTE.
20. Se forman uniendo con líneas rectas, puntos que se localizan
con cada límite real superior y su frecuencia acumulada ascendente
absoluta o relativa.
OJIVAS DESCENDENTE
Se forma uniendo con líneas rectas, puntos que se localizan con
cada límite real superior y su frecuencia acumulada descendente absoluta
o relativa.
El punto de intersección entre las dos ojivas, en una representación
grafica, corresponde exactamente a la mediana de la distribución, la cual
se estudiara en el siguiente capitulo.
MEDIDAS DE TENDENCIA CENTRAL
Una forma clara de y concisa de representar la información de una
manera útil son las medias de tendencia central y a que proporcionan una
descripción significativa de un conjunto de observaciones.
Las medidas de tendencia central como su nombre lo indica son
parámetros que miden que tanto los datos de una variable tienden a
situarse en el centro de su rango.
A continuación se mencionan algunas medidas de tendencia central cuyo
uso tiene importante aplicación práctica.
• Media aritmética o promedio aritmético
• Mediana
• Moda
• Media geométrica
• Media armónica
• Media cuadrática
21. En este capitulo se analizaran los fractilos, los cuales representan los
intervalos dentro de los cuales quedan proporcionalmente repartidos los
términos de la distribución. Los más comunes son:
• Cuartiles
• Deciles
• Centiles o percentiles.
MEDIA ARITMETICA
MEDIA ARITMETICA PARA DATOS SIMPLES
La media aritmética o simplemente media es el valor medio de los datos,
es la medida de tendencia central más importante, debido a la
representatividad que posee de los datos de las variables en estudio. Se
calcula sumando los valores de todas las observaciones y dividiendo el
resultado entre el número de observaciones. Por lo general de le
representa con X (equis barra) la formula de la media para datos no
agrupados es:
MEDIA ARITMETICA PONDERADA
A veces algunos de los valores a promediar son más importantes que
otros es decir tienen una importancia relativa diferente en unión de la
persona que realiza la elección. En este caso debe utilizarse el promedio
ponderado el cual aplica un factor de ponderación (o importancia
relativa) a cada uno de los valores a promediar. La medida aritmética
ponderada se representa por Xp y viere dada por:
X=w1.x2+w2.x2+…+wn.xn= sumatoria w1.x1
W1+w2+…+wn sumatoria w1
22. MEDIA ARITMETICA PARA DATOS AGRUPADOS
Cuando el numero de observaciones es bastante grande, es común
agrupar en intervalos de clase (mas d e30 datos). Se calcula entonces la
media aritmética sumando el producto de cada marca de clase (x), por el
número de observaciones o frecuencias absoluta (fi) .
MEDIANA
La mediana es el valor de la observación central de los datos ordenados
de menor a mayor tiene la característica que deja el mismo numero de
valores a su izquierda que a su derecha.
MODA
La moda es el valor que se repite la mayor cantidad de veces,
si l variable es discreta también se dice que es el valor mas común, es útil
cuando se requiere un calculo rápido por ejemplo, en una serie :
2,4,4,5,5,5,7,8, la moda es 5, por que es el elemento que mas veces se
repite
Existen muchos casos como en el ejemplo anterior que la moda es única,
sin embargo, puede ocurrir que en una distribución haya dos o mas
modas (aunque es poco común que es resulte en el trabajo experimental),
entonces, se dice que la distribución es by modal, trimodal, etc. Incluso
puede no existir la moda como por ejemplo en serie 2,3,4,5,7,10 ya que
no existe ningún valor repetido si los datos no están agrupados el calculo
de la moda es trivial, ya que solo se sebe observar cual es el dato que
mas se repite entre ellos.
La moda es la única medida de tendencia central que se puede calcular
para variables de tipo cualitativo, por ejemplo, el grado de escolaridad
( primaria, secundaria, universitaria, etc.) el tipo de suelo (arcilloso,
arenoso, etc.)
23. MEDIA ARMONICA
La media armónica es otra medida de tendencia central, aunque menos
utilizada que los promedios anteriores. Se denota por XH y esta definida
como la reciproca de la media aritmética de los recíprocos de un
conjunto de datos.
APLICACIONES DE LA MEDIA ARMONICA
PRECIO PROMEDIO
Si se compran varios tipos de productos con distinta cantidades
de unidades de cada tipo, pero gastando en ellos igual cantidad de dinero,
el precio promedio por unidad es igual a la media armónica de los
precios por unidad de cada tipo de producto.
RENDIMIENTO PROMEDIO DE PRODUCCION
En un grupo puede haber personas con distinta velocidad para
producir un artículo o producto. Si cada una de estas personas tiene que
elaborar igual cantidad de artículos o productos, el promedio de
velocidad de rendimiento de tal grupo, es igual a l promedio armónico de
las velocidades de rendimiento de cada una de las personas que lo
integran.
MEDIA CUADRATICA
La media cuadrática de una serie de datos se define con la raíz
cuadrada de la media aritmética de los cuadrados de los valores de la
variable.
24. FRACTILOS O CUANTILOS
Así como la media marca la mitad de los valores mayores que ella y la
mitad de los valores menores los fractilos permiten identificar valores
ubicados en diferentes posiciones. Se denomina fractilo a la localización
del valor que corresponde al final de cada parte en que se ha dividido la
distribución de datos los fractilos mas importante son los cuarteles, los
deciles y los centiles o precentiles.
CUARTILES
Son los que indican un valor que le corresponde al punto final de cada
una de las cuatro partes en que se divide una serie o agrupación de datos.
Los cuarteles (primero, segundo, tercero y cuarto) señalan el valor que
esta al 25,50 y 75 y 100% de la totalidad de datos.
DECILES
Una fracción de datos también puede fraccionarse en 10 partes
iguales. El valor se denomina deciles. Los deciles (del primero al
décimo) marcan el valor ubicado al 10, 20,30,…., y 100% de los datos
respectivamente, el decil quinto equivale a la mediana. Se denotan por Di
donde la j al pie de la D indica a que décima parte de la distribución de
datos pertenece.
CENTILES
Son valores de la variable al final de cada una de las centésimas
partes de la distribución de datos que se posee. Los centiles o percentiles
(del primero al nonagésimo noveno) indican el valor que esta al 1, 2,3,
…, y 99% de los datos, el centil 50 equivale a la mediana.