Este documento introduce conceptos básicos de estadística. Explica que la estadística es la ciencia que se encarga de recolectar, organizar, resumir y analizar datos para obtener conclusiones. Se divide en estadística descriptiva y estadística inferencial. También define términos como población, muestra, variable, dato y escalas de medición. Finalmente, describe métodos para ordenar y presentar datos como tablas de frecuencias y gráficos.
2. INTRODUCCIÓN
La Estadística es una ciencia que
facilita la solución de problemas
en los cuales necesitamos
conocer características sobre el
comportamiento de algún suceso
o evento.
Nos permite inferir el
comportamiento de sucesos
iguales o similares sin necesidad
de que estos ocurran.
3. Esto nos da la posibilidad de
tomar decisiones acertadas y a
tiempo, así como realizar
proyecciones del
comportamiento del suceso.
Sólo se realizan los cálculos y el
análisis con los datos obtenidos
de una muestra de la población
y no con toda la población.
INTRODUCCIÓN
4. Actualmente el INEI es el encargado de
concentrar y publicar la información
estadística del estado y del país.
INTRODUCCIÓN
5. CONCEPTOS BÁSICOS
Estadística:
Es la ciencia que se encarga de recolectar,
organizar, resumir y analizar datos para después
obtener conclusiones. Se divide en
Estadística Descriptiva y Estadística Inferencial.
Estadística descriptiva:
Se encarga de la
recolección, organización,
presentación y análisis de
los datos de una población.
6. Estadística inferencial:
Se encarga de analizar la información
presentada por la estadística descriptiva
mediante técnicas que nos ayuden a
conocer, con determinado grado de
confianza, a la población. Lo que nos
permite tomar decisiones.
CONCEPTOS BÁSICOS
7. Población:
Conjunto definido de TODOS los
INDIVIDUOS, de donde se observa cierta
característica.
Al número de integrantes de la población se
llama tamaño de la población y se representa
con la letra N.
Las poblaciones pueden ser finitas o infinitas.
CONCEPTOS BÁSICOS
8. Población Estadística:
Conjunto de TODOS los DATOS que se
obtienen al realizar la medición de una
variable en los elementos de una población.
Muestra:
Subconjunto de una población, que intenta
reflejar las características de la población lo
mejor posible.
El número de individuos que integran la
muestra, llamado tamaño de la muestra se
representa con la letra n.
CONCEPTOS BÁSICOS
10. Individuo:
Es el elemento de la población o de la
muestra que aporta información sobre lo que
se estudia.
Variable:
Característica de los individuos que se desea
estudiar y se puede medir o calificar; cambia o
varía con el tiempo en un individuo dado, o
cambia o varía de elemento a elemento.
Ej. Edad, peso, sexo, estado civil, número de
hijos, etc.
CONCEPTOS BÁSICOS
11. Dato:
Valor que se obtiene al realizar la medición de
la característica de la variable en estudio.
Pueden ser univariados, bivariados o
multivariados.
La naturaleza de los datos pueden ser datos
cuantitativos o datos cualitativos.
CONCEPTOS BÁSICOS
12. Datos Cuantitativos
(números):
Valores obtenidos al medir
peso, estatura, temperatura,
número de hijos.
Datos Cualitativos
(categorías):
Se obtienen al calificar la
característica en cuestión
como el sexo, estado civil,
grado máximo de estudios.
CONCEPTOS BÁSICOS
13. Variable Dicotómica:
Sólo puede tomar dos valores (sí – no, 0 – 1,
hombre – mujer, bueno – malo, encendido –
apagado).
En la variable CUANTITATIVA se pueden
distinguir dos tipos: continua y discreta.
CONCEPTOS BÁSICOS
14. Variable Continua:
Si la variable puede tomar cualquier
número real entre dos valores dados
(decimal o entero).
Ej. El peso de un individuo.
Variable Discreta:
Si la variable sólo puede tomar
números enteros.
Ej. El número de hijos de un
individuo.
15. Parámetro: Valor numérico que resume todos los
datos de una población completa. Se utilizan letras
griegas para simbolizar un parámetro como ser µ y σ .
Ejemplos: La calificación “promedio” del secundario en el momento de
admisión de todos los estudiantes que han asistido alguna vez a la
Universidad Nacional Mayor de San Marcos.
Estadística: Valor numérico que resume los datos de
una muestra. Se utilizan letras del alfabeto español para
simbolizarlas como ser x y s .
Ejemplo: La edad “promedio” registrada en una encuesta de 150
consumidores de pizzas.
16. ESCALAS DE MEDICIÓN
Escala
Nominal
Escala
Ordinal
Escala de
Intervalo
Escala de Razón
17. Escala Nominal:
Está asociada a variables cualitativitas y es
denominada de este modo si no se pueden
hacer operaciones aritméticas entre sus
valores, pues éstos son únicamente
ETIQUETAS.
Ejemplo: sexo, código postal, estado civil,
número telefónico, número al correr en un
maratón, deporte favorito, carrera a estudiar,
etc.
ESCALAS DE MEDICIÓN
18. Escala Ordinal:
Los valores de la variable que tienen un
ORDEN con un nivel específico, pero no se
pueden hacer operaciones aritméticas entre
ellas.
Ejemplo:
Pésimo – Malo – Regular – Bueno –
Excelente
Primaria – Secundaria – Preparatoria -
Licenciatura
ESCALAS DE MEDICIÓN
19. Escala de Intervalo:
En ella existe un orden entre los valores de la
variable y además una NOCIÓN DE
DISTANCIA aunque no se puedan realizar
operaciones.
El cero o punto de inicio no es único, es más
bien un punto de referencia.
Ejemplo: Escalas de temperatura, la edad de
la Tierra, la línea del tiempo de la humanidad.
ESCALAS DE MEDICIÓN
20. Escala de Razón:
La magnitud tiene SENTIDO FÍSICO, existe el
cero absoluto, existe orden, se puede
determinar cuántas veces es mayor uno que
otro.
Ejemplo: peso, estatura, edad, distancia,
dinero, etc.
ESCALAS DE MEDICIÓN
21. FUENTES DE INFORMACIÓN
Encuesta:
Recopilar los datos mediante el
uso de cuestionarios o
entrevistas.
Experimento:
Procedimiento utilizado en la
investigación científica para obtener
información que permita conocer el
comportamiento de algún proceso.
22. Investigación Documental:
Procedimiento para obtener
datos mediante la consulta de
información ya escrita y
concentrada en documentos
que se localicen en libros o
revistas en bibliotecas,
hemerotecas, o en centros
virtuales.
FUENTES DE INFORMACIÓN
23. Existen varias técnicas como:
Grupos de interés.
Teléfono.
Cuestionarios por correo.
De puerta a puerta.
Abordaje en Centros Comerciales.
Registros.
Observación.
Entrevista.
Experimento.
TÉCNICAS DE RECOGO DE
DATOS
24. TÉCNICAS DE RECOGO DE
DATOS
Técnica de recogida de
datos
Ventajas Desventaja
Grupo de interés Buena técnica preliminar Muestra pequeña
No se pueden proyectar
los resultados
Entrevista por teléfono Rápida, poco costosa
Fácil de llevar a cabo, alta
tasa de respuesta
Flexibilidad para el
entrevistador
Deben hacerse preguntas
sencillas
La entrevista debe ser
breve
Cuestionarios por correo Puede cubrir un área
geográfica grande
Poco costosa, preguntas
estandarizada
Tasas bajas de respuesta
Se emplea mucho tiempo
25. TÉCNICAS DE RECOGO DE
DATOS
Técnica de recogida de
datos
Ventajas Desventaja
De puerta en puerta Puede cubrir un área
geográfica grande
Poco costosa, preguntas
estandarizadas
Se emplea mucho tiempo
Costosa
Abordaje en un centro
comercial
Rápida, poco costosa
Fácil de llevar a cabo,
pueden usarse ayudas
visuales
Flexibilidad para el
entrevistador
No se pueden proyectar
los resultados
La entrevista debe ser
breve
Entrevistas personales Pueden usarse ayudas
visuales
Flexibilidad para el
entrevistador
Las respuestas se pueden
analizar en profundidad
Costosa
Se emplea mucho tiempo
Se obtienen muestras
pequeñas
26. TÉCNICAS DE MUESTREO
Método Procedimiento
Aleatorios
Simple Los elementos se eligen al azar de uno a uno
Sistemático Se elige cada n-ésimo elemento de una secuencia de la población
Estratificado La población se separa en subgrupos significativos antes del
muestreo
Por Conglomerados Se elige grupos o conglomerados de elementos de la población para
la muestra
No Aleatorios
Subjetivo Se usa el juicio del investigador para decidir que elementos de la
población serán incluidos en la muestra
Por conveniencia Se eligen los elementos más convenientes para la muestra
Por Cuota Se les asigna una cuota a aquellos que seleccionan elementos de la
muestra
27. ORDEN DE DATOS
La ordenación es el proceso mediante el cual
los datos están acomodados de tal manera
que se establece un orden (ascendente o
descendente) entre ellos.
Hay dos métodos comunes:
• Listado en orden ascendente
• Método de tallo y hojas
28. Ejemplo
Considera que la variable de estudio es el
peso de 25 estudiantes. Los pesos se
encuentran en la siguiente tabla:
Peso de 25 estudiantes (en kg)
40 43 48 51 49
56 44 42 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
29. Listado en orden ascendente
El proceso consiste en ordenarlos de menor a
mayor
Peso de 25 estudiantes (en kg)
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
Peso de 25 estudiantes (en kg)
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 5656 57 58
59 62 63 63 66
30. Método de tallo y hojas
Si los números de los datos están
formados por dos dígitos, se hace una
columna con el primer dígito (decenas) y
a la derecha de cada uno de ellos se
escribe, en fila, sólo el segundo dígito
(unidades) de cada uno de los datos que
tengan el mismo primer dígito.
31. Datos sin ordenar:
Datos ordenados:
4
5
6
4
5
6
0,2,3,4,4,5,8,9
0,0,1,1,2,2,5,5,6,6,7,8,9
2,3,3,6
Peso de 25 estudiantes (en kg)
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
2,0,8,9,4,3,4,5
1,6,5,2,2,0,9,0,6,5,7,1,8
2,3,6,3
Método de tallo y hojas
32. Doble tallo
Una variante de este método es en lugar de
dividir en un grupo las decenas, se divide en
dos grupos. El primero abarcando los dígitos
del 0 al 4 y el segundo del 5 al 9.
El ejemplo anterior
queda:
4 0,2,3,4,4
4 5,8,9
5 0,0,1,1,2,2,
5 5,5,6,6,7,8,9
6 2,3,3
6 6
33. Caso de variables cualitatitivas
El procedimiento es:
Se identifican todos los valores diferentes y se
acomodan en columna.
Se agrega una segunda columna en donde se
van registrando, mediante una línea vertical,
la veces que aparece el valor dado.
34. Ejemplo
Considera que la variable de estudio es el
color de playera de 25 estudiantes.
Los colores se encuentran en la siguiente
tabla:
rosa azul blanco azul rosa
gris blanco café negro blanco
rosa azul café blanco blanco
gris azul blanco rosa gris
gris blanco café negro verde
35. rosa azul blanco azul rosa
gris blanco café negro blanco
rosa azul café blanco blanco
gris azul blanco rosa gris
gris blanco café negro verde
Color Frecuencia
Azul
Blanco
Café
Gris
Negro
Rosa
Verde
I I I I
I I I I I I
I I I
I I I I
I I
I I I I
I
37. TABLA DE FRECUENCIA
Una vez que se tenga ordenados los
datos, se acomodan en la “Tabla de
distribució n de fre cue ncias o tabla de
fre cue ncias”.
La tabla es básicamente una tabla de
valores x-y, dónde “x” representa el dato y
“y” representa la frecuencia.
38. La frecuencia es el número de veces que
aparece cada dato.
Hay dos clases de tablas de frecuencias:
Para datos NO agrupados.
Para datos agrupados.
39. Tabla de frecuencias para
datos NO agrupados
Está formada por dos columnas: una para la
variable “xI” y la otra para su frecuencia “fI”, a
esta frecuencia se le llama frecuencia
absoluta o frecuencia observada.
40. Ejemplo
Tabla de frecuencias de los pesos en kg de 25
alumnos.
Peso de 25 estudiantes (en kg)
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 5656 57 58
59 62 63 63 66
xi f
40
42
43
44
45
48
49
50
51
xi f
52
55
56
57
58
59
62
63
66
Total
1
1
1
2
1
1
1
2
2
2
2
2
1
1
1
1
2
1
25
41. Frecuencia relativa y
acumulada
Por lo regular, se agregan dos columnas: la
de la frecuencia relativa “hi” y la de la
frecuencia acumulada “Fi”.
La frecuencia relativa se obtiene mediante el
cociente de la frecuencia y el número total de
datos, esto es h = f/n.
La frecuencia acumulada se obtiene sumando
las frecuencias anteriores a las frecuencias de
un dato dado.
42. Ejemplo
xi f h F
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
xi f h F
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Total 25
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.08
0.08
0.08
0.08
0.08
0.08
0.08
1/25
2/25
1
2
3
5
6
7
8
10
12
14
16
18
19
20
21
22
24
25
1
Siempre
es el
número
total
Siempre es 1
43. Intervalo de clase
En ocasiones es conveniente acomodar
los datos en pequeños grupos de igual
tamaño, llamados intervalos de clase.
El punto medio o marca de clase “xi”, se
obtiene con:
El tamaño del intervalo se obtiene
mediante la diferencia de los límites
Marca de clase = Límite inferior + límite superior
2
45. Límite verdadero del intervalo
Frontera de clase o límite verdadero del
intervalo:
Intervalo de clase Punto medio “xi”
37.5 – 42.5 40
42.5 – 47.5 45
47.5 – 52.5 50
52.5 – 57.5 55
57.5 – 62.5 60
62.5 – 67.5 65
40 – 2.5 40 + 2.5
46. Tabla de intervalos con
límites verdaderos
Usando símbolos de
desigualdad
Usando paréntesis
y corchetes
Intervalo de
clase
Punto
medio
“xi”
37.5 ≤ x < 42.5 40
42.5 ≤ x < 47.5 45
47.5 ≤ x < 52.5 50
52.5 ≤ x < 57.5 55
57.5 ≤ x < 62.5 60
62.5 ≤ x < 67.5 65
Intervalo de
clase
Punto
medio
“xi”
[37.5 , 42.5) 40
[42.5 , 47.5) 45
[47.5 , 52.5) 50
[52.5 , 57.5) 55
[57.5 , 62.5) 60
[62.5 , 67.5) 65
Está incluido No está incluido Está incluido No está incluido
El tamaño del intervalo es de 5
47. Si por alguna razón no es fácil decidir el
ancho del intervalo y el número de ellos, se
pueden utilizar las siguientes fórmulas:
K = 1 + 3.3 log (n)
Donde K = número aproximado de clases
n = número de datos.
Amplitud de los intervalos = Rango / K
Donde Rango = diferencia entre el dato
mayor y el dato menor.
48. Ejemplo
Para el ejemplo de los datos de los pesos de
25 alumnos, el valor de K:
Y la amplitud de los intervalos sería:
K = 1 + 3.3 log (n) = 1 + 3.3 log (25) = 5.6.
Por lo tanto se requieren aproximadamente 6
intervalos.
Amplitud = Rango / K = (66 – 40) / 5.6 = 4.64.
Aproximadamente 5 unidades es la amplitud
de los intervalos.
49. Tabla de distribución de frecuencias
para datos agrupados
Se elabora con los intervalos de clase, sus
puntos medios y las frecuencias
correspondientes para cada uno de los intervalos.
xi f
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Total 25
Datossinagrupar
Intervalo
de clase
Punto medio
“xi”
f
38 – 42 40
43 – 47 45
48 – 52 50
53 – 57 55
58 – 62 60
63 - 67 65
Total
Datos agrupados
2
4
8
5
3
3
25
50. Se agregan las columnas de frecuencia
relativa “h” y frecuencia acumulada “F”:
Intervalo
de clase
Punto
medio xi
f h F
38 – 42 40 2
43 – 47 45 4
48 – 52 50 8
53 – 57 55 5
58 – 62 60 3
63- 68 65 3
Total 25
0.08
0.16
0.32
0.20
0.12
0.12
1
2
6
14
19
22
25
2/25
4/25
8/25
51. Por último se agregan las columnas:
Frecuencia porcentual, “100hi%”, se obtiene
multiplicando la frecuencia relativa “h” x 100.
Frecuencia relativa acumulada “H”, se obtiene
sumando las frecuencias relativas anteriores
a un dato dado.
Frecuencia porcentual acumulada, “100Hi%”,
se obtiene sumando las frecuencias
porcentuales acumuladas a un dato dado.
52. Tablas de frecuencias absoluta,
relativa y acumulada
Intervalo
de clase
Punto
medio “xi”
f h 100hi
%
F H 100
Hi%
38 – 42 40 2 0.08 2
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1
8
16
32
20
12
12
100
0.08
0.24
0.56
0.76
0.88
1
8
24
56
76
88
100
0.08 x
100
2/25
0.08 x
100
53. GRÁFICA DE DATOS
Existen dos tipos de gráficas mas
usuales:
Polígono de Frecuencias
Histograma
Otros gráficos:
Gráfica de barras
Pictograma
Gráfico Circular o de pastel.
54. Polígono de Frecuencias
Es la representación mediante un gráfico
de línea. En él se muestra la distribución
de frecuencias y está formado por
segmentos de línea que unen los puntos
correspondientes a la frecuencia de cada
una de las clases.
El eje “x” representa el dato “xi”
y el eje “y” las frecuencias.
0
10
2 0
3 0
4 0
50
6 0
58. Histograma
Es la representación gráfica de
los datos mediante una sucesión
de rectángulos.
Está formado por rectángulos cuya
anchura representa a cada uno de los
intervalos y la altura corresponde a la
frecuencia.
En el eje “x” estarán los límites verdaderos,
los puntos medios y en el eje “y” las
frecuencias.
0.95 2.95 4.95
0
2
4
6
8
10
12
14
62. Pirámide Poblacional
Una variante en el histograma es colocar
en el eje “x” de tal manera que las
columnas quedarán en forma horizontal,
es muy común en datos poblacionales.
63. Ojiva
Es la representación gráfica de las
frecuencias acumuladas mediante un
gráfico de línea. Se muestra la
distribución de frecuencias acumuladas
de los datos.
En el eje “x” estarán los puntos medios y
en el eje “y” las frecuencias acumuladas.
64. Ejemplo
Intervalo
de clase
Punto
medio “xi”
f h F
38 – 42 40 2 0.08 2
43 – 47 45 4 0.16 6
48 – 52 50 8 0.32 14
53 – 57 55 5 0.20 19
58 – 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1
65.
66. Usando la frecuencia acumulada y la
frecuencia porcentual.
Intervalo
de clase
Punto
medio “xi”
f h 100hi
%
F H 100
Hi%
38 – 42 40 2 0.08 8 2 0.08 8
43 – 47 45 4 0.16 16 6 0.24 24
48 – 52 50 8 0.32 32 14 0.56 56
53 – 57 55 5 0.20 20 19 0.76 76
58 – 62 60 3 0.12 12 22 0.88 88
63- 68 65 3 0.12 12 25 1 100
Total 25 1 100
67.
68.
69. Gráfico Circular
También es llamado gráfico de pastel.
Sólo se representan datos de frecuencias
relativas o frecuencias porcentuales.
Se debe dividir el área del círculo de manera
proporcional a las frecuencias. 13%
17%
57%
13%
PERRO
PAJARO
HAMSTER
GATO
70. Agregaremos una columna a nuestra
tabla de frecuencias “Frecuencia relativa
al círculo”, multiplicando (h)(360°), para
mostrar la parte proporcional de círculo
medida en grados que corresponde a
cada intervalo.
71. Ejemplo 1
Intervalo
de clase
Punto
medio “xi”
f h (h ) (360°)
38 – 42 40 2 0.08
43 – 47 45 4 0.16
48 – 52 50 8 0.32
53 – 57 55 5 0.20
58 – 62 60 3 0.12
63- 68 65 3 0.12
Total 25 1
28.8°
0.08 x
360°
0.16 x
360°
57.6°
115.2°
72°
43.2°
43.2°
360°
72.
73. Ejemplo 2
Color Frecuencia Conteo
Azul 4
Blanco 7
Café 3
Gris 4
Negro 2
Rosa 4
Verde 1
I I I I
I I I I I
II I I
I I I I
I I
I I I I
I
74. Otros Gráficos
La gráfica de barras se traza similar al
Histograma, sólo que las barras se
dibujan separadas unas de otras.
La escala en el eje “x” es para mostrar
categorías o intervalos de números NO
consecutivos.
0
10
20
30
40
50
60
PERRO PAJARO HAMSTER GATO
Frecuenciaabsoluta