1. ANÁLISIS Y
PROCESAMIENTO DE
DATOS
INTEGRANTES:
1. JULISSA EDITH MONTECINOS GOMEZ. 223024988
2. NAHYA NIKOL SERRUDO HERRERA 22302644
3. NASCHIELY PADILLA SORUCO. 223025313
4. ABIGAIL REVOLLO FERNANDEZ 223025720
5. DANIELA ALEJANDRA VELASQUEZ ESCOBAR 223052817
6. LAURA MANUEL QUISPE 223024694
MATERIA: Metologia de la investigación
DOCENTE: Juan Barbeito Velasco
SIGLA: PRQ-191
SANTA CRUZ-BOLIVIA
PARTE 2
2. CONTENIDO
FORMULARIO DE MEDIA O PROMEDIO, VARIANZA, DESVIACIÓN ESTÁNDAR Y SIMBOLOGÍA
3.9 LA VARIANZA
3.10 INTERPRETACIÓN DE MEDIDAS DE TENDENCIA CENTRAL Y DE LA VARIABILIDAD
3.11 OTRAS ESTADÍSTICAS DESCRIPTIVAS
3.12 CÓMO SE TRADUCEN LAS ESTADÍSTICAS DESCRIPTIVAS AL INGLÉS
4. PUNTUACIONES Z
5. RAZONES Y TASAS
6.A ESTADÍSTICA INFERENCIAL: LA MUESTRA A LA POBLACIÓN
6.1 UTILIDAD DE LA ESTADÍSTICA INFERENCIAL
6.2 PRUEBA DE HIPÓTESIS
6.3 DISTRIBUCIÓN MUESTRAL
6.4 NIVEL DE SIGNIFICANCIA
6.5 CÓMO SE RELACIONAN LA DISTRIBUCIÓN MUESTRAL Y EL NIVEL DE SIGNIFICANCIA
6.6 UNA VEZ QUE SE HA DEFINIDO EL NIVEL DE SIGNIFICANCIA,¿ QUÉ HACEMOS PARA VER SI NUESTRA HIPÓTESIS SOBRE
LA MEDIA POBLACIONAL ES ACEPTADA O RECHAZADA?
6.7 ¿POR QUÉ ES IMPORTANTE OTRO CONCEPTO: EN INTERVALOS DE CONFIANZA?
6.8 ¿SE PUEDEN COMETER ERRORES A REALIZAR ESTADÍSTICAS INFERENCIAL?
3. PROCEDIMIENTOS PARA CALCULAR LA
DESVIACIÓN ESTÁNDAR
Primero se debe obtener la media y la varianza de los datos
antes de poder encontrar la DESVIACIÓN estándar
4. PASOS PARA CALCULAR LA DESVIACION ESTANDAR:
*Determinar si el ejercicio tiene una varianza de población o muestra.
*Sacar la media de todos los datos obtenidos.
*Restar a cada variable la mediana encontrada
*Hacer una sumatoria de todos los datos encontrados, al restar la
media en cada variable, y dividirlo entre la variabilidad que dependía el
ejercicio tomando en cuenta si es de población o muestra.
6. 3.9.LA VARIANZA
Se trata de la esperanza del cuadrado de la desviación de esa
variable considerada frente su media y se mide en una unidad
diferente.
7. La varianza se relaciona con la desviación típica o desviación estándar, la
cual se denota a través de la letra griega denominada sigma y que será
la raíz cuadrada de la varianza.
La principal función y utilidad, que se le puede encontrar a la varianza
es que nos permite saber y determinar qué es normal, qué es grande,
qué es pequeño, aquello que es extra grande o bien aquello que es extra
pequeño.
FORMULA DE LA VARIANZA
8. Por ejemplo: si tomamos varias razas de perros y la
idea es determinar cuál de ellos es más grande y cuál
el más pequeño, sin dudas, la mejor manera de saber
la respuesta a esta incógnita será la aplicación de la
fórmula de la varianza.
9.
10. 3.10. MEDIDAS DE TENDENCIA CENTRA Y
VARIABILIDAD
La estadística es una ciencia presente en muchas áreas de conocimiento en la que se usan como herramienta para
predecir ciertas tendencias sea de mercado, comportamientos y mucho más. Unas de ellas son las medidas de
tendencia central y variabilidad o dispersión , los cuales son unas variables o unos indicadores que ayudan a
comparar muestras de distintos tipos que se encuentran y se cuantifican en una investigación.
Entre las medidas de tendencia central tenemos:
• Media aritmética
• Media ponderada
• Media geométrica
• Media armónica
• Mediana
• Moda
11. ¿ QUE SON LAS MEDIDAS DE TENDENCIA CENTRAL?
Son medidas estadisticas que pretenden resumir en un solo valor a un
conjunto de valores , que presenta un centro al cual se encuentra
ubicado el conjunto de datos, las medidas de tendencia central mas
utilizadas son la media , mediana y moda .
• A) LA MEDIA ARITMETICA : Es el valor promedio, o medición de tendencia central, de uso más común, se
calcula sumando todas las observaciones de una serie de datos y luego dividiendo el total, entre el número de
elementos involucrados.
Es la cantidad que se obtiene al sumar todos los datos y dividir el resultado entre el numero total de datos.
12. Ejemplo : notas de 5 alumnos en una prueba
Niño nota X= 6,0+5,4+3,1+7,0+6,1 = 27,6 = 5,52..
1 6,0
2 5,4 5 5
4 7,0
5 6,1
• La media aritmética en este ejemplo: es 5,52
• LA MEDIA PONDERADA: es una media de centralización que da una importancia distinta a cada uno de los
valores sobre los que se calcula la media. En una media ponderada cada valor se multiplica por un peso, y el total es
dividido por la suma de los pesos.
13. EJEMPLO:
Un alumno de 1 eso de un instituto ha sacado las siguientes notas en la asignatura de matemáticas: un 7
en el examen parcial que cuenta 30%, un 9 en el trabajo en grupo que vale un 20%, un 6 en los ejercicios
entregados en clase con una ponderación del 10%, y un 8 en el examen final que tiene un peso del 40%.
¿Cuál es su nota final de la asignatura?
X=(7*0.30)+(9*0,20)+(6*0,10)+(8*0,40)
= 7,7
0,30+0,20+0,10+0,40
• LA MEDIA GEOMETRICA: La media geométrica se utiliza con más frecuencia para calcular la tasa de
crecimiento porcentual promedio de algunas series dadas, a través del tiempo.
Se define como la raíz índice n ,es la raíz enésima del producto de esos números.
EJEMPLO :
la media geométrica de los números 2, 3 y 14 es igual a (2 * 3 * 14)^ 1/3 = (84)^ 1/3 = 4,37952.
14. • LA MEDIA ARMONICA : es el recíproco de la media aritmética. Se
calcula como el número total de observaciones dividido por la suma de los
recíprocos. Se utiliza en situaciones en las que hay que promediar trayectos
de igual longitud con diferentes tiempos, así como para promediar múltiplos
o cocientes.
EJEMPLO:
B) LA MEDIANA : Es un dato estadístico de posición central, que parte la distribución en dos, esta puede
ser de manera creciente o decreciente, lo que significa, que coloca la misma cantidad de valores en un lado y
en el otro
15. EJEMPLO :
Para qué sirven las medidas de tendencia
central? pues estas sirven para determina la
mediana de estos valores 5, 9, 4, 2, 7. Luego los
ordenamos de manera creciente que serían 2, 4,
5, 7, 9, donde la mediana seria 5. Ya que los
números son impar.
C) MODA: Es el valor que más se repite en una muestra estadística o población, no tiene fórmula en sí misma,
lo que hay que realizar es la suma de las repeticiones, es decir un recuento de las variables continuas, mismas
que se expresan en intervalos, mediante un intervalo modal, o de ser necesario se debe obtener el valor
concreto de la variable.
16. EJEMPLO :
Ejemplo 1: la moda de los datos, 2, 3, 1, 3, 2, 4, 3 es 3,
porque es el dato que más se repite.
Si hay varios datos que se repiten el mismo número de
veces, entonces hay varias modas.
Ejemplo2 : la moda de los datos, 1, 2, 1, 2, 3, 4 es 1 y 2.
LAS MEDIDAS DE VARIABILIDAD O DISPERSION
Las medidas de dispersión, variabilidad o variación nos indican si esos datos están próximos entre sí o sí
están dispersos, es decir, nos indican cuán esparcidos se encuentran los datos.
Podemos decir que las medidas de dispersión que más utilizadas son:
A)VARIANZA
B)RANGO DE VARIACIÓN
C)DESVIACIÓN ESTANDAR
D) COEFICIENTE DE VARIACIÓN
17. • VARIANZA la varianza es la más generalizada y la mejor medida de dispersión.
Formalmente, se calcula como la suma de los cuadrados de los residuos dividida por las
observaciones totales.
EJEMPLO:
• RANGO DE VARIACION: es una medición que se define como la diferencia
que existe entre valor mayor de una variable y el valor menor de la misma.
EJEMPLO :
El rango medio de 2, 5, 3, 4, 5, y 5 es .
18. • DESVIACION ESTANDAR: también llamada desviación típica, es la medida la cual nos ofrece información
sobre la dispersión de la media de las variables, está por lo general es mayor o igual a cero.
Puntuaciones: 10, 32, 24, 26, 40, - Valores = 6
* ( 10+32+24+26+40) / 6= 20
* [(18-20)2 + (20-20)2 + (20-20)2 + (22-20)2 + (20-20)2 + (20-20)2]
/ 6 = 16 / 6 = 8 /3 = 2,67
*l/2,67=1,63 desviación estándar
• COEFICIENTE DE VARIACION: se describe como la medida relativa de la dispersión de los datos, pues la
podemos definir como una desviación estándar que se realiza de una muestra, por ejemplo; un porcentaje de la
media central.
19. EJEMPLO :
Pensemos en una población de elefantes y otra de ratones. La
población de elefantes tiene un peso medio de 5.000 kilogramos y una
desviación típica de 400 kilogramos. La población de ratones tiene un
peso medio de 15 gramos y una desviación típica de 5 gramos.
Elefantes: 400/5000=0,08
Ratones: 5/15=0,33 COEFICIENTE DE VARIACIÓN
23. 3.12.COMO SE TRADUCEN LAS ESTADISTICAS DESCRIPTIVAS AL
INGLES.
Estadística Equivalente en ingles
Moda
Mediana
Media
Desviación estándar
Varianza
Máximo
Mínimo
Rango
Asimetría
Curtosis
Mode
Median
Mean
Standard deviation
Variance
Maximum
Minimum
Range
Skewness
Kurtosis
24. DEFINICIÓN:
En exámenes y estadística, se
denomina así a un tipo de
puntuación estándar que indica
cuánto se aleja una puntuación
bruta de la media en unidades de
desviación típica. El valor será
positivo o negativo dependiendo
de que se localice por encima o
por debajo de la media.
EJEMPLOS:
Si un estudiante obtiene una
puntuación bruta de 75 de 100 en una
prueba en la que la media del grupo es
55 y la desviación estándar es 10, la
puntuación Z de ese estudiante se
obtendrá restando la media a la
puntuación bruta y dividiendo el
resultado entre la desviación estándar,
esto es (75 - 55) : 10 = +2. La puntuación
Z del estudiante será, por tanto, +2; esto
significa que su puntuación bruta se
halla dos unidades de desviación
estándar por encima de la media.
4.Puntuaciones z
25. Las razones se usan para comparar cantidades o describir la relación entre dos montos. Por
ejemplo, una razón puede usarse para describir el costo de un mes de renta comparado
con el salario ganado por mes. También puedes usar una razón para comparar el número
de elefantes con el número total de animales en un zoológico, o la cantidad de calorías por
porción de dos marcas diferentes de helado
5.Razones
Las razones comparan cantidades usando la división. Esto significa que puedes describir
una razón entre dos cantidades como una expresión de división entre esas mismas
cantidades.
Tasas
Una tasa es una razón que compara dos cantidades diferentes que tienen unidades de
medida distintas. Una tasa es una comparación que provee información como dólares por
hora, pies por segundo, millas por hora, y dólares por cuarto, por ejemplo. La palabra
“por” normalmente indica que estás tratando con una tasa. Las tasas pueden escribirse
usando palabras, usando dos puntos, o como una fracción. Es importante que sepas qué
cantidades están siendo comparadas
Las tasas son un tipo especial de razón usadas para describir la relación entre dos
unidades de medida distintas, como la velocidad, ganancias, o precios. Un carro puede
describirse como viajando a 60 millas por hora, un jardinero puede ganar $35 por cortar el
pasto; la gasolina puede venderse a $3 por galón.
26. 6.Estadística inferencial
La estadística inferencial es una parte de la estadística que comprende los métodos
y procedimientos que por medio de la inducción determina propiedades de una
población estadística, a partir de una parte de esta. Su objetivo es obtener
conclusiones útiles para hacer razonamientos deductivos sobre una totalidad,
basándose en la información numérica dada por la muestra.
Se dedica a la generación de los modelos y predicciones asociadas a los fenómenos
en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para
modelar patrones en los datos y extraer inferencias acerca de la población bajo
estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no
(prueba de hipótesis), estimaciones de unas características numéricas (estimación),
pronósticos de futuras observaciones, descripciones de asociación (correlación) o
modelamiento de relaciones entre variables de Sam . Otras técnicas de
modelamiento incluyen análisis de varianza, series de tiempo y minería de datos.
27. Estudio de la estadística inferencial
• Toma de muestras o muestreo cuantitativo, que se refiere a la forma
adecuada de considerar una muestra que permita obtener conclusiones
estadísticamente válidas y significativas.
• Estimación de parámetros o variables estadísticas, que permite estimar
valores poblacionales a partir de muestras de mucho menor tamaño.
• Contraste de hipótesis, que permite decidir si dos muestras son
estadísticamente diferentes, si un determinado procedimiento tiene un
efecto estadístico significativo, etc.
• Diseño experimental.
• Inferencia bayesiana.
• Métodos no paramétricos.
28. Método
Planteamiento del problema: un problema de inferencia estadística suele
iniciarse con una fijación de objetivos o algunas preguntas del tipo:
¿Cuál será la media de esta población respecto a tal característica?
¿Se parecen estas dos poblaciones?
¿Hay alguna relación entre...?
En el planteamiento se definen con precisión la población, la característica a
estudiar, las variables, etc.
Elaboración de un
modelo: en caso de
establecer un modelo
teórico, se replantea el
procedimiento y se llega
a una conclusión lógica.
Los posibles modelos son
distribuciones de
probabilidad.
Extracción de la
muestra: se usa alguna
técnica de muestreo o
un diseño
experimental para
obtener información
de una pequeña parte
de la población.
Tratamiento de los datos: en
esta fase se eliminan posibles
errores, se depura la muestra,
se tabulan los datos y se
calculan los valores que serán
necesarios en pasos
posteriores, como la media
muestral, la varianza muestral.
Los métodos de esta etapa
están definidos por la
estadística descriptiva.
29. Estimación de los parámetros: con determinadas técnicas se realiza una
predicción sobre cuáles podrían ser los parámetros de la población.
Contraste de hipótesis: los contrastes de hipótesis son técnicas que
permiten simplificar el modelo matemático bajo análisis. Frecuentemente
el contraste de hipótesis recurre al uso de estadísticos muestrales.
Artículo principal: Contraste de hipótesis
Conclusiones: se critica el modelo y se hace un balance. Las conclusiones
obtenidas en este punto pueden servir para tomar decisiones o hacer
predicciones.
El estudio puede comenzar de nuevo a partir de este momento, en un
proceso cíclico que permite conocer cada vez mejor la población y
características de estudio.
31. Qué es el nivel de significancia?
El nivel de significancia es un valor de certeza que fija el investigador “a
priori”. De certeza respecto a no equivocarse.
Dados ciertos supuestos podemos obtener las probabilidades de cometer
errores de tipo I y de tipo II.
Errores Tipo I.-
La probabilidad de cometer errores de tipo I, que se simboliza alfa, es la
probabilidad de ocurrencia de los valores del estadístico en la región de
rechazo cuando la Hipótesis Nula es verdadera.
Errores Tipo II.-
La probabilidad de cometer errores de tipo II se simboliza beta y depende
de varias circunstancias como la distancia que separa el valor asignado al
parámetro en la Hipótesis Nula de su valor real, el tamaño maestral y el
valor asignado a alfa.
32. 6.5.CÓMO SE RELACIONAN LA DISTRIBUCIÓN MUESTRAL
Y EL NIVEL DE SIGNIFICANCIA
Resulta de considerar todas las muestras
posibles que pueden ser tomadas de una
población. Su estudio permite calcular la
probabilidad que se tiene, dada una sola
muestra, de acercarse al parámetro de la
población.
Parámetro, promedio Probabilidad
Probabilidad certeza
Certeza significancia
33. 6.6.UNA VEZ QUE SE HA DEFINIDO EL NIVEL DE SIGNIFICANCIA,
¿QUÉ HACEMOS PARA VER SI NUESTRA HIPÓTESIS SOBRE LA
MEDIA POBLACIONAL ES ACEPTADA O RECHAZADA?
Hipótesis Nula (Ho).- Es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa.
Hipótesis Alternativa (H1).- Es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa.
• Nivel de Probabilidad: Probabilidad de rechazar la hipótesis nula cuando es verdadera.
Se le denota mediante la letra griega α, también es denominada como nivel de riesgo.
• Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de
significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de
aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis
planteada, cuando es verdadera en la población.
34. X ̅: Es la media muestral
µ: Es la media poblacional
S: es la desviación estándar
n: es el número de observaciones en la
muestra
¡Acomodando como fórmula!
Muestra media Muestra Grande Muestra pequeña
35. 6.7 ¿POR QUÉ ES IMPORTANTE OTRO CONCEPTO: EL
INTERVALO CONFIANZA?
Un intervalo de confianza es un rango de
valores que debido a si naturaleza aleatoria,
es poco probable que dos muestras de una
población en particular produzcan intervalos
de confianza idénticos
El intervalo de confianza se determina
calculando una estimación de punto y luego
determinando su margen de error.
• ESTIMACION DE UN PUNTO:
Este valor individual estima un parámetro de
población usando los datos de la muestra.
36. • MARGEN DE ERROR:
Cuando se utiliza estadísticos para estimar un valor es importante recordar que,
sin importar lo bien que esté diseñado su estudio, su estimación está sujeta a
error de muestreo aleatorio. El margen de error cuantifica este error e la
precisión de la estimación.
Por ejemplo:
MARGEN DE
ERROR
37. Se analizan las razones por las cuales el uso de los intervalos de
confianza es altamente recomendable. Entre estas razones destaca
la aproximación al conocimiento de la importancia real de un
resultado.
La respuesta a la pregunta que hace el título es contundente:
Porque no solo permite conocer la significación estadística de un
resultado, sino que además permiten valorar la significación clínica,
es decir, su importancia y práctica.
38. 6.8 ¿SE PUEDEN COMETER ERRORES AL REALIZAR
ESTADISTICAS INFERENCIAL?
TIPOS DE ERRORES
• El error de tipo I se comete cuando
la hipótesis nula es verdadera y, como
consecuencia del contraste, se rechaza.
Se denomina con la letra alfa
• El error de tipo II se comete cuando
la hipótesis nula es falsa y, como
consecuencia del contraste se acepta.
Se denotan con la letra beta
39. Verdad acerca de la población
Decisión basada en la
muestra
H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta
(probabilidad = 1 - α)
Error tipo II - no
rechazar H0 cuando es
falsa (probabilidad = β)
Rechazar H0 Error tipo I - rechazar
H0 cuando es
verdadera
(probabilidad = α)
Decisión correcta
(probabilidad = 1 - β)