Análisis de datos

MÉTODO BASICO ANÁLISIS DE
DATOS
Francisco Mostazo

VARIABLES
mer
DATOS
ESCALAS DE MEDIDAD
CUALITATIVOS
(No métricos )
CUANTITATIVOS
(Métricos )
DISCRETOS
CONTABLES
CONTINÚOS
NOMINALES
ORDINALES
BINARIOS

Contraste de Hipótesis
• Hipótesis nula:
Se contrasta en el estudio
Grado significancia estadística: Calculamos la probabilidad de que los resultados obs
Sean debidos al azar . Probabilidad p >0,05
• Hipótesis alternativa
• Aceptación Ho no hay diferencia
• Rechazamos Ho hay diferencia ( es falsa ) aceptamos H1
• Existan evidencias para dudar Ho
• Es improbable que el resultado sea debido al azar
• Las variaciones debidas al muestreo no bastan para explicar resultado

TIPO DE ERRORES
• Tipo I o (α)
• Hay diferencia en un estudio cuando no las hay ( rechazamos Ho cuando es cierta )
P=0.05 (5%)
• Tipo II o (β)
• No hay diferencias estadísticas ( no se rechaza Ho) pero en realidad si las hay
• Aceptamos Ho y es falsa

FINES DE LA INVESTIGACIÓN
• FINES DE DESCUBRIMIENTO:
-ESTADÍSTICA DESCRIPTIVA (sin generalizar a la población )
• PRUEBAS DE HIPÓTESIS:
-INFERENCIA ESTADÍSTICA( generalizaciones a la población )

Pregunta 1 2 3
Variable Edad Sexo Satisfacción en el puesto
Categoría <30 años > 30 años Hombre Mujer Agrado Desagrado
Número 15 25 10 30 10 30
Porcentaje
Del total 38% 62% 25 % 75% 25% 75%

ANÁLISIS DE DATOS EXPLORATORIOS
Serie 1
Serie 2
Serie 3
0
1
2
3
4
5
Categoría 1
Categoría 2
Categoría 3
Categoría 4
Serie 1
Serie 2
Serie 3

MÉTODOS BÁSICOS DE ASOCIACION
• Tabulación cruzada
• Correlación contingencias
• Correlación de rangos Spearman
• R de Pearson

MÉTODOS EVALÚAN DIFERENCIAS
• Prueba ji cuadrada ( x2)
• La prueba z
• la prueba t

TABULACIÓN CRUZADA
• PORCENTAJES
• Eje :100 Trabajadores
Experiencia laboral ( si o no )
Tiempo completo ( si o no )
Experiencia
Laboral previa
TIEMPO COMPLETO
SI NO
TOTALES
SI 33 60% 22 40% 55
NO 17 38% 28 62% 45
TOTALES 50 50 100

CORRELACIÓN CONTINGENCIA
• El coeficiente de contingencia se utiliza para saber la asociación de variables cualitativas
nominales, que tienen dos o más categorías.
Este coeficiente requiere del cálculo previo del estadístico Chi Cuadrado.
•
Chi cuadrado relaciona los valores observados ( que son los datos recabados para la
investigación) , y los valores esperados.
Por lo que se multiplica el total de cada fila por el total de cada columna de la tabla de
contingencia y luego se divide por el total de las observaciones (n).
•
Por lo que , si fuera cierto que los valores son independientes, todos los valores calculados
para cada casillero de la tabla de contingencia deberían dar el mismo número.
•
Por lo tanto Chi Cuadrado debe debería dar cero .Generalmente
El coeficiente de contingencia, toma valores comprendidos entre cero y uno.
•
Cuando está próximo a cero, indica asociación nula o muy débil entre las variables
involucradas.
•
Cuando está próximo a uno, indica asociación alta, fuerte, o casi perfecta, dependiendo de la
cercanía al número uno.

CORRELACIÓN CONTINGENCIA
Ejemplo :167 cantidad estrés r/ c condiciones socioeconómicas de estudiantes
Hipótesis alternativa: Abra diferencias significativas
Hipótesis nula : No abra diferencias significativas
Económica CON ESTRES SIN ESTRES TOTAL
ALTA 15 25 40
MEDIA 20 32 52
BAJA 60 15 75
TOTAL 95 72 167

CORRELACIÓN RANGO SPEARMAN
• Es un estadístico basado en rangos, que sirve para determinar
si hay asociación entre dos variables de un mismo sujeto
• Es una medida de asociación que requiere que ambas
variables sean medidas por lo menos en una escala ordinal,
de manera que los sujetos puedan colocarse en dos series
ordenadas
• ESTABLECE LA FUERZA DE RELACIÓN ENTRE DOS VARIABLES
ORDINALES
• Nos da una idea de que tan relacionadas linealmente están
dos variables. Es un número que varía entre 0 y 1.
Si el coeficiente es > 0.9, entonces es una buena correlación.
1 es una correlación perfecta.

Planteamiento de la hipótesis
• Ho: No existe asociación entre las dos
variables.
• Ha: Existe una relación o asociación entre las
dos variables

Procedimiento
• Se asignan rangos en la variable X y en la
variable Y, de manera independiente.
• Se determinan las diferencia entre los rangos
(di ). di=Xi-Yi
• Se eleva al cuadrado cada di y luego se
suman los resultados, para reemplazar en la
siguiente formula:

• Regla de decision: (para muestras entre 4 y
30)
• Si rs es mayor o igual al valor de tabla, se
rechaza la hipótesis nula es decir si hay
correlación o asociación entre las dos
variables

Talla peso
168 68
189 70
175 80
156 45
148 48
Talla peso
3 3
5 4
4 5
2 1
1 2
d
0
1
1
1
1 4
R = 0,9616 1-(6*4/5³-5)

Coeficiente producto-momento (PM)
r de Pearson
• Determina la fuerza de relación y dirección de
dos variables
• Límites (-1,1)
• Primer paso es graficar los datos

MÉTODOS BÁSICOS PARA EVALUAR
DIFERENCIAS
1. PRUEBA CHI CUADRADO
2. PRUEBA Z PARA DIFERENCIAS EN
PROPORCIONES
3. PRUEBAS T PARA DIFERENCIAS DE MEDIDA

PRUEBA JI CUADRADO
• DATOS NOMINALES INDEPENDIENTES
H nula. La puntualidad es independiente del sexo del trabajador.
H Alternativa: la puntualidad es dependiente del sexo del trabajador
Puntualidad Hombre Mujer Totales
Con retardos 12 28 40
Sin retardo 30 30 60
Totales 42 58 100

PRUEBA z diferencias de proporciones
• DATOS DICOTÓMICOS
• MUESTRAS INDEPENDIENTES
• EJEMPLO:
• ENCUESTA 500 PERSONAS,CIUDAD a, GANAN 95 > 10.000 EUROS
• CIUDAD B, ENCUESTA A 300, 60 PERSONAS < 10000 EUROS ANUALES
• ¿ LA PROPORCIÓN ES LA MISMA EN LAS DOS CIUDADES?

PRUEBA t diferencias de medias
El procedimiento Prueba T para muestras independientes
debe utilizarse para comparar las medias de dos grupos de casos,
es decir, cuando la comparación se realice entre las medias de dos
poblaciones independientes (los individuos de una de las
poblaciones son distintos a los individuos de la otra) como por
ejemplo en el caso de la comparación de las poblaciones de
hombres y mujeres. Lo ideal es que para esta prueba los sujetos se
asignen aleatoriamente a dos grupos, de forma que cualquier
diferencia en la respuesta sea debida al tratamiento (o falta de
tratamiento) y no a otros factores.

Prueba t
Ejemplo. Se asigna aleatoriamente un grupo de pacientes con
hipertensión arterial a un grupo con placebo y otro con tratamiento.
Los sujetos con placebo reciben una pastilla inactiva y los sujetos
con tratamiento reciben un nuevo medicamento del cual se espera
que reduzca la tensión arterial. Después de tratar a los sujetos
durante dos meses, se utiliza la prueba t para dos muestras para
comparar la tensión arterial media del grupo con placebo y del
grupo con tratamiento. Cada paciente se mide una sola vez y
pertenece a un solo grupo.

ANÁLISIS MULTIVARIANTE
Objetivo: estudio de varias variables simultáneamente:
Métodos con variable dependiente
Hay una variable que “depende” de otras que se miden como “independientes o
predictoras ”. Tienen un interés predictivo.
Métodos con sólo variables independientes
No se distingue entre variables dependientes e independientes. Tienen un
interés descriptivo en el sentido de clasificar objetos en función de las variables.

TIPOS DE TÉCNICAS MULTIVARIANTE
• Regresión/ correlación múltiple
• Análisis discriminante múltiple
• Análisis multivariante de la varianza y covarianza
• Análisis conjunto
• Correlación canónica
• Análisis cluster
• Análisis multidimensional
• Análisis de correspondencias
• Modelos de probabilidad lineal
• Modelos de ecuaciones estructurales

Regresión múltiple
• Eje : Predicción gastos cenar fuera de casa ( VD) con
información referente a la renta familiar, su tamaño y edades
( VI).
• Eje : Predicción ventas ( VD) en función gastos en publicidad,
número de tiendas , vendedores.(VI)
• Objetivo: Predice los cambios de (métrica )VD en función de
varias VI

Análisis discriminante múltiple
• Eje: distinguir entre usuarios habituales u ocasionales de un
producto
• Eje: agencia tributaria la utiliza para comparar declaraciones
con devoluciones del contribuyente normal.
• VD es dicotómica y VI es métrica
• Objetivo: entender diferencias de grupos y predecir su
pertenencia a uno u a otros en función de VI

Análisis multivariante de la varianza y
covarianza
• VI ( tratamientos ) y varias VD ( métricas )
• Útil en situaciones experimentales de tratamientos en grupos

Análisis conjunto
• Se utiliza en análisis de mercados se evalúan atributos y
combinación de ellos.
Precio Calidad Color
Rojo Amarillo Azul
X3 X3 x3

Correlación canónica
• Correlación de varias VD( métricas) con varias
VI(métricas )

Análisis Cluster
• Técnica para desarrollar subgrupos de individuos u objetos
• 1ª Etapa: medida de similitud para crear grupos
• 2ª Etapa : Describir la composición de los grupos

Análisis multidimensional
• Eje : si las marcas A y b son más similares que el
resto de pares C y d , e y f, la técnica situará a las
marcas a y b en un espacio menor que cualquier otra
relación.

Análisis de correspondencia
• Utiliza una tabla de contingencia
• Transforma datos cualitativos en métricos.
• Eje : preferencias de una marca en encuestados se tabulan
con variables demográficas ( sexo , renta, ocupación )

MULTIPLES VARIAS V.D. UNA V.D
RELACIONES EN RELACIÓN ÙNICA EN RELACION ÚNICA VARIABLE CASOS / OBJETO
VD Y VI ENCUESTDOS
ESCALA DE MEDIDA V.D ESCALA V.D COMO SON
ATRIBUTOS
MÉTRICA NO MÉTRICA MÉTRICA NO MET
MÉTRICOS NO MÉT.
ESC.MEDIDA
V.PREDICTOR
MÉTRICA NO MÉTRICA
Que examinamos
dependencia interdependencia
MODELO
ECUACIONES
ESTRUCTURALES
ANÁLISIS DE
CORRELACIÓN
CANÓNICOS
V.FICTICIA
ANÁLIS DE
CORRELACIÓN
CANÓNIOCA
ANÁLISI
MULTIVARIANTE DE
VARIABLES
REGRESIÓN
MÚLTIPLE_
_
ANÁLISIS
DE
CONJUNTO
ANÁLISIS
DISCRIMINANTE
MÚLTIPLE__
MODELOS DE
PROBABILIDAD
LINEAL
ANÁLISIS
FACTORIAL
ANÁLISIS
CLUSTER
ANÁLISIS
MULTIDIMEN
SIONAL
ANÁLISIS DE
CORRESPON
DENCIA

Análisis de datos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (10)

Similar a Análisis de datos

Similar a Análisis de datos (20)

Análisis de datos