La teoría de formación de Patricia Benner es una explicación acerca de cómo e...
Estadistica prueba slideshare
1. 1.- ESTADÍSTICA APLICADA A LA INVESTIGACIÓN CIENTÍFICO-TÉCNICA.
La estadística es una rama de la matemáticas que aplica el cálculo de probabilidad, con la
finalidad de obtener conclusiones de la investigación empírica mediante el uso de modelos
matemáticos.
La estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos
reales. Un modelo matemático es una abstracción simplificada de una realidad más compleja y
siempre existirá cierta discrepancia entre lo observado y lo previsto por el modelo. La estadística
proporciona una metodología para evaluar y juzgar estas discrepancias entre la realidad y la
teoría.
Además de su papel instrumental, el estudio de la Estadística es importante para entender las
posibilidades y limitaciones de la experimentación, para diferenciar las conclusiones que pueden
obtenerse de los datos de las que carecen de base empírica.
2. Problemas científicos que resuelve la estadística.
• Descripción de datos. Es el primer problema que, históricamente resuelve la Estadística. Ante la recogida
de un gran número de observaciones, se trata de encontrar procedimientos para resumir la información
contenida en los datos.
• Análisis de muestras. Es frecuente que, por razones técnicas o económicas, no sea posible estudiar todos
los elementos de una población. Por ejemplo, si para determinar la resistencia de un elemento es
necesario una prueba destructiva, tendremos que tomar una muestra para no destruir la partida entera.
Por tanto, la Estadística se utiliza para elegir una muestra representativa y para hacer inferencias respecto
a la población a partir de lo observado en la muestra.
• Contraste de hipótesis. Un objetivo frecuente en la investigación empírica es contrastar una hipótesis. El
contraste de hipótesis requiere el diseño de un experimento que garantice que las conclusiones que se
extraigan de la experimentación no estén invalidadas por factores no controlados.
• Medición de relaciones. Las relaciones que observamos entre variables físicas, sociales o técnicas son,
prácticamente siempre, estadísticas.
• Predicción. Muchas variables económicas y físicas tienen cierta inercia en su evolución y aunque sus
valores futuros son desconocidos, el estudio de su evolución pasada es informativo para prever su
evolución futura."
3. El método estadístico
El inicio de una investigación Estadística suele ser un interrogante cuya respuesta se desconoce. La investigación se desarrolla utilizando
el ciclo deductivo-inductivo en las etapas siguientes:
a) Planteamiento del problema. El primer paso de la investigación es definir los objetivos del estudio y relacionar este objetivo con los
valores numéricos de variables observadas.
b) Construcción del modelo estadístico. El tipo de modelo estadístico más frecuente consiste en una descomposición de los valores de la
variable de interés como una suma de una parte sistemática y una parte aleatoria. La variable (y) se relaciona con otra variable (x)
c) Recogida de la información muestral. La recogida de la información puede realizarse de dos formas:
- Por muestreo: consiste en observar pasivamente una muestra de las variables y anotar sus valores.
- Por diseño de experimentos: consiste en fijar los valores de ciertas variables y observar la respuesta de otras.
d) Depuración de la muestra. Una regla empírica contrastada es esperar entre un 2 y un 5 % de observaciones con errores de medición,
transcripción, etc. Antes de utilizar los datos muestrales hay que aplicar técnicas estadísticas para identificar errores y valores anómalos.
e) Estimación de los parámetros. Los modelos estadísticos dependen de ciertas constantes desconocidas que llamaremos parámetros.
La fase de estimación consiste en utilizar la información disponible para decidir respecto a un valor concreto de estos parámetros así
como cuantificar el posible error en la estimación.
f) Contrastes de simplificación. El objetivo de esta fase es conseguir un modelo tan simple como sea posible, es decir, sin más
parámetros que los necesarios.
g) Crítica y diagnosis del modelo. Los resultados de las etapas e y f se obtienen suponiendo que el modelo es correcto. Esta fase
investiga la compatibilidad entre la información empírica y el modelo. De especial interés es comprobar que la parte aleatoria lo es
realmente, es decir, no contiene ninguna estructura sistemática. Si después de esta fase, aceptamos el modelo como correcto, lo
utilizaremos para tomar decisiones o realizar previsiones de la variable. En caso contrario volveremos a la fase b y reformularemos el
modelo, repitiendo el proceso hasta conseguir un modelo correcto.
4. 2.- VARIABLES: CONCEPTO Y CLASIFICACIÓN.
Una variable es un símbolo dentro de un algoritmo que se utiliza para designar una cantidad susceptible de
tomar distintos valores numéricos dentro de un conjunto de números especificado
En cálculo, álgebra y geometría analítica, se hace la distinción entre variables independientes y variables
dependientes.
En una expresión matemática, por ejemplo una función y = f ( x ) y=f(x)} y=f(x) , el símbolo ""x"" representa a la
variable independiente, y el símbolo ""y"" representa a la variable dependiente.
Se define variable independiente como un símbolo ""x"" que toma diversos valores numéricos (argumentos),
dentro de un conjunto de números específicos y que modifica el resultado o valor de la variable dependiente. Las
variables dependientes son las que constituyen el objeto de investigación.
En una investigación científica, Las variables pueden ser cuantitativas, cuando se expresan en números, como por
ejemplo la longitud o el peso. Las variables cualitativas expresan cualidades, por ejemplo, designar con letras las
preferencias de los estudiantes por sus materias de estudio.
5. Tipos de variables
Los tipos de variables pueden ser
a) Variables cualitativas o atributos: no toman valores numéricos y describen cualidades.
b) Variables cuantitativas discretas: toman únicamente valores enteros, corresponden generalmente a contar el número de veces que ocurre un
suceso.
c) Variables cuantitativas continuas: toman valores en un intervalo, corresponden a medir magnitudes continuas (tiempo, longitud, etc.)."
La Representación de las variables.
La presentación de datos se realiza en tablas indicando sus frecuencias de aparición. los datos cualitativo se representan por atributos y se agrupan en
clases.
La tabla que recoge los valores observados con su frecuencias respectivas . Esta forma de representación se denomina distribución de frecuencias de la
variable. .Estos cuadros de frecuencia pueden tener dierente forma : tabla, diagrama de barras , histograma, etc . Esta representación describe los
valores posibles, y sus frecuencias relativas de aparición.
Las variables aleatorias y sus distribuciones.
En el cálculo de probabilidades utiliza variables numéricas que se denominan aleatorias porque sus valores vienen determinados por el azar. En todo
proceso de observación o experimento podemos definir una variable aleatoria asignando a cada resultado del experimento un número:
• Si el resultado del experimento es numérico porque contamos o medimos, los posibles valores de la variable coinciden con los resultados del
experimento.
• Si el resultado del experimento es cualitativo, hacemos corresponder a cada resultado un número arbitrariamente; por ejemplo, 0, si una pieza es
buena y, 1, si es defectuosa.
Diremos que se ha definido una variable aleatoria o que se ha construido un modelo de distribución de probabilidad, cuando se especifican los
posibles valores de la variable con sus probabilidades respectivas.
6. Variables aleatorias discretas.
Una variable aleatoria es discreta cuando toma un número de valores finito, o infinito numerable. Estas
variables corresponden a experimentos en los que se cuenta el número de veces que ha ocurrido un
suceso.
Un modelo de distribución de probabilidad es la representación idealizada de un experimento aleatorio y
se construye indicando los valores posibles de la variable aleatoria asociada al experimento y sus
probabilidades respectivas. La forma más general de caracterizar estos modelos es mediante la función de
distribución, F(x), definida en cada punto x0, como la probabilidad de que la variable aleatoria x tome un
valor menor o igual que x0
Escribiremos
F(x 0) = P(x = x0).
La función de distribución se define para todo punto del eje real, es siempre no decreciente y por convenio
F(-8) = 0 y F(+8) = 1.
7. Las distribuciones de las variables
Según el tipo de variable a estudiar, se utilizan cuatro principales tipos
de distribuciones de las que nacen todas las demás, son:
a) Si la variable es una variable discreta (valores enteros),
corresponderá una distribución discreta
Distribución binomial (eventos independientes).
Distribución de Poisson (eventos independientes).
Distribución hipergeométrica (eventos dependientes).
b) Si la variable es continua, esto significa que puede tomar cualquier
valor dentro de un intervalo, la distribución que se generará será una
distribución continua, también llamada distribución normal o
gaussiana.
8. 3.- MEDIDAS DE FRECUENCIA, DE TENDENCIA CENTRAL, DISPERSIÓN Y POSICIÓN.
En estadística habría cuatro tipos de frecuencias: absoluta, relativa, absoluta acumulada y relativa acumulada.
3.1.- Medidas de frecuencia
Frecuencia absoluta
Se llama frecuencia, o frecuencia absoluta al número de individuos que presentan cierto valor de una variable
determinada. Es decir la suma de los sucesos.
Frecuencia relativa
Representa la cantidad de veces que se repite una observación, expresada como proporción de la muestra. Es decir,
es el resultado de dividir el valor de la frecuencia absoluta por el tamaño de la muestra estadística.
Esta se representa como f = n/N, siendo n el número de veces que se repite la respuesta y N el tamaño de la
muestra. Su valor se expresa como porcentaje.
Frecuencia absoluta acumulada
La frecuencia acumulada es aquella que se obtiene al sumar todas las frecuencias absolutas inferiores o iguales al
valor en cuestión. Se representa con Ni .
Frecuencia relativa acumulada
En esta se tiene en cuenta la sumatoria de todas las frecuencias relativas inferiores o iguales al valor en cuestión. Se
representa con Fi o Hi
9. 3.2.-Las medidas de posición
Las medidas de posición son valores de la variable que informan del lugar que ocupa un dato dentro del
conjunto ordenado de valores.,
Para calcular las medidas de posición la variable debe ser cuantitativa y considerarse las frecuencias
acumuladas. Si la variable es continua, se toma como valor la marca de clase.
A un valor de posición se le llama cuantil .
El percentil
Las valores de posición más utilizados en una distribución son los percentiles. Un percentil es un cuantil
porcentual, que indica el valor de la variable por debajo del cual se encuentra un porcentaje de
observaciones. Por ejemplo, el percentil 20.º es el valor bajo el cual se encuentran el 20 por ciento de las
observaciones.
Los percentiles más utilizados son los deciles, los cuartiles y la mediana . Los cuartiles tienen especial
relevancia; dividen cuatro partes la distribución y se denominan : Q1 , Q2 y Q3. Estos cuartiles se
corresponden con los percentiles P25; P50 y P 75, respectivamente. Al Percentil 50 (P50) también se le
conoce como la mediana y además de ser una medida de posición es una medida de tendencia central.
10. 3.3.-Medidas de tendencia central.
Una medida de tendencia central o medida de centralización es un número situado hacia el centro de la distribución de los
valores de una serie de observaciones (medidas), en la que se encuentra ubicado el conjunto de los datos.
Las medidas de tendencia central más utilizadas son: media aritmética , mediana moda, media geométrica y la media
ponderada
La media aritmética, también llamada promedio. Es, dentro de un conjunto finito de números es el valor característico de
una serie de datos cuantitativos y se considera de la esperanza matemática o valor esperado. La media aritmética se obtiene
a partir de la suma de todos sus valores dividida entre el número de sumandos
La mediana
la mediana representa el valor de la variable de posición central en un conjunto de datos ordenados. Equivale al percentil
50
La moda
la moda es el valor con mayor frecuencia en una de las distribuciones de datos.
La media ponderada
Es una medida de tendencia central que ese usa cuando en un conjunto de datos cada uno de ellos tiene una importancia
diferente respecto de los demás datos. Se obtiene multiplicando cada uno de los datos por su ponderación (peso) para
luego sumarlos, obteniendo así una suma ponderada para después dividirlo entre la suma de los pesos.
La media geométrica
la media geométrica de un conjunto de números ( n) es la raíz n-ésima del producto de todos los números. Es recomendada
11. 3.4.- Medidas de dispersión
las medidas de dispersión (también llamadas variabilidad,) representan el grado en que una distribución se estira o se
concentra. Una medida de dispersión estadística es un número real no negativo que se hace cero si todos los datos son
iguales (máxima concentración) y aumenta a medida que los datos se vuelven más diversos.
Las medidas de dispersión estadística más comunes son la varianza, la desviación estándar y el rango intercuartil.
La varianza
La varianza de una variable aleatoria es una medida de dispersión que se define (sigma^2), como el cuadrado de la
desviación de dicha variable respecto a su media. (X-x)2.
La desviación estandar
La desviación estándar o desviación típica (que se suele representar por letra griega minúscula sigma o las siglas SD) es
una medida que se utiliza para cuantificar la variación o la dispersión de un conjunto de datos numéricos
Una desviación estándar baja indica que la mayor parte de los datos de una muestra tienden a estar agrupados cerca de
su media, mientras que una desviación estándar alta indica que los datos se extienden sobre un rango de valores más
amplio
Rango intercuartílico
El rango intercuartílico es una medida de variabilidad adecuada cuando la medida de posición central empleada ha sido
la mediana. Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3 - Q1. A la
mitad del rango intercuartil se le conoce como desviación cuartil (DQ), es afectada muy poco por cuentas extremas. Esto
lo hace una buena medida de dispersión para distribuciones sesgadas: DQ = RQ/2= (Q3 - Q1)/2
12. 4.- ESTIMACIÓN DE PARÁMETROS, ESTADÍSTICA INFERENCIAL Y
CONTRASTE DE HIPÓTESIS
4.1.-Estadística inferencial
A diferencia de la estadística descriptiva, que es la rama de la
estadística que se encarga de recoger y representar los datos, la
estadística inferencial es la rama que se ocupa de hacer
deducciones, inferir propiedades, conclusiones y tendencias, a
partir de una muestra del conjunto. Su papel es interpretar,
hacer proyecciones, predicciones y comparaciones.
13. 4.2.-Contrastes de Hipótesis
En muchos estudios científicos se precisa contrastar unos datos observados con unos valores
esperados (teóricos), es decir, ver si una hipótesis puede ser o no aceptada.
Al iniciar una investigación científica se plantean dos hipótesis que son mutuamente
excluyentes:
• La hipótesis nula (H 0 ). Si H 0 , es la hipótesis que se contrasta, el nombre de nula proviene
de que H 0 representa la hipótesis que mantendremos a no ser que los datos indiquen su
falsedad, y debe entenderse, por tanto, en el sentido de neutra. La hipótesis H 0 nunca se
considera probada,aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que
todos los elementos de las poblaciones A y B son idénticos, puede ser rechazada encontrando
elementos A y B distintos, pero no puede ser demostrada más que estudiando todos los
elementos de ambas poblaciones,
tarea que puede ser imposible. La hipótesis nula mantiene que no existen diferencias entre los
valores observados y los teóricos o esperados.
14. • La hipótesis alternativa (H 1 ). Mantiene que si existen diferencias entre los valores
observados y losteóricos o esperados.
Ambas hipótesis, nula y alternativa, deben ser planteadas de forma simultánea. Las
pruebas de significación o de contraste nos permiten valorar la verosimilitud de una
hipótesis respecto a los datos empíricos y poder tomar la decisión de mantener o
rechazar la hipótesis formulada.
Para probar nuestras hipótesis se realizan pruebas estadísticas. Las conclusiones se
canalizan en dos sentidos:
• La hipótesis nula se rechaza por haber encontrado diferencias estadísticas
significativas entre lasproporciones o medias contrastadas. Entonces la hipótesis
alternativa resultara más verosímil.
• La hipótesis nula no se rechaza por no haber encontrado diferencias
estadísticamente significativas. Esto no equivale a demostrar que sea verdadera.
15. 4.3.-La estimación de parámetros
Principio de comparabilidad
En los estudios analíticos, además del principio de representatividad, debe cumplirse el de comparabilidad de los grupos. Estos
estudios se basan en que los grupos son comparables por todos los factores pronósticos y en que se ha obtenido la información de la
misma forma en todos ellos, de manera que las diferencias en los resultados observa dos puedan atribuirse al factor que se está
estudiando.
La comparación paramétrica
Las pruebas paramétricas son un tipo de pruebas de significación estadística que cuantifican la asociación o independencia entre
variables entre dos o más grupos
En muchos casos se necesita comparar los parámetros de dos o más grupos ye s necesario aplicar este tipo de pruebas comparativas.
Comprobación de condiciones paramétricas
Para comprobar si podemos aplicar las pruebas paramétricas, primero tendremos que comprobar si la distribución de los grupos en la
variable cuantitativa es normal.
Además, también tendremos que comprobar la homogeneidad de las varianzas en las poblaciones de las que proceden los grupos. Por
último, la cantidad de sujetos, llamada n en estadística, tendrá que ser suficientemente numerosa (más de 30) , favoreciendo los
resultados del contraste de hipótesis el hecho de que los grupos estén equilibrados..
En el caso de que estos requisitos no se cumplan, recurriremos a las pruebas no paramétricas. Si se cumplen, entonces podremos
utilizar las pruebas paramétricas,
Las pruebas de comparación que se aplicarán dependerán también de si se está evaluando variables cualitativas o cuantitativas: en
primer caso se utilizará la comparación de proporciones y en el segundo caso la comparación de medias.
16. 5.- METODOS DE COMPARACION DE PROPORCIONES
Se aplicará a la comparación de variables cualitativas, y serán
diferentes en función de si se tienen que aplicar funciones
paramétricas o no paramétricas
Cuando se comparan grupos de sujetos con respecto a una
variable categórica, los resultados se presentan mediante
tablas de frecuencias de doble entrada, conocidas con el
nombre de Tablas de contingencia. El método estadístico a
utilizar dependerá del número de proporciones a comparar, es
decir, del número de categorías de la variable que se quiere
comparar.
17. Métodos adecuados en el caso de dos proporciones independientes
Prueba Z
Esta prueba se basa en la aproximación normal de la distribución binomial. Se emplea cuando se
pretende comparar dos proporciones, p1 y p2, observadas en dos grupos distintos de tamaños n1 y
n2, respectivamente. Esta prueba es utilizable cuando los tamaños muestrales n1 y n2 son grandes,
para poder aplicar el Teorema Central del Límite.
p1-p2 = intervalo de confianza
EDD = Error estandar de la diferencia de proporciones
18. Prueba de la Ji-Cuadrado
La prueba de la Ji-Cuadrado es una de las pruebas más frecuentemente utilizadas para el contraste
de variables cualitativas, aplicándose para comparar si dos características cualitativas están
relacionadas entre sí, si varias muestras de carácter cualitativo proceden de igual población o si los
datos observados siguen una determinada distribución teórica.
Para su cálculo se calculan las frecuencias esperadas (las que deberían haberse observado si la
hipótesis de independencia fuese cierta), para compararlas con las observadas en la realidad
19. Test Exacto de Fisher
El test exacto de Fisher permite analizar la asociación entre dos variables
dicotómicas cuando no se cumplen las condiciones necesarias para la
aplicación del test de la Ji-cuadrado. Como ya mencionamos
anteriormente, para aplicar la prueba de la Ji-cuadrado se exige que el
80% de las celdas presenten frecuencias esperadas superiores a 5. Así, en
las tablas 2x2 es necesario que se verifique en todas sus celdas, aunque
en la práctica se permite que una de ellas se muestre ligeramente por
debajo. El test de Fisher se aplica también cuando alguno de los valores
esperados es inferior a 2.
Esta prueba se basa en el cálculo de la probabilidad exacta de las
frecuencias observadas.
20. Métodos adecuados en el caso de dos proporciones apareadas o dependientes
Test de McNemar
Este test se utiliza cuando se trata de comparar dos proporciones observadas en el
mismo grupo de individuos en dos ocasiones distintas de tiempo (antes y después
de algún estímulo). Se pretende comparar si se produce algún cambio significativo
entre ambas mediciones.
Métodos adecuados en el caso de dos múltiples proporciones dependientes
Q de Crochan
Se utiliza para comparar tres o más proporciones relacionadas entre sí.
Métodos estadísticos de comparación de medias.
21. 6.- MÉTODOS ESTADÍSTICOS DE COMPARACIÓN DE MEDIAS
Cuando se desea comprobar si los valores de una característica
que es posible cuantificar (como podría ser la edad o la altura
entre otras) difieren al agruparlas en dos o más grupos se utiliza
la comparación de medias.
La comparación de medias, abarca la comparación de los
valores de una variable continua según los valores de una
variable (o factor) que se puede resumir en dos o más
categorías. Las variables estudiadas pueden ser independientes
o guardar alguna relación de apareamiento . Esto determinara
que se utilicen unos métodos u otros.
22. 6.1.-Comparación de medias: pruebas para datos independientes
Si los datos que deseamos analizar cumplen los supuestos necesarios establecidos para poder
aplicar pruebas paramétricas, la prueba t de Student para datos independientes o el análisis de la
varianza (ANOVA)
Prueba paramétrica para datos independientes en la comparación de dos grupos
Como sabemos, en toda prueba existe una hipótesis nula que es normalmente la igualdad de
medias, frente a la hipótesis alternativa, que engloba la existencia de un rasgo diferencial entre las
medias, es decir, no son iguales. En la prueba t de Student, el estadístico de contraste utilizado
para probar la hipótesis nula planteada (las medias de los dos grupos son iguales) se construye en
función de las diferencias registradas entre los valores de la variable de estudio evaluada en cada
uno de los grupos a comparar. Para ello se utiliza la información proceden te de las medias y
desviaciones estándar (medidas resumen) de cada uno de los grupos de estudio. Este tipo de
prueba es conveniente cuando deseamos comparar las medias entre más de dos grupos
23. Prueba paramétrica para datos independientes en la comparación de más de dos grupos
Por su parte, en el ANOVA, básicamente se considera que la variable analiza da depende de un sólo factor.
Para aplicar el ANOVA debemos asumir lo siguiente: 1) las observaciones proceden de poblaciones
normales, 2) las muestras (los grupos a comparar) son aleatorias e independientes, 3) dentro de cada
muestra (grupo) las observaciones son independientes y finalmente, 4) homocedasticidad (igualdad de
varianzas) de las observaciones
24. Pruebas no paramétricas de comparación de medias con
datos independientes
Las pruebas no paramétricas se basan mayoritariamente en la
ordenación de las observaciones registradas en la muestra.
Para poder cuantificar dicha ordenación se identifican los
valores reales registrados en la variable de interés con unos
valores llamados rangos. El valor del rango que se asigna a
cada una de las observaciones de la muestra es un número
natural que oscila entre 1 y n, donde n es el tamaño de la
muestra, y que identifica el tipo de ordenación realizada por la
prueba en cuestión. La manera en que se asignan los rangos
(se realiza la ordenación) dependerá de la hipótesis planteada
y por tanto de la prueba no paramétrica que sea necesario
25. Pruebas no paramétricas en la comparación de medias para datos
independientes de dos grupos
La prueba U de Mann-Whitney
La mecánica de funcionamiento de la prueba U de Mann-Whitney consiste,
a grandes rasgos, en calcular un estadístico que se distribuye según una
normal de media 0 y desviación 1. Para calcular dicho estadístico se
compara cada una de las observaciones de uno de los grupos a comparar
con todas las observaciones del otro grupo, asignando un valor de 1 en
caso de que la observación del primer grupo sea superior a la observación
del segundo grupo, un valor de 0.5 en caso de empate o un valor de 0 en
otro caso. Tras la comparación de todas las observaciones se suman los
valores obtenidos y se calcula dicho estadístico para poder probar la
hipótesis planteada.
26. Pruebas no paramétricas en la comparación de medias para datos
independientes de más de dos grupos
La prueba de Kruskall-Wallis
La mecánica de realización de la prueba de Kruskall-Wallis consiste en
ordenar todas las observaciones (independientemente del grupo al que
pertenezcan) de mayor a menor y asignar los rangos consecutivamente.
Posteriormente, se suman los rangos asignados a cada observación
agrupándolos para cada uno de los grupos de estudio y se comparan las
sumas obtenidas en cada uno de los grupos mediante un estadístico de
contraste (fórmula no mostrada), evaluando su valor respecto a la ley de
distribución de la Ji cuadrado con k – 1 grados de libertad, donde k
indica el número de grupos que se están comparando.
27. 6.2.- Comparación de medias: pruebas para datos apareados
Pruebas paramétricas para datos apareados en la comparación de dos grupos
La t de Student para datos apareados
La base de las pruebas para la comparación de medias apareadas consiste en analizar las diferencias entre las
observaciones de un mismo individuo. Suponiendo que la variable aleatoria que define la diferencia entre dos
observaciones registradas en un mismo individuo (modelo antes-después) fuera una variable aleatoria que se
distribuyera normalmente, y queremos contrastar la hipótesis de que se produjo un efecto entre ambas observaciones
(cambio). En el caso de resultar cierta, el estadístico de contraste que utilizaríamos se distribuiría según la ley de
probabilidad de la t de Student, por lo que la prueba que resultaría más adecuada sería la prueba paramétrica de la t
de Student para datos apareados.
Pruebas no paramétricas para datos apareados en la comparación de dos grupos
Prueba de Wilcoxon
La prueba de contraste de hipótesis análoga, en su versión no paramétrica es la prueba de los rangos con signo de
Wilcoxon. Básicamente, la prueba consiste en ordenar las diferencias de menor a mayor y obtener sus rangos
respectivos. A continuación se suman los rangos correspondientes a las diferencias negativas y a las diferencias
positivas, es decir cuando la primera observación es mayor que la segunda, y a la inversa, cuando la segunda
observación es mayor a la primera
28. 7.- CONCEPTO DE REGRESION LINEAL
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la
relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un
término aleatorio ε. Este modelo puede ser expresado como:
Y t = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p + ε
donde:
Y t: variable dependiente, explicada o regresando.
X 1 , X 2 , ⋯ , X p : variables explicativas, independientes o regresores.
Β 0 , β 1 , β 2 , ⋯ , β p: parámetros, miden la influencia que las variables explicativas tienen sobre el
regrediendo.
donde β 0: es la intersección o término "constante", las β i (i > 0) son los parámetros respectivos a
cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en
la regresión.
29. El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explícitas X k , (k = 1,...K), o cualquier transformación
de éstas que generen un hiperplano de parámetros β k desconocidos:
(2) Y = ∑ β k X k + ε
donde ε es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que
por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una
sola variable explícita, el hiperplano es una recta:
(3) Y = β 1 + β 2 X 2 + ε
El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos β k, de modo
que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una
observación i-ésima (i= 1,... I) cualquiera, se registra el comportamiento simultáneo de la variable dependiente y las
variables explícitas (las perturbaciones aleatorias se suponen no observables).
(4) Y i = ∑ β k X k i + ε i
Los valores escogidos como estimadores de los parámetros β k son los coeficientes de regresión sin que se pueda
garantizar que coincidan con parámetros reales del proceso generador. Por tanto, en
(5) Y i = ∑ β k ^ X k i + ε i
Los valores ε i son por su parte estimaciones o errores de la perturbación aleatoria.
30. El modelo de regresión lineal
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los
siguientes supuestos:
Que la relación entre los parámetros sea lineal
Que los errores en la medición de las variables sean independientes entre sí.
Que los errores tengan varianza constante. (Homocedasticidad)
Que los errores tengan una esperanza matemática igual a cero
Que el error total sea la suma de todos los errores.
31. Tipos de modelos de regresión lineal
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
Regresión lineal simple
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:
(6) Y i = β 0 + β 1 X i + ε i
donde ε i es el error asociado a la medición del valor X i X_i y siguen los supuestos de modo que ε i ∼ N ( 0 , σ 2 ) (media cero,
varianza constante e igual a un σ sigma y ε i ⊥ ε j con i ≠ j
Dado el modelo de regresión simple anterior, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:
(7) E ( y i ) = y i ^ = E ( β 0 ) + E ( β 1 x i ) + E ( ε i )
Derivando respecto a β ^ 0 y β ^ 1 e igualando a cero, se obtiene:
(9) ∂ ∑ ( y i − y i ^ ) 2 ∂ β ^ 0 = 0
(10) ∂ ∑ ( y i − y i ^ ) 2 ∂ β ^ 1 = 0
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:
(11) β 1 ^ = ∑ x ∑ y − n ∑ x y ( ∑ x ) 2 − n ∑ x 2 = ∑ ( x − x ¯ ) ( y − y ¯ ) ∑ ( x − x ¯ ) 2
(12) β 0 ^ = ∑ y − β ^ 1 ∑ x n = y ¯ − β 1 ^ x ¯
La interpretación del parámetro medio β 1 es que un incremento en Xi de una unidad, Yi incrementará en β 1
32. Regresión lineal múltiple
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la
relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple.
Aplicaciones de la regresión lineal
Economía: Líneas de tendencia
Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de
líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PIB, el precio del petróleo o el valor de las
acciones) han aumentado o decrementado en un determinado período.
Medicina
Las primeras evidencias relacionando la mortalidad con el fumar tabaco vinieron de estudios que utilizaban la regresión
lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar
factores que pudieran producir correlaciones espurias.
Informática
Se crean rutinas que utilizan una recta de regresión lineal para proyectar un valor futuro
Psicología
Correlacion de items de los tests con comprtamientos
33. 8.-CONCEPTO DE INTERVALO DE CONFIANZA
Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o
varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada
probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro
inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el
parámetro poblacional.
Intervalo de confianza = media +- margen de error
Conocer el verdadero poblacional, por lo general, suele ser algo muy complicado. Pensemos en una población de 4
millones de personas. ¿Podríamos saber el gasto medio en consumo por hogar de esa población? En principio sí.
Simplemente tendríamos que hacer una encuesta entre todos los hogares y calcular la media. Sin embargo, seguir
ese proceso sería tremendamente laborioso y complicaría bastante el estudio.
Ante situaciones así, se hace más factible seleccionar una muestra estadística. Por ejemplo, 500 personas. Y sobre
dicha muestra, calcular la media. Aunque seguiríamos sin saber el verdadero valor poblacional, podríamos suponer
que este se va a situar cerca del valor muestral. A esa media le sumamos el margen de error y tenemos un valor del
intervalo de confianza. Por otro lado, le restamos a la media ese margen de error y tendremos otro valor. Entre esos
dos valores estará la media poblacional.
En conclusión, el intervalo de confianza no sirve para dar una estimación puntual del parámetro poblacional, si nos va
a servir para hacernos una idea aproximada de cuál podría ser el verdadero de este. Nos permite acotar entre dos
valores en dónde se encontrará la media de la población.