SlideShare una empresa de Scribd logo
1 de 33
1.- ESTADÍSTICA APLICADA A LA INVESTIGACIÓN CIENTÍFICO-TÉCNICA.
La estadística es una rama de la matemáticas que aplica el cálculo de probabilidad, con la
finalidad de obtener conclusiones de la investigación empírica mediante el uso de modelos
matemáticos.
La estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos
reales. Un modelo matemático es una abstracción simplificada de una realidad más compleja y
siempre existirá cierta discrepancia entre lo observado y lo previsto por el modelo. La estadística
proporciona una metodología para evaluar y juzgar estas discrepancias entre la realidad y la
teoría.
Además de su papel instrumental, el estudio de la Estadística es importante para entender las
posibilidades y limitaciones de la experimentación, para diferenciar las conclusiones que pueden
obtenerse de los datos de las que carecen de base empírica.
Problemas científicos que resuelve la estadística.
• Descripción de datos. Es el primer problema que, históricamente resuelve la Estadística. Ante la recogida
de un gran número de observaciones, se trata de encontrar procedimientos para resumir la información
contenida en los datos.
• Análisis de muestras. Es frecuente que, por razones técnicas o económicas, no sea posible estudiar todos
los elementos de una población. Por ejemplo, si para determinar la resistencia de un elemento es
necesario una prueba destructiva, tendremos que tomar una muestra para no destruir la partida entera.
Por tanto, la Estadística se utiliza para elegir una muestra representativa y para hacer inferencias respecto
a la población a partir de lo observado en la muestra.
• Contraste de hipótesis. Un objetivo frecuente en la investigación empírica es contrastar una hipótesis. El
contraste de hipótesis requiere el diseño de un experimento que garantice que las conclusiones que se
extraigan de la experimentación no estén invalidadas por factores no controlados.
• Medición de relaciones. Las relaciones que observamos entre variables físicas, sociales o técnicas son,
prácticamente siempre, estadísticas.
• Predicción. Muchas variables económicas y físicas tienen cierta inercia en su evolución y aunque sus
valores futuros son desconocidos, el estudio de su evolución pasada es informativo para prever su
evolución futura."
El método estadístico
El inicio de una investigación Estadística suele ser un interrogante cuya respuesta se desconoce. La investigación se desarrolla utilizando
el ciclo deductivo-inductivo en las etapas siguientes:
a) Planteamiento del problema. El primer paso de la investigación es definir los objetivos del estudio y relacionar este objetivo con los
valores numéricos de variables observadas.
b) Construcción del modelo estadístico. El tipo de modelo estadístico más frecuente consiste en una descomposición de los valores de la
variable de interés como una suma de una parte sistemática y una parte aleatoria. La variable (y) se relaciona con otra variable (x)
c) Recogida de la información muestral. La recogida de la información puede realizarse de dos formas:
- Por muestreo: consiste en observar pasivamente una muestra de las variables y anotar sus valores.
- Por diseño de experimentos: consiste en fijar los valores de ciertas variables y observar la respuesta de otras.
d) Depuración de la muestra. Una regla empírica contrastada es esperar entre un 2 y un 5 % de observaciones con errores de medición,
transcripción, etc. Antes de utilizar los datos muestrales hay que aplicar técnicas estadísticas para identificar errores y valores anómalos.
e) Estimación de los parámetros. Los modelos estadísticos dependen de ciertas constantes desconocidas que llamaremos parámetros.
La fase de estimación consiste en utilizar la información disponible para decidir respecto a un valor concreto de estos parámetros así
como cuantificar el posible error en la estimación.
f) Contrastes de simplificación. El objetivo de esta fase es conseguir un modelo tan simple como sea posible, es decir, sin más
parámetros que los necesarios.
g) Crítica y diagnosis del modelo. Los resultados de las etapas e y f se obtienen suponiendo que el modelo es correcto. Esta fase
investiga la compatibilidad entre la información empírica y el modelo. De especial interés es comprobar que la parte aleatoria lo es
realmente, es decir, no contiene ninguna estructura sistemática. Si después de esta fase, aceptamos el modelo como correcto, lo
utilizaremos para tomar decisiones o realizar previsiones de la variable. En caso contrario volveremos a la fase b y reformularemos el
modelo, repitiendo el proceso hasta conseguir un modelo correcto.
2.- VARIABLES: CONCEPTO Y CLASIFICACIÓN.
Una variable es un símbolo dentro de un algoritmo que se utiliza para designar una cantidad susceptible de
tomar distintos valores numéricos dentro de un conjunto de números especificado
En cálculo, álgebra y geometría analítica, se hace la distinción entre variables independientes y variables
dependientes.
En una expresión matemática, por ejemplo una función y = f ( x ) y=f(x)} y=f(x) , el símbolo ""x"" representa a la
variable independiente, y el símbolo ""y"" representa a la variable dependiente.
Se define variable independiente como un símbolo ""x"" que toma diversos valores numéricos (argumentos),
dentro de un conjunto de números específicos y que modifica el resultado o valor de la variable dependiente. Las
variables dependientes son las que constituyen el objeto de investigación.
En una investigación científica, Las variables pueden ser cuantitativas, cuando se expresan en números, como por
ejemplo la longitud o el peso. Las variables cualitativas expresan cualidades, por ejemplo, designar con letras las
preferencias de los estudiantes por sus materias de estudio.
Tipos de variables
Los tipos de variables pueden ser
a) Variables cualitativas o atributos: no toman valores numéricos y describen cualidades.
b) Variables cuantitativas discretas: toman únicamente valores enteros, corresponden generalmente a contar el número de veces que ocurre un
suceso.
c) Variables cuantitativas continuas: toman valores en un intervalo, corresponden a medir magnitudes continuas (tiempo, longitud, etc.)."
La Representación de las variables.
La presentación de datos se realiza en tablas indicando sus frecuencias de aparición. los datos cualitativo se representan por atributos y se agrupan en
clases.
La tabla que recoge los valores observados con su frecuencias respectivas . Esta forma de representación se denomina distribución de frecuencias de la
variable. .Estos cuadros de frecuencia pueden tener dierente forma : tabla, diagrama de barras , histograma, etc . Esta representación describe los
valores posibles, y sus frecuencias relativas de aparición.
Las variables aleatorias y sus distribuciones.
En el cálculo de probabilidades utiliza variables numéricas que se denominan aleatorias porque sus valores vienen determinados por el azar. En todo
proceso de observación o experimento podemos definir una variable aleatoria asignando a cada resultado del experimento un número:
• Si el resultado del experimento es numérico porque contamos o medimos, los posibles valores de la variable coinciden con los resultados del
experimento.
• Si el resultado del experimento es cualitativo, hacemos corresponder a cada resultado un número arbitrariamente; por ejemplo, 0, si una pieza es
buena y, 1, si es defectuosa.
Diremos que se ha definido una variable aleatoria o que se ha construido un modelo de distribución de probabilidad, cuando se especifican los
posibles valores de la variable con sus probabilidades respectivas.
Variables aleatorias discretas.
Una variable aleatoria es discreta cuando toma un número de valores finito, o infinito numerable. Estas
variables corresponden a experimentos en los que se cuenta el número de veces que ha ocurrido un
suceso.
Un modelo de distribución de probabilidad es la representación idealizada de un experimento aleatorio y
se construye indicando los valores posibles de la variable aleatoria asociada al experimento y sus
probabilidades respectivas. La forma más general de caracterizar estos modelos es mediante la función de
distribución, F(x), definida en cada punto x0, como la probabilidad de que la variable aleatoria x tome un
valor menor o igual que x0
Escribiremos
F(x 0) = P(x = x0).
La función de distribución se define para todo punto del eje real, es siempre no decreciente y por convenio
F(-8) = 0 y F(+8) = 1.
Las distribuciones de las variables
Según el tipo de variable a estudiar, se utilizan cuatro principales tipos
de distribuciones de las que nacen todas las demás, son:
a) Si la variable es una variable discreta (valores enteros),
corresponderá una distribución discreta
 Distribución binomial (eventos independientes).
 Distribución de Poisson (eventos independientes).
 Distribución hipergeométrica (eventos dependientes).
b) Si la variable es continua, esto significa que puede tomar cualquier
valor dentro de un intervalo, la distribución que se generará será una
distribución continua, también llamada distribución normal o
gaussiana.
3.- MEDIDAS DE FRECUENCIA, DE TENDENCIA CENTRAL, DISPERSIÓN Y POSICIÓN.
En estadística habría cuatro tipos de frecuencias: absoluta, relativa, absoluta acumulada y relativa acumulada.
3.1.- Medidas de frecuencia
Frecuencia absoluta
Se llama frecuencia, o frecuencia absoluta al número de individuos que presentan cierto valor de una variable
determinada. Es decir la suma de los sucesos.
Frecuencia relativa
Representa la cantidad de veces que se repite una observación, expresada como proporción de la muestra. Es decir,
es el resultado de dividir el valor de la frecuencia absoluta por el tamaño de la muestra estadística.
Esta se representa como f = n/N, siendo n el número de veces que se repite la respuesta y N el tamaño de la
muestra. Su valor se expresa como porcentaje.
Frecuencia absoluta acumulada
La frecuencia acumulada es aquella que se obtiene al sumar todas las frecuencias absolutas inferiores o iguales al
valor en cuestión. Se representa con Ni .
Frecuencia relativa acumulada
En esta se tiene en cuenta la sumatoria de todas las frecuencias relativas inferiores o iguales al valor en cuestión. Se
representa con Fi o Hi
3.2.-Las medidas de posición
Las medidas de posición son valores de la variable que informan del lugar que ocupa un dato dentro del
conjunto ordenado de valores.,
Para calcular las medidas de posición la variable debe ser cuantitativa y considerarse las frecuencias
acumuladas. Si la variable es continua, se toma como valor la marca de clase.
A un valor de posición se le llama cuantil .
El percentil
Las valores de posición más utilizados en una distribución son los percentiles. Un percentil es un cuantil
porcentual, que indica el valor de la variable por debajo del cual se encuentra un porcentaje de
observaciones. Por ejemplo, el percentil 20.º es el valor bajo el cual se encuentran el 20 por ciento de las
observaciones.
Los percentiles más utilizados son los deciles, los cuartiles y la mediana . Los cuartiles tienen especial
relevancia; dividen cuatro partes la distribución y se denominan : Q1 , Q2 y Q3. Estos cuartiles se
corresponden con los percentiles P25; P50 y P 75, respectivamente. Al Percentil 50 (P50) también se le
conoce como la mediana y además de ser una medida de posición es una medida de tendencia central.
3.3.-Medidas de tendencia central.
Una medida de tendencia central o medida de centralización es un número situado hacia el centro de la distribución de los
valores de una serie de observaciones (medidas), en la que se encuentra ubicado el conjunto de los datos.
Las medidas de tendencia central más utilizadas son: media aritmética , mediana moda, media geométrica y la media
ponderada
La media aritmética, también llamada promedio. Es, dentro de un conjunto finito de números es el valor característico de
una serie de datos cuantitativos y se considera de la esperanza matemática o valor esperado. La media aritmética se obtiene
a partir de la suma de todos sus valores dividida entre el número de sumandos
La mediana
la mediana representa el valor de la variable de posición central en un conjunto de datos ordenados. Equivale al percentil
50
La moda
la moda es el valor con mayor frecuencia en una de las distribuciones de datos.
La media ponderada
Es una medida de tendencia central que ese usa cuando en un conjunto de datos cada uno de ellos tiene una importancia
diferente respecto de los demás datos. Se obtiene multiplicando cada uno de los datos por su ponderación (peso) para
luego sumarlos, obteniendo así una suma ponderada para después dividirlo entre la suma de los pesos.
La media geométrica
la media geométrica de un conjunto de números ( n) es la raíz n-ésima del producto de todos los números. Es recomendada
3.4.- Medidas de dispersión
las medidas de dispersión (también llamadas variabilidad,) representan el grado en que una distribución se estira o se
concentra. Una medida de dispersión estadística es un número real no negativo que se hace cero si todos los datos son
iguales (máxima concentración) y aumenta a medida que los datos se vuelven más diversos.
Las medidas de dispersión estadística más comunes son la varianza, la desviación estándar y el rango intercuartil.
La varianza
La varianza de una variable aleatoria es una medida de dispersión que se define (sigma^2), como el cuadrado de la
desviación de dicha variable respecto a su media. (X-x)2.
La desviación estandar
La desviación estándar o desviación típica (que se suele representar por letra griega minúscula sigma o las siglas SD) es
una medida que se utiliza para cuantificar la variación o la dispersión de un conjunto de datos numéricos
Una desviación estándar baja indica que la mayor parte de los datos de una muestra tienden a estar agrupados cerca de
su media, mientras que una desviación estándar alta indica que los datos se extienden sobre un rango de valores más
amplio
Rango intercuartílico
El rango intercuartílico es una medida de variabilidad adecuada cuando la medida de posición central empleada ha sido
la mediana. Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3 - Q1. A la
mitad del rango intercuartil se le conoce como desviación cuartil (DQ), es afectada muy poco por cuentas extremas. Esto
lo hace una buena medida de dispersión para distribuciones sesgadas: DQ = RQ/2= (Q3 - Q1)/2
4.- ESTIMACIÓN DE PARÁMETROS, ESTADÍSTICA INFERENCIAL Y
CONTRASTE DE HIPÓTESIS
4.1.-Estadística inferencial
A diferencia de la estadística descriptiva, que es la rama de la
estadística que se encarga de recoger y representar los datos, la
estadística inferencial es la rama que se ocupa de hacer
deducciones, inferir propiedades, conclusiones y tendencias, a
partir de una muestra del conjunto. Su papel es interpretar,
hacer proyecciones, predicciones y comparaciones.
4.2.-Contrastes de Hipótesis
En muchos estudios científicos se precisa contrastar unos datos observados con unos valores
esperados (teóricos), es decir, ver si una hipótesis puede ser o no aceptada.
Al iniciar una investigación científica se plantean dos hipótesis que son mutuamente
excluyentes:
• La hipótesis nula (H 0 ). Si H 0 , es la hipótesis que se contrasta, el nombre de nula proviene
de que H 0 representa la hipótesis que mantendremos a no ser que los datos indiquen su
falsedad, y debe entenderse, por tanto, en el sentido de neutra. La hipótesis H 0 nunca se
considera probada,aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que
todos los elementos de las poblaciones A y B son idénticos, puede ser rechazada encontrando
elementos A y B distintos, pero no puede ser demostrada más que estudiando todos los
elementos de ambas poblaciones,
tarea que puede ser imposible. La hipótesis nula mantiene que no existen diferencias entre los
valores observados y los teóricos o esperados.
• La hipótesis alternativa (H 1 ). Mantiene que si existen diferencias entre los valores
observados y losteóricos o esperados.
Ambas hipótesis, nula y alternativa, deben ser planteadas de forma simultánea. Las
pruebas de significación o de contraste nos permiten valorar la verosimilitud de una
hipótesis respecto a los datos empíricos y poder tomar la decisión de mantener o
rechazar la hipótesis formulada.
Para probar nuestras hipótesis se realizan pruebas estadísticas. Las conclusiones se
canalizan en dos sentidos:
• La hipótesis nula se rechaza por haber encontrado diferencias estadísticas
significativas entre lasproporciones o medias contrastadas. Entonces la hipótesis
alternativa resultara más verosímil.
• La hipótesis nula no se rechaza por no haber encontrado diferencias
estadísticamente significativas. Esto no equivale a demostrar que sea verdadera.
4.3.-La estimación de parámetros
Principio de comparabilidad
En los estudios analíticos, además del principio de representatividad, debe cumplirse el de comparabilidad de los grupos. Estos
estudios se basan en que los grupos son comparables por todos los factores pronósticos y en que se ha obtenido la información de la
misma forma en todos ellos, de manera que las diferencias en los resultados observa dos puedan atribuirse al factor que se está
estudiando.
La comparación paramétrica
Las pruebas paramétricas son un tipo de pruebas de significación estadística que cuantifican la asociación o independencia entre
variables entre dos o más grupos
En muchos casos se necesita comparar los parámetros de dos o más grupos ye s necesario aplicar este tipo de pruebas comparativas.
Comprobación de condiciones paramétricas
Para comprobar si podemos aplicar las pruebas paramétricas, primero tendremos que comprobar si la distribución de los grupos en la
variable cuantitativa es normal.
Además, también tendremos que comprobar la homogeneidad de las varianzas en las poblaciones de las que proceden los grupos. Por
último, la cantidad de sujetos, llamada n en estadística, tendrá que ser suficientemente numerosa (más de 30) , favoreciendo los
resultados del contraste de hipótesis el hecho de que los grupos estén equilibrados..
En el caso de que estos requisitos no se cumplan, recurriremos a las pruebas no paramétricas. Si se cumplen, entonces podremos
utilizar las pruebas paramétricas,
Las pruebas de comparación que se aplicarán dependerán también de si se está evaluando variables cualitativas o cuantitativas: en
primer caso se utilizará la comparación de proporciones y en el segundo caso la comparación de medias.
5.- METODOS DE COMPARACION DE PROPORCIONES
Se aplicará a la comparación de variables cualitativas, y serán
diferentes en función de si se tienen que aplicar funciones
paramétricas o no paramétricas
Cuando se comparan grupos de sujetos con respecto a una
variable categórica, los resultados se presentan mediante
tablas de frecuencias de doble entrada, conocidas con el
nombre de Tablas de contingencia. El método estadístico a
utilizar dependerá del número de proporciones a comparar, es
decir, del número de categorías de la variable que se quiere
comparar.
Métodos adecuados en el caso de dos proporciones independientes
Prueba Z
Esta prueba se basa en la aproximación normal de la distribución binomial. Se emplea cuando se
pretende comparar dos proporciones, p1 y p2, observadas en dos grupos distintos de tamaños n1 y
n2, respectivamente. Esta prueba es utilizable cuando los tamaños muestrales n1 y n2 son grandes,
para poder aplicar el Teorema Central del Límite.
p1-p2 = intervalo de confianza
EDD = Error estandar de la diferencia de proporciones
Prueba de la Ji-Cuadrado
La prueba de la Ji-Cuadrado es una de las pruebas más frecuentemente utilizadas para el contraste
de variables cualitativas, aplicándose para comparar si dos características cualitativas están
relacionadas entre sí, si varias muestras de carácter cualitativo proceden de igual población o si los
datos observados siguen una determinada distribución teórica.
Para su cálculo se calculan las frecuencias esperadas (las que deberían haberse observado si la
hipótesis de independencia fuese cierta), para compararlas con las observadas en la realidad
Test Exacto de Fisher
El test exacto de Fisher permite analizar la asociación entre dos variables
dicotómicas cuando no se cumplen las condiciones necesarias para la
aplicación del test de la Ji-cuadrado. Como ya mencionamos
anteriormente, para aplicar la prueba de la Ji-cuadrado se exige que el
80% de las celdas presenten frecuencias esperadas superiores a 5. Así, en
las tablas 2x2 es necesario que se verifique en todas sus celdas, aunque
en la práctica se permite que una de ellas se muestre ligeramente por
debajo. El test de Fisher se aplica también cuando alguno de los valores
esperados es inferior a 2.
Esta prueba se basa en el cálculo de la probabilidad exacta de las
frecuencias observadas.
Métodos adecuados en el caso de dos proporciones apareadas o dependientes
Test de McNemar
Este test se utiliza cuando se trata de comparar dos proporciones observadas en el
mismo grupo de individuos en dos ocasiones distintas de tiempo (antes y después
de algún estímulo). Se pretende comparar si se produce algún cambio significativo
entre ambas mediciones.
Métodos adecuados en el caso de dos múltiples proporciones dependientes
Q de Crochan
Se utiliza para comparar tres o más proporciones relacionadas entre sí.
Métodos estadísticos de comparación de medias.
6.- MÉTODOS ESTADÍSTICOS DE COMPARACIÓN DE MEDIAS
Cuando se desea comprobar si los valores de una característica
que es posible cuantificar (como podría ser la edad o la altura
entre otras) difieren al agruparlas en dos o más grupos se utiliza
la comparación de medias.
La comparación de medias, abarca la comparación de los
valores de una variable continua según los valores de una
variable (o factor) que se puede resumir en dos o más
categorías. Las variables estudiadas pueden ser independientes
o guardar alguna relación de apareamiento . Esto determinara
que se utilicen unos métodos u otros.
6.1.-Comparación de medias: pruebas para datos independientes
Si los datos que deseamos analizar cumplen los supuestos necesarios establecidos para poder
aplicar pruebas paramétricas, la prueba t de Student para datos independientes o el análisis de la
varianza (ANOVA)
Prueba paramétrica para datos independientes en la comparación de dos grupos
Como sabemos, en toda prueba existe una hipótesis nula que es normalmente la igualdad de
medias, frente a la hipótesis alternativa, que engloba la existencia de un rasgo diferencial entre las
medias, es decir, no son iguales. En la prueba t de Student, el estadístico de contraste utilizado
para probar la hipótesis nula planteada (las medias de los dos grupos son iguales) se construye en
función de las diferencias registradas entre los valores de la variable de estudio evaluada en cada
uno de los grupos a comparar. Para ello se utiliza la información proceden te de las medias y
desviaciones estándar (medidas resumen) de cada uno de los grupos de estudio. Este tipo de
prueba es conveniente cuando deseamos comparar las medias entre más de dos grupos
Prueba paramétrica para datos independientes en la comparación de más de dos grupos
Por su parte, en el ANOVA, básicamente se considera que la variable analiza da depende de un sólo factor.
Para aplicar el ANOVA debemos asumir lo siguiente: 1) las observaciones proceden de poblaciones
normales, 2) las muestras (los grupos a comparar) son aleatorias e independientes, 3) dentro de cada
muestra (grupo) las observaciones son independientes y finalmente, 4) homocedasticidad (igualdad de
varianzas) de las observaciones
Pruebas no paramétricas de comparación de medias con
datos independientes
Las pruebas no paramétricas se basan mayoritariamente en la
ordenación de las observaciones registradas en la muestra.
Para poder cuantificar dicha ordenación se identifican los
valores reales registrados en la variable de interés con unos
valores llamados rangos. El valor del rango que se asigna a
cada una de las observaciones de la muestra es un número
natural que oscila entre 1 y n, donde n es el tamaño de la
muestra, y que identifica el tipo de ordenación realizada por la
prueba en cuestión. La manera en que se asignan los rangos
(se realiza la ordenación) dependerá de la hipótesis planteada
y por tanto de la prueba no paramétrica que sea necesario
Pruebas no paramétricas en la comparación de medias para datos
independientes de dos grupos
La prueba U de Mann-Whitney
La mecánica de funcionamiento de la prueba U de Mann-Whitney consiste,
a grandes rasgos, en calcular un estadístico que se distribuye según una
normal de media 0 y desviación 1. Para calcular dicho estadístico se
compara cada una de las observaciones de uno de los grupos a comparar
con todas las observaciones del otro grupo, asignando un valor de 1 en
caso de que la observación del primer grupo sea superior a la observación
del segundo grupo, un valor de 0.5 en caso de empate o un valor de 0 en
otro caso. Tras la comparación de todas las observaciones se suman los
valores obtenidos y se calcula dicho estadístico para poder probar la
hipótesis planteada.
Pruebas no paramétricas en la comparación de medias para datos
independientes de más de dos grupos
La prueba de Kruskall-Wallis
La mecánica de realización de la prueba de Kruskall-Wallis consiste en
ordenar todas las observaciones (independientemente del grupo al que
pertenezcan) de mayor a menor y asignar los rangos consecutivamente.
Posteriormente, se suman los rangos asignados a cada observación
agrupándolos para cada uno de los grupos de estudio y se comparan las
sumas obtenidas en cada uno de los grupos mediante un estadístico de
contraste (fórmula no mostrada), evaluando su valor respecto a la ley de
distribución de la Ji cuadrado con k – 1 grados de libertad, donde k
indica el número de grupos que se están comparando.
6.2.- Comparación de medias: pruebas para datos apareados
Pruebas paramétricas para datos apareados en la comparación de dos grupos
La t de Student para datos apareados
La base de las pruebas para la comparación de medias apareadas consiste en analizar las diferencias entre las
observaciones de un mismo individuo. Suponiendo que la variable aleatoria que define la diferencia entre dos
observaciones registradas en un mismo individuo (modelo antes-después) fuera una variable aleatoria que se
distribuyera normalmente, y queremos contrastar la hipótesis de que se produjo un efecto entre ambas observaciones
(cambio). En el caso de resultar cierta, el estadístico de contraste que utilizaríamos se distribuiría según la ley de
probabilidad de la t de Student, por lo que la prueba que resultaría más adecuada sería la prueba paramétrica de la t
de Student para datos apareados.
Pruebas no paramétricas para datos apareados en la comparación de dos grupos
Prueba de Wilcoxon
La prueba de contraste de hipótesis análoga, en su versión no paramétrica es la prueba de los rangos con signo de
Wilcoxon. Básicamente, la prueba consiste en ordenar las diferencias de menor a mayor y obtener sus rangos
respectivos. A continuación se suman los rangos correspondientes a las diferencias negativas y a las diferencias
positivas, es decir cuando la primera observación es mayor que la segunda, y a la inversa, cuando la segunda
observación es mayor a la primera
7.- CONCEPTO DE REGRESION LINEAL
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la
relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un
término aleatorio ε. Este modelo puede ser expresado como:
Y t = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p + ε
donde:
Y t: variable dependiente, explicada o regresando.
X 1 , X 2 , ⋯ , X p : variables explicativas, independientes o regresores.
Β 0 , β 1 , β 2 , ⋯ , β p: parámetros, miden la influencia que las variables explicativas tienen sobre el
regrediendo.
donde β 0: es la intersección o término "constante", las β i (i > 0) son los parámetros respectivos a
cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en
la regresión.
El modelo de regresión lineal
El modelo lineal relaciona la variable dependiente Y con K variables explícitas X k , (k = 1,...K), o cualquier transformación
de éstas que generen un hiperplano de parámetros β k desconocidos:
(2) Y = ∑ β k X k + ε
donde ε es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que
por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una
sola variable explícita, el hiperplano es una recta:
(3) Y = β 1 + β 2 X 2 + ε
El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos β k, de modo
que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una
observación i-ésima (i= 1,... I) cualquiera, se registra el comportamiento simultáneo de la variable dependiente y las
variables explícitas (las perturbaciones aleatorias se suponen no observables).
(4) Y i = ∑ β k X k i + ε i
Los valores escogidos como estimadores de los parámetros β k son los coeficientes de regresión sin que se pueda
garantizar que coincidan con parámetros reales del proceso generador. Por tanto, en
(5) Y i = ∑ β k ^ X k i + ε i
Los valores ε i son por su parte estimaciones o errores de la perturbación aleatoria.
El modelo de regresión lineal
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los
siguientes supuestos:
 Que la relación entre los parámetros sea lineal
 Que los errores en la medición de las variables sean independientes entre sí.
 Que los errores tengan varianza constante. (Homocedasticidad)
 Que los errores tengan una esperanza matemática igual a cero
 Que el error total sea la suma de todos los errores.
Tipos de modelos de regresión lineal
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
Regresión lineal simple
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:
(6) Y i = β 0 + β 1 X i + ε i
donde ε i es el error asociado a la medición del valor X i X_i y siguen los supuestos de modo que ε i ∼ N ( 0 , σ 2 ) (media cero,
varianza constante e igual a un σ sigma y ε i ⊥ ε j con i ≠ j
Dado el modelo de regresión simple anterior, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:
(7) E ( y i ) = y i ^ = E ( β 0 ) + E ( β 1 x i ) + E ( ε i )
Derivando respecto a β ^ 0 y β ^ 1 e igualando a cero, se obtiene:
(9) ∂ ∑ ( y i − y i ^ ) 2 ∂ β ^ 0 = 0
(10) ∂ ∑ ( y i − y i ^ ) 2 ∂ β ^ 1 = 0
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:
(11) β 1 ^ = ∑ x ∑ y − n ∑ x y ( ∑ x ) 2 − n ∑ x 2 = ∑ ( x − x ¯ ) ( y − y ¯ ) ∑ ( x − x ¯ ) 2
(12) β 0 ^ = ∑ y − β ^ 1 ∑ x n = y ¯ − β 1 ^ x ¯
La interpretación del parámetro medio β 1 es que un incremento en Xi de una unidad, Yi incrementará en β 1
Regresión lineal múltiple
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la
relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple.
Aplicaciones de la regresión lineal
Economía: Líneas de tendencia
Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de
líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PIB, el precio del petróleo o el valor de las
acciones) han aumentado o decrementado en un determinado período.
Medicina
Las primeras evidencias relacionando la mortalidad con el fumar tabaco​ vinieron de estudios que utilizaban la regresión
lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar
factores que pudieran producir correlaciones espurias.
Informática
Se crean rutinas que utilizan una recta de regresión lineal para proyectar un valor futuro
Psicología
Correlacion de items de los tests con comprtamientos
8.-CONCEPTO DE INTERVALO DE CONFIANZA
Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o
varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada
probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro
inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el
parámetro poblacional.
Intervalo de confianza = media +- margen de error
Conocer el verdadero poblacional, por lo general, suele ser algo muy complicado. Pensemos en una población de 4
millones de personas. ¿Podríamos saber el gasto medio en consumo por hogar de esa población? En principio sí.
Simplemente tendríamos que hacer una encuesta entre todos los hogares y calcular la media. Sin embargo, seguir
ese proceso sería tremendamente laborioso y complicaría bastante el estudio.
Ante situaciones así, se hace más factible seleccionar una muestra estadística. Por ejemplo, 500 personas. Y sobre
dicha muestra, calcular la media. Aunque seguiríamos sin saber el verdadero valor poblacional, podríamos suponer
que este se va a situar cerca del valor muestral. A esa media le sumamos el margen de error y tenemos un valor del
intervalo de confianza. Por otro lado, le restamos a la media ese margen de error y tendremos otro valor. Entre esos
dos valores estará la media poblacional.
En conclusión, el intervalo de confianza no sirve para dar una estimación puntual del parámetro poblacional, si nos va
a servir para hacernos una idea aproximada de cuál podría ser el verdadero de este. Nos permite acotar entre dos
valores en dónde se encontrará la media de la población.

Más contenido relacionado

La actualidad más candente

Prueba de Hipótesis y Relaciones Estadisticas
Prueba de Hipótesis y Relaciones EstadisticasPrueba de Hipótesis y Relaciones Estadisticas
Prueba de Hipótesis y Relaciones EstadisticasJuan Timana
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superiorEscuela Militar de Ingeniería (EMI)
 
Guía de interpretación de resultados en el contraste de hipótesis estadísticas
Guía de interpretación de resultados en el contraste de hipótesis estadísticasGuía de interpretación de resultados en el contraste de hipótesis estadísticas
Guía de interpretación de resultados en el contraste de hipótesis estadísticasEnrique Navarro
 
Qué es variable nominal
Qué es variable nominalQué es variable nominal
Qué es variable nominaleckguero
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte Ijpgv84
 
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)María Isabel Bautista
 
Resumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garciaResumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garciaFELIX Castro Garcia
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte Ijpgv84
 
Estadistica 10 crreccion
Estadistica 10 crreccionEstadistica 10 crreccion
Estadistica 10 crreccionCarlos Cáceres
 
SPSS Función Analizar
SPSS Función AnalizarSPSS Función Analizar
SPSS Función AnalizarLupita Naranjo
 

La actualidad más candente (20)

Prueba de Hipótesis y Relaciones Estadisticas
Prueba de Hipótesis y Relaciones EstadisticasPrueba de Hipótesis y Relaciones Estadisticas
Prueba de Hipótesis y Relaciones Estadisticas
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superior
 
Análisis anova
Análisis anovaAnálisis anova
Análisis anova
 
Teoría de los Tests
Teoría de los TestsTeoría de los Tests
Teoría de los Tests
 
Guía de interpretación de resultados en el contraste de hipótesis estadísticas
Guía de interpretación de resultados en el contraste de hipótesis estadísticasGuía de interpretación de resultados en el contraste de hipótesis estadísticas
Guía de interpretación de resultados en el contraste de hipótesis estadísticas
 
T de student
T de studentT de student
T de student
 
Tamaño de muestra revisado
Tamaño de muestra revisadoTamaño de muestra revisado
Tamaño de muestra revisado
 
Qué es variable nominal
Qué es variable nominalQué es variable nominal
Qué es variable nominal
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I
 
T student 1
T student 1T student 1
T student 1
 
Estadística II (I Bimestre)
Estadística II (I Bimestre)Estadística II (I Bimestre)
Estadística II (I Bimestre)
 
Trabajo de spss
Trabajo de spssTrabajo de spss
Trabajo de spss
 
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
 
Resumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garciaResumen de unidad v de felix castro garcia
Resumen de unidad v de felix castro garcia
 
Analisis de factores ppt
Analisis de factores ppt Analisis de factores ppt
Analisis de factores ppt
 
T tests & SPSS
T tests & SPSST tests & SPSS
T tests & SPSS
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
Estadistica 10 crreccion
Estadistica 10 crreccionEstadistica 10 crreccion
Estadistica 10 crreccion
 
SPSS Función Analizar
SPSS Función AnalizarSPSS Función Analizar
SPSS Función Analizar
 

Similar a Estadistica prueba slideshare

Similar a Estadistica prueba slideshare (20)

estadistica no parametrica
estadistica no parametricaestadistica no parametrica
estadistica no parametrica
 
Terminos basicos
Terminos basicosTerminos basicos
Terminos basicos
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Tarea estadistica
Tarea estadisticaTarea estadistica
Tarea estadistica
 
estadistica inferencial
estadistica inferencialestadistica inferencial
estadistica inferencial
 
Conceptos básicos de estadística
Conceptos básicos de estadísticaConceptos básicos de estadística
Conceptos básicos de estadística
 
Probabilidad y estadística
Probabilidad y estadísticaProbabilidad y estadística
Probabilidad y estadística
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Inferencia estadistica
Inferencia estadisticaInferencia estadistica
Inferencia estadistica
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Analisis de encuestas
Analisis de encuestasAnalisis de encuestas
Analisis de encuestas
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
Clase 2 - Estadística.ppt
Clase 2 - Estadística.pptClase 2 - Estadística.ppt
Clase 2 - Estadística.ppt
 
Trabajo tecnologia
Trabajo tecnologiaTrabajo tecnologia
Trabajo tecnologia
 
Inferencial
InferencialInferencial
Inferencial
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datos
 
Variables
VariablesVariables
Variables
 

Último

Centro de masa, centro de gravedad y equilibrio.pptx
Centro de masa, centro de gravedad y equilibrio.pptxCentro de masa, centro de gravedad y equilibrio.pptx
Centro de masa, centro de gravedad y equilibrio.pptxErichManriqueCastill
 
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...frank0071
 
Sucesión de hongos en estiércol de vaca experimento
Sucesión de hongos en estiércol de vaca experimentoSucesión de hongos en estiércol de vaca experimento
Sucesión de hongos en estiércol de vaca experimentoFriasMartnezAlanZuri
 
López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...
López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...
López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...frank0071
 
Teoría de usos y gratificaciones 2024.pptx
Teoría de usos y gratificaciones 2024.pptxTeoría de usos y gratificaciones 2024.pptx
Teoría de usos y gratificaciones 2024.pptxlm24028
 
SEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdf
SEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdfSEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdf
SEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdfrvillegasp16001
 
Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.
Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.
Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.Ralvila5
 
LOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIA
LOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIALOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIA
LOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIALozadaAcuaMonserratt
 
EXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA EN EQUINOS.pptx
EXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA  EN EQUINOS.pptxEXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA  EN EQUINOS.pptx
EXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA EN EQUINOS.pptxJhonFonseca16
 
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdfLEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdfrvillegasp16001
 
enfermedades infecciosas diarrea viral bovina presentacion umss
enfermedades infecciosas diarrea viral bovina presentacion umssenfermedades infecciosas diarrea viral bovina presentacion umss
enfermedades infecciosas diarrea viral bovina presentacion umssCinthyaMercado3
 
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...GloriaMeza12
 
tecnica de necropsia en bovinos rum.pptx
tecnica de necropsia en bovinos rum.pptxtecnica de necropsia en bovinos rum.pptx
tecnica de necropsia en bovinos rum.pptxJESUSDANIELYONGOLIVE
 
Límites derivadas e integrales y análisis matemático.pptx
Límites derivadas e integrales y análisis matemático.pptxLímites derivadas e integrales y análisis matemático.pptx
Límites derivadas e integrales y análisis matemático.pptxErichManriqueCastill
 
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdfHolland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdffrank0071
 
Exploracion de la boca Propedéutica de la Clínica
Exploracion de la boca Propedéutica de la ClínicaExploracion de la boca Propedéutica de la Clínica
Exploracion de la boca Propedéutica de la Clínicacriscris80000
 
ESQUELETO HUMANO ARTICULADO PARA PRIMARIA
ESQUELETO HUMANO ARTICULADO PARA PRIMARIAESQUELETO HUMANO ARTICULADO PARA PRIMARIA
ESQUELETO HUMANO ARTICULADO PARA PRIMARIAjuliocesartolucarami
 
Informe Aemet Tornados Sabado Santo Marchena Paradas
Informe Aemet Tornados Sabado Santo Marchena ParadasInforme Aemet Tornados Sabado Santo Marchena Paradas
Informe Aemet Tornados Sabado Santo Marchena ParadasRevista Saber Mas
 
el lugar santo y santisimo final.pptx y sus partes
el lugar santo y santisimo final.pptx y sus partesel lugar santo y santisimo final.pptx y sus partes
el lugar santo y santisimo final.pptx y sus partesAsihleyyanguez
 
TERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERA
TERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERATERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERA
TERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERAdheznolbert
 

Último (20)

Centro de masa, centro de gravedad y equilibrio.pptx
Centro de masa, centro de gravedad y equilibrio.pptxCentro de masa, centro de gravedad y equilibrio.pptx
Centro de masa, centro de gravedad y equilibrio.pptx
 
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
Woods, Thomas E. - Cómo la Iglesia construyó la Civilización Occidental [ocr]...
 
Sucesión de hongos en estiércol de vaca experimento
Sucesión de hongos en estiércol de vaca experimentoSucesión de hongos en estiércol de vaca experimento
Sucesión de hongos en estiércol de vaca experimento
 
López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...
López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...
López, L. - Destierro y memoria. Trayectorias de familias judías piemontesas ...
 
Teoría de usos y gratificaciones 2024.pptx
Teoría de usos y gratificaciones 2024.pptxTeoría de usos y gratificaciones 2024.pptx
Teoría de usos y gratificaciones 2024.pptx
 
SEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdf
SEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdfSEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdf
SEMIOLOGIA RESPIRATORIA, CLINICA BASICA .pdf
 
Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.
Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.
Carbohidratos, lipidos, acidos nucleicos, y principios del metabolismo.
 
LOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIA
LOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIALOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIA
LOS DISTINTOS MUNICIPIO_SALUDABLE DE BOLIVIA
 
EXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA EN EQUINOS.pptx
EXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA  EN EQUINOS.pptxEXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA  EN EQUINOS.pptx
EXAMEN ANDROLOGICO O CAPACIDAD REPRODUCTIVA EN EQUINOS.pptx
 
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdfLEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
LEY FEDERAL DE TRABAJO IPN MEDICINA OCUPACIONAL.pdf
 
enfermedades infecciosas diarrea viral bovina presentacion umss
enfermedades infecciosas diarrea viral bovina presentacion umssenfermedades infecciosas diarrea viral bovina presentacion umss
enfermedades infecciosas diarrea viral bovina presentacion umss
 
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
Sistema Endocrino, rol de los receptores hormonales, hormonas circulantes y l...
 
tecnica de necropsia en bovinos rum.pptx
tecnica de necropsia en bovinos rum.pptxtecnica de necropsia en bovinos rum.pptx
tecnica de necropsia en bovinos rum.pptx
 
Límites derivadas e integrales y análisis matemático.pptx
Límites derivadas e integrales y análisis matemático.pptxLímites derivadas e integrales y análisis matemático.pptx
Límites derivadas e integrales y análisis matemático.pptx
 
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdfHolland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
Holland, Tom - Milenio. El fin del mundo y el origen del cristianismo [2010].pdf
 
Exploracion de la boca Propedéutica de la Clínica
Exploracion de la boca Propedéutica de la ClínicaExploracion de la boca Propedéutica de la Clínica
Exploracion de la boca Propedéutica de la Clínica
 
ESQUELETO HUMANO ARTICULADO PARA PRIMARIA
ESQUELETO HUMANO ARTICULADO PARA PRIMARIAESQUELETO HUMANO ARTICULADO PARA PRIMARIA
ESQUELETO HUMANO ARTICULADO PARA PRIMARIA
 
Informe Aemet Tornados Sabado Santo Marchena Paradas
Informe Aemet Tornados Sabado Santo Marchena ParadasInforme Aemet Tornados Sabado Santo Marchena Paradas
Informe Aemet Tornados Sabado Santo Marchena Paradas
 
el lugar santo y santisimo final.pptx y sus partes
el lugar santo y santisimo final.pptx y sus partesel lugar santo y santisimo final.pptx y sus partes
el lugar santo y santisimo final.pptx y sus partes
 
TERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERA
TERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERATERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERA
TERMODINAMICA UNIVERSIDAD NACIONAL DE INGENIERA
 

Estadistica prueba slideshare

  • 1. 1.- ESTADÍSTICA APLICADA A LA INVESTIGACIÓN CIENTÍFICO-TÉCNICA. La estadística es una rama de la matemáticas que aplica el cálculo de probabilidad, con la finalidad de obtener conclusiones de la investigación empírica mediante el uso de modelos matemáticos. La estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos reales. Un modelo matemático es una abstracción simplificada de una realidad más compleja y siempre existirá cierta discrepancia entre lo observado y lo previsto por el modelo. La estadística proporciona una metodología para evaluar y juzgar estas discrepancias entre la realidad y la teoría. Además de su papel instrumental, el estudio de la Estadística es importante para entender las posibilidades y limitaciones de la experimentación, para diferenciar las conclusiones que pueden obtenerse de los datos de las que carecen de base empírica.
  • 2. Problemas científicos que resuelve la estadística. • Descripción de datos. Es el primer problema que, históricamente resuelve la Estadística. Ante la recogida de un gran número de observaciones, se trata de encontrar procedimientos para resumir la información contenida en los datos. • Análisis de muestras. Es frecuente que, por razones técnicas o económicas, no sea posible estudiar todos los elementos de una población. Por ejemplo, si para determinar la resistencia de un elemento es necesario una prueba destructiva, tendremos que tomar una muestra para no destruir la partida entera. Por tanto, la Estadística se utiliza para elegir una muestra representativa y para hacer inferencias respecto a la población a partir de lo observado en la muestra. • Contraste de hipótesis. Un objetivo frecuente en la investigación empírica es contrastar una hipótesis. El contraste de hipótesis requiere el diseño de un experimento que garantice que las conclusiones que se extraigan de la experimentación no estén invalidadas por factores no controlados. • Medición de relaciones. Las relaciones que observamos entre variables físicas, sociales o técnicas son, prácticamente siempre, estadísticas. • Predicción. Muchas variables económicas y físicas tienen cierta inercia en su evolución y aunque sus valores futuros son desconocidos, el estudio de su evolución pasada es informativo para prever su evolución futura."
  • 3. El método estadístico El inicio de una investigación Estadística suele ser un interrogante cuya respuesta se desconoce. La investigación se desarrolla utilizando el ciclo deductivo-inductivo en las etapas siguientes: a) Planteamiento del problema. El primer paso de la investigación es definir los objetivos del estudio y relacionar este objetivo con los valores numéricos de variables observadas. b) Construcción del modelo estadístico. El tipo de modelo estadístico más frecuente consiste en una descomposición de los valores de la variable de interés como una suma de una parte sistemática y una parte aleatoria. La variable (y) se relaciona con otra variable (x) c) Recogida de la información muestral. La recogida de la información puede realizarse de dos formas: - Por muestreo: consiste en observar pasivamente una muestra de las variables y anotar sus valores. - Por diseño de experimentos: consiste en fijar los valores de ciertas variables y observar la respuesta de otras. d) Depuración de la muestra. Una regla empírica contrastada es esperar entre un 2 y un 5 % de observaciones con errores de medición, transcripción, etc. Antes de utilizar los datos muestrales hay que aplicar técnicas estadísticas para identificar errores y valores anómalos. e) Estimación de los parámetros. Los modelos estadísticos dependen de ciertas constantes desconocidas que llamaremos parámetros. La fase de estimación consiste en utilizar la información disponible para decidir respecto a un valor concreto de estos parámetros así como cuantificar el posible error en la estimación. f) Contrastes de simplificación. El objetivo de esta fase es conseguir un modelo tan simple como sea posible, es decir, sin más parámetros que los necesarios. g) Crítica y diagnosis del modelo. Los resultados de las etapas e y f se obtienen suponiendo que el modelo es correcto. Esta fase investiga la compatibilidad entre la información empírica y el modelo. De especial interés es comprobar que la parte aleatoria lo es realmente, es decir, no contiene ninguna estructura sistemática. Si después de esta fase, aceptamos el modelo como correcto, lo utilizaremos para tomar decisiones o realizar previsiones de la variable. En caso contrario volveremos a la fase b y reformularemos el modelo, repitiendo el proceso hasta conseguir un modelo correcto.
  • 4. 2.- VARIABLES: CONCEPTO Y CLASIFICACIÓN. Una variable es un símbolo dentro de un algoritmo que se utiliza para designar una cantidad susceptible de tomar distintos valores numéricos dentro de un conjunto de números especificado En cálculo, álgebra y geometría analítica, se hace la distinción entre variables independientes y variables dependientes. En una expresión matemática, por ejemplo una función y = f ( x ) y=f(x)} y=f(x) , el símbolo ""x"" representa a la variable independiente, y el símbolo ""y"" representa a la variable dependiente. Se define variable independiente como un símbolo ""x"" que toma diversos valores numéricos (argumentos), dentro de un conjunto de números específicos y que modifica el resultado o valor de la variable dependiente. Las variables dependientes son las que constituyen el objeto de investigación. En una investigación científica, Las variables pueden ser cuantitativas, cuando se expresan en números, como por ejemplo la longitud o el peso. Las variables cualitativas expresan cualidades, por ejemplo, designar con letras las preferencias de los estudiantes por sus materias de estudio.
  • 5. Tipos de variables Los tipos de variables pueden ser a) Variables cualitativas o atributos: no toman valores numéricos y describen cualidades. b) Variables cuantitativas discretas: toman únicamente valores enteros, corresponden generalmente a contar el número de veces que ocurre un suceso. c) Variables cuantitativas continuas: toman valores en un intervalo, corresponden a medir magnitudes continuas (tiempo, longitud, etc.)." La Representación de las variables. La presentación de datos se realiza en tablas indicando sus frecuencias de aparición. los datos cualitativo se representan por atributos y se agrupan en clases. La tabla que recoge los valores observados con su frecuencias respectivas . Esta forma de representación se denomina distribución de frecuencias de la variable. .Estos cuadros de frecuencia pueden tener dierente forma : tabla, diagrama de barras , histograma, etc . Esta representación describe los valores posibles, y sus frecuencias relativas de aparición. Las variables aleatorias y sus distribuciones. En el cálculo de probabilidades utiliza variables numéricas que se denominan aleatorias porque sus valores vienen determinados por el azar. En todo proceso de observación o experimento podemos definir una variable aleatoria asignando a cada resultado del experimento un número: • Si el resultado del experimento es numérico porque contamos o medimos, los posibles valores de la variable coinciden con los resultados del experimento. • Si el resultado del experimento es cualitativo, hacemos corresponder a cada resultado un número arbitrariamente; por ejemplo, 0, si una pieza es buena y, 1, si es defectuosa. Diremos que se ha definido una variable aleatoria o que se ha construido un modelo de distribución de probabilidad, cuando se especifican los posibles valores de la variable con sus probabilidades respectivas.
  • 6. Variables aleatorias discretas. Una variable aleatoria es discreta cuando toma un número de valores finito, o infinito numerable. Estas variables corresponden a experimentos en los que se cuenta el número de veces que ha ocurrido un suceso. Un modelo de distribución de probabilidad es la representación idealizada de un experimento aleatorio y se construye indicando los valores posibles de la variable aleatoria asociada al experimento y sus probabilidades respectivas. La forma más general de caracterizar estos modelos es mediante la función de distribución, F(x), definida en cada punto x0, como la probabilidad de que la variable aleatoria x tome un valor menor o igual que x0 Escribiremos F(x 0) = P(x = x0). La función de distribución se define para todo punto del eje real, es siempre no decreciente y por convenio F(-8) = 0 y F(+8) = 1.
  • 7. Las distribuciones de las variables Según el tipo de variable a estudiar, se utilizan cuatro principales tipos de distribuciones de las que nacen todas las demás, son: a) Si la variable es una variable discreta (valores enteros), corresponderá una distribución discreta  Distribución binomial (eventos independientes).  Distribución de Poisson (eventos independientes).  Distribución hipergeométrica (eventos dependientes). b) Si la variable es continua, esto significa que puede tomar cualquier valor dentro de un intervalo, la distribución que se generará será una distribución continua, también llamada distribución normal o gaussiana.
  • 8. 3.- MEDIDAS DE FRECUENCIA, DE TENDENCIA CENTRAL, DISPERSIÓN Y POSICIÓN. En estadística habría cuatro tipos de frecuencias: absoluta, relativa, absoluta acumulada y relativa acumulada. 3.1.- Medidas de frecuencia Frecuencia absoluta Se llama frecuencia, o frecuencia absoluta al número de individuos que presentan cierto valor de una variable determinada. Es decir la suma de los sucesos. Frecuencia relativa Representa la cantidad de veces que se repite una observación, expresada como proporción de la muestra. Es decir, es el resultado de dividir el valor de la frecuencia absoluta por el tamaño de la muestra estadística. Esta se representa como f = n/N, siendo n el número de veces que se repite la respuesta y N el tamaño de la muestra. Su valor se expresa como porcentaje. Frecuencia absoluta acumulada La frecuencia acumulada es aquella que se obtiene al sumar todas las frecuencias absolutas inferiores o iguales al valor en cuestión. Se representa con Ni . Frecuencia relativa acumulada En esta se tiene en cuenta la sumatoria de todas las frecuencias relativas inferiores o iguales al valor en cuestión. Se representa con Fi o Hi
  • 9. 3.2.-Las medidas de posición Las medidas de posición son valores de la variable que informan del lugar que ocupa un dato dentro del conjunto ordenado de valores., Para calcular las medidas de posición la variable debe ser cuantitativa y considerarse las frecuencias acumuladas. Si la variable es continua, se toma como valor la marca de clase. A un valor de posición se le llama cuantil . El percentil Las valores de posición más utilizados en una distribución son los percentiles. Un percentil es un cuantil porcentual, que indica el valor de la variable por debajo del cual se encuentra un porcentaje de observaciones. Por ejemplo, el percentil 20.º es el valor bajo el cual se encuentran el 20 por ciento de las observaciones. Los percentiles más utilizados son los deciles, los cuartiles y la mediana . Los cuartiles tienen especial relevancia; dividen cuatro partes la distribución y se denominan : Q1 , Q2 y Q3. Estos cuartiles se corresponden con los percentiles P25; P50 y P 75, respectivamente. Al Percentil 50 (P50) también se le conoce como la mediana y además de ser una medida de posición es una medida de tendencia central.
  • 10. 3.3.-Medidas de tendencia central. Una medida de tendencia central o medida de centralización es un número situado hacia el centro de la distribución de los valores de una serie de observaciones (medidas), en la que se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media aritmética , mediana moda, media geométrica y la media ponderada La media aritmética, también llamada promedio. Es, dentro de un conjunto finito de números es el valor característico de una serie de datos cuantitativos y se considera de la esperanza matemática o valor esperado. La media aritmética se obtiene a partir de la suma de todos sus valores dividida entre el número de sumandos La mediana la mediana representa el valor de la variable de posición central en un conjunto de datos ordenados. Equivale al percentil 50 La moda la moda es el valor con mayor frecuencia en una de las distribuciones de datos. La media ponderada Es una medida de tendencia central que ese usa cuando en un conjunto de datos cada uno de ellos tiene una importancia diferente respecto de los demás datos. Se obtiene multiplicando cada uno de los datos por su ponderación (peso) para luego sumarlos, obteniendo así una suma ponderada para después dividirlo entre la suma de los pesos. La media geométrica la media geométrica de un conjunto de números ( n) es la raíz n-ésima del producto de todos los números. Es recomendada
  • 11. 3.4.- Medidas de dispersión las medidas de dispersión (también llamadas variabilidad,) representan el grado en que una distribución se estira o se concentra. Una medida de dispersión estadística es un número real no negativo que se hace cero si todos los datos son iguales (máxima concentración) y aumenta a medida que los datos se vuelven más diversos. Las medidas de dispersión estadística más comunes son la varianza, la desviación estándar y el rango intercuartil. La varianza La varianza de una variable aleatoria es una medida de dispersión que se define (sigma^2), como el cuadrado de la desviación de dicha variable respecto a su media. (X-x)2. La desviación estandar La desviación estándar o desviación típica (que se suele representar por letra griega minúscula sigma o las siglas SD) es una medida que se utiliza para cuantificar la variación o la dispersión de un conjunto de datos numéricos Una desviación estándar baja indica que la mayor parte de los datos de una muestra tienden a estar agrupados cerca de su media, mientras que una desviación estándar alta indica que los datos se extienden sobre un rango de valores más amplio Rango intercuartílico El rango intercuartílico es una medida de variabilidad adecuada cuando la medida de posición central empleada ha sido la mediana. Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3 - Q1. A la mitad del rango intercuartil se le conoce como desviación cuartil (DQ), es afectada muy poco por cuentas extremas. Esto lo hace una buena medida de dispersión para distribuciones sesgadas: DQ = RQ/2= (Q3 - Q1)/2
  • 12. 4.- ESTIMACIÓN DE PARÁMETROS, ESTADÍSTICA INFERENCIAL Y CONTRASTE DE HIPÓTESIS 4.1.-Estadística inferencial A diferencia de la estadística descriptiva, que es la rama de la estadística que se encarga de recoger y representar los datos, la estadística inferencial es la rama que se ocupa de hacer deducciones, inferir propiedades, conclusiones y tendencias, a partir de una muestra del conjunto. Su papel es interpretar, hacer proyecciones, predicciones y comparaciones.
  • 13. 4.2.-Contrastes de Hipótesis En muchos estudios científicos se precisa contrastar unos datos observados con unos valores esperados (teóricos), es decir, ver si una hipótesis puede ser o no aceptada. Al iniciar una investigación científica se plantean dos hipótesis que son mutuamente excluyentes: • La hipótesis nula (H 0 ). Si H 0 , es la hipótesis que se contrasta, el nombre de nula proviene de que H 0 representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y debe entenderse, por tanto, en el sentido de neutra. La hipótesis H 0 nunca se considera probada,aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que todos los elementos de las poblaciones A y B son idénticos, puede ser rechazada encontrando elementos A y B distintos, pero no puede ser demostrada más que estudiando todos los elementos de ambas poblaciones, tarea que puede ser imposible. La hipótesis nula mantiene que no existen diferencias entre los valores observados y los teóricos o esperados.
  • 14. • La hipótesis alternativa (H 1 ). Mantiene que si existen diferencias entre los valores observados y losteóricos o esperados. Ambas hipótesis, nula y alternativa, deben ser planteadas de forma simultánea. Las pruebas de significación o de contraste nos permiten valorar la verosimilitud de una hipótesis respecto a los datos empíricos y poder tomar la decisión de mantener o rechazar la hipótesis formulada. Para probar nuestras hipótesis se realizan pruebas estadísticas. Las conclusiones se canalizan en dos sentidos: • La hipótesis nula se rechaza por haber encontrado diferencias estadísticas significativas entre lasproporciones o medias contrastadas. Entonces la hipótesis alternativa resultara más verosímil. • La hipótesis nula no se rechaza por no haber encontrado diferencias estadísticamente significativas. Esto no equivale a demostrar que sea verdadera.
  • 15. 4.3.-La estimación de parámetros Principio de comparabilidad En los estudios analíticos, además del principio de representatividad, debe cumplirse el de comparabilidad de los grupos. Estos estudios se basan en que los grupos son comparables por todos los factores pronósticos y en que se ha obtenido la información de la misma forma en todos ellos, de manera que las diferencias en los resultados observa dos puedan atribuirse al factor que se está estudiando. La comparación paramétrica Las pruebas paramétricas son un tipo de pruebas de significación estadística que cuantifican la asociación o independencia entre variables entre dos o más grupos En muchos casos se necesita comparar los parámetros de dos o más grupos ye s necesario aplicar este tipo de pruebas comparativas. Comprobación de condiciones paramétricas Para comprobar si podemos aplicar las pruebas paramétricas, primero tendremos que comprobar si la distribución de los grupos en la variable cuantitativa es normal. Además, también tendremos que comprobar la homogeneidad de las varianzas en las poblaciones de las que proceden los grupos. Por último, la cantidad de sujetos, llamada n en estadística, tendrá que ser suficientemente numerosa (más de 30) , favoreciendo los resultados del contraste de hipótesis el hecho de que los grupos estén equilibrados.. En el caso de que estos requisitos no se cumplan, recurriremos a las pruebas no paramétricas. Si se cumplen, entonces podremos utilizar las pruebas paramétricas, Las pruebas de comparación que se aplicarán dependerán también de si se está evaluando variables cualitativas o cuantitativas: en primer caso se utilizará la comparación de proporciones y en el segundo caso la comparación de medias.
  • 16. 5.- METODOS DE COMPARACION DE PROPORCIONES Se aplicará a la comparación de variables cualitativas, y serán diferentes en función de si se tienen que aplicar funciones paramétricas o no paramétricas Cuando se comparan grupos de sujetos con respecto a una variable categórica, los resultados se presentan mediante tablas de frecuencias de doble entrada, conocidas con el nombre de Tablas de contingencia. El método estadístico a utilizar dependerá del número de proporciones a comparar, es decir, del número de categorías de la variable que se quiere comparar.
  • 17. Métodos adecuados en el caso de dos proporciones independientes Prueba Z Esta prueba se basa en la aproximación normal de la distribución binomial. Se emplea cuando se pretende comparar dos proporciones, p1 y p2, observadas en dos grupos distintos de tamaños n1 y n2, respectivamente. Esta prueba es utilizable cuando los tamaños muestrales n1 y n2 son grandes, para poder aplicar el Teorema Central del Límite. p1-p2 = intervalo de confianza EDD = Error estandar de la diferencia de proporciones
  • 18. Prueba de la Ji-Cuadrado La prueba de la Ji-Cuadrado es una de las pruebas más frecuentemente utilizadas para el contraste de variables cualitativas, aplicándose para comparar si dos características cualitativas están relacionadas entre sí, si varias muestras de carácter cualitativo proceden de igual población o si los datos observados siguen una determinada distribución teórica. Para su cálculo se calculan las frecuencias esperadas (las que deberían haberse observado si la hipótesis de independencia fuese cierta), para compararlas con las observadas en la realidad
  • 19. Test Exacto de Fisher El test exacto de Fisher permite analizar la asociación entre dos variables dicotómicas cuando no se cumplen las condiciones necesarias para la aplicación del test de la Ji-cuadrado. Como ya mencionamos anteriormente, para aplicar la prueba de la Ji-cuadrado se exige que el 80% de las celdas presenten frecuencias esperadas superiores a 5. Así, en las tablas 2x2 es necesario que se verifique en todas sus celdas, aunque en la práctica se permite que una de ellas se muestre ligeramente por debajo. El test de Fisher se aplica también cuando alguno de los valores esperados es inferior a 2. Esta prueba se basa en el cálculo de la probabilidad exacta de las frecuencias observadas.
  • 20. Métodos adecuados en el caso de dos proporciones apareadas o dependientes Test de McNemar Este test se utiliza cuando se trata de comparar dos proporciones observadas en el mismo grupo de individuos en dos ocasiones distintas de tiempo (antes y después de algún estímulo). Se pretende comparar si se produce algún cambio significativo entre ambas mediciones. Métodos adecuados en el caso de dos múltiples proporciones dependientes Q de Crochan Se utiliza para comparar tres o más proporciones relacionadas entre sí. Métodos estadísticos de comparación de medias.
  • 21. 6.- MÉTODOS ESTADÍSTICOS DE COMPARACIÓN DE MEDIAS Cuando se desea comprobar si los valores de una característica que es posible cuantificar (como podría ser la edad o la altura entre otras) difieren al agruparlas en dos o más grupos se utiliza la comparación de medias. La comparación de medias, abarca la comparación de los valores de una variable continua según los valores de una variable (o factor) que se puede resumir en dos o más categorías. Las variables estudiadas pueden ser independientes o guardar alguna relación de apareamiento . Esto determinara que se utilicen unos métodos u otros.
  • 22. 6.1.-Comparación de medias: pruebas para datos independientes Si los datos que deseamos analizar cumplen los supuestos necesarios establecidos para poder aplicar pruebas paramétricas, la prueba t de Student para datos independientes o el análisis de la varianza (ANOVA) Prueba paramétrica para datos independientes en la comparación de dos grupos Como sabemos, en toda prueba existe una hipótesis nula que es normalmente la igualdad de medias, frente a la hipótesis alternativa, que engloba la existencia de un rasgo diferencial entre las medias, es decir, no son iguales. En la prueba t de Student, el estadístico de contraste utilizado para probar la hipótesis nula planteada (las medias de los dos grupos son iguales) se construye en función de las diferencias registradas entre los valores de la variable de estudio evaluada en cada uno de los grupos a comparar. Para ello se utiliza la información proceden te de las medias y desviaciones estándar (medidas resumen) de cada uno de los grupos de estudio. Este tipo de prueba es conveniente cuando deseamos comparar las medias entre más de dos grupos
  • 23. Prueba paramétrica para datos independientes en la comparación de más de dos grupos Por su parte, en el ANOVA, básicamente se considera que la variable analiza da depende de un sólo factor. Para aplicar el ANOVA debemos asumir lo siguiente: 1) las observaciones proceden de poblaciones normales, 2) las muestras (los grupos a comparar) son aleatorias e independientes, 3) dentro de cada muestra (grupo) las observaciones son independientes y finalmente, 4) homocedasticidad (igualdad de varianzas) de las observaciones
  • 24. Pruebas no paramétricas de comparación de medias con datos independientes Las pruebas no paramétricas se basan mayoritariamente en la ordenación de las observaciones registradas en la muestra. Para poder cuantificar dicha ordenación se identifican los valores reales registrados en la variable de interés con unos valores llamados rangos. El valor del rango que se asigna a cada una de las observaciones de la muestra es un número natural que oscila entre 1 y n, donde n es el tamaño de la muestra, y que identifica el tipo de ordenación realizada por la prueba en cuestión. La manera en que se asignan los rangos (se realiza la ordenación) dependerá de la hipótesis planteada y por tanto de la prueba no paramétrica que sea necesario
  • 25. Pruebas no paramétricas en la comparación de medias para datos independientes de dos grupos La prueba U de Mann-Whitney La mecánica de funcionamiento de la prueba U de Mann-Whitney consiste, a grandes rasgos, en calcular un estadístico que se distribuye según una normal de media 0 y desviación 1. Para calcular dicho estadístico se compara cada una de las observaciones de uno de los grupos a comparar con todas las observaciones del otro grupo, asignando un valor de 1 en caso de que la observación del primer grupo sea superior a la observación del segundo grupo, un valor de 0.5 en caso de empate o un valor de 0 en otro caso. Tras la comparación de todas las observaciones se suman los valores obtenidos y se calcula dicho estadístico para poder probar la hipótesis planteada.
  • 26. Pruebas no paramétricas en la comparación de medias para datos independientes de más de dos grupos La prueba de Kruskall-Wallis La mecánica de realización de la prueba de Kruskall-Wallis consiste en ordenar todas las observaciones (independientemente del grupo al que pertenezcan) de mayor a menor y asignar los rangos consecutivamente. Posteriormente, se suman los rangos asignados a cada observación agrupándolos para cada uno de los grupos de estudio y se comparan las sumas obtenidas en cada uno de los grupos mediante un estadístico de contraste (fórmula no mostrada), evaluando su valor respecto a la ley de distribución de la Ji cuadrado con k – 1 grados de libertad, donde k indica el número de grupos que se están comparando.
  • 27. 6.2.- Comparación de medias: pruebas para datos apareados Pruebas paramétricas para datos apareados en la comparación de dos grupos La t de Student para datos apareados La base de las pruebas para la comparación de medias apareadas consiste en analizar las diferencias entre las observaciones de un mismo individuo. Suponiendo que la variable aleatoria que define la diferencia entre dos observaciones registradas en un mismo individuo (modelo antes-después) fuera una variable aleatoria que se distribuyera normalmente, y queremos contrastar la hipótesis de que se produjo un efecto entre ambas observaciones (cambio). En el caso de resultar cierta, el estadístico de contraste que utilizaríamos se distribuiría según la ley de probabilidad de la t de Student, por lo que la prueba que resultaría más adecuada sería la prueba paramétrica de la t de Student para datos apareados. Pruebas no paramétricas para datos apareados en la comparación de dos grupos Prueba de Wilcoxon La prueba de contraste de hipótesis análoga, en su versión no paramétrica es la prueba de los rangos con signo de Wilcoxon. Básicamente, la prueba consiste en ordenar las diferencias de menor a mayor y obtener sus rangos respectivos. A continuación se suman los rangos correspondientes a las diferencias negativas y a las diferencias positivas, es decir cuando la primera observación es mayor que la segunda, y a la inversa, cuando la segunda observación es mayor a la primera
  • 28. 7.- CONCEPTO DE REGRESION LINEAL En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como: Y t = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p + ε donde: Y t: variable dependiente, explicada o regresando. X 1 , X 2 , ⋯ , X p : variables explicativas, independientes o regresores. Β 0 , β 1 , β 2 , ⋯ , β p: parámetros, miden la influencia que las variables explicativas tienen sobre el regrediendo. donde β 0: es la intersección o término "constante", las β i (i > 0) son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión.
  • 29. El modelo de regresión lineal El modelo lineal relaciona la variable dependiente Y con K variables explícitas X k , (k = 1,...K), o cualquier transformación de éstas que generen un hiperplano de parámetros β k desconocidos: (2) Y = ∑ β k X k + ε donde ε es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explícita, el hiperplano es una recta: (3) Y = β 1 + β 2 X 2 + ε El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos β k, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación i-ésima (i= 1,... I) cualquiera, se registra el comportamiento simultáneo de la variable dependiente y las variables explícitas (las perturbaciones aleatorias se suponen no observables). (4) Y i = ∑ β k X k i + ε i Los valores escogidos como estimadores de los parámetros β k son los coeficientes de regresión sin que se pueda garantizar que coincidan con parámetros reales del proceso generador. Por tanto, en (5) Y i = ∑ β k ^ X k i + ε i Los valores ε i son por su parte estimaciones o errores de la perturbación aleatoria.
  • 30. El modelo de regresión lineal Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes supuestos:  Que la relación entre los parámetros sea lineal  Que los errores en la medición de las variables sean independientes entre sí.  Que los errores tengan varianza constante. (Homocedasticidad)  Que los errores tengan una esperanza matemática igual a cero  Que el error total sea la suma de todos los errores.
  • 31. Tipos de modelos de regresión lineal Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros: Regresión lineal simple Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma: (6) Y i = β 0 + β 1 X i + ε i donde ε i es el error asociado a la medición del valor X i X_i y siguen los supuestos de modo que ε i ∼ N ( 0 , σ 2 ) (media cero, varianza constante e igual a un σ sigma y ε i ⊥ ε j con i ≠ j Dado el modelo de regresión simple anterior, si se calcula la esperanza (valor esperado) del valor Y, se obtiene: (7) E ( y i ) = y i ^ = E ( β 0 ) + E ( β 1 x i ) + E ( ε i ) Derivando respecto a β ^ 0 y β ^ 1 e igualando a cero, se obtiene: (9) ∂ ∑ ( y i − y i ^ ) 2 ∂ β ^ 0 = 0 (10) ∂ ∑ ( y i − y i ^ ) 2 ∂ β ^ 1 = 0 Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros: (11) β 1 ^ = ∑ x ∑ y − n ∑ x y ( ∑ x ) 2 − n ∑ x 2 = ∑ ( x − x ¯ ) ( y − y ¯ ) ∑ ( x − x ¯ ) 2 (12) β 0 ^ = ∑ y − β ^ 1 ∑ x n = y ¯ − β 1 ^ x ¯ La interpretación del parámetro medio β 1 es que un incremento en Xi de una unidad, Yi incrementará en β 1
  • 32. Regresión lineal múltiple La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple. Aplicaciones de la regresión lineal Economía: Líneas de tendencia Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PIB, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período. Medicina Las primeras evidencias relacionando la mortalidad con el fumar tabaco​ vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. Informática Se crean rutinas que utilizan una recta de regresión lineal para proyectar un valor futuro Psicología Correlacion de items de los tests con comprtamientos
  • 33. 8.-CONCEPTO DE INTERVALO DE CONFIANZA Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad). Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional. Intervalo de confianza = media +- margen de error Conocer el verdadero poblacional, por lo general, suele ser algo muy complicado. Pensemos en una población de 4 millones de personas. ¿Podríamos saber el gasto medio en consumo por hogar de esa población? En principio sí. Simplemente tendríamos que hacer una encuesta entre todos los hogares y calcular la media. Sin embargo, seguir ese proceso sería tremendamente laborioso y complicaría bastante el estudio. Ante situaciones así, se hace más factible seleccionar una muestra estadística. Por ejemplo, 500 personas. Y sobre dicha muestra, calcular la media. Aunque seguiríamos sin saber el verdadero valor poblacional, podríamos suponer que este se va a situar cerca del valor muestral. A esa media le sumamos el margen de error y tenemos un valor del intervalo de confianza. Por otro lado, le restamos a la media ese margen de error y tendremos otro valor. Entre esos dos valores estará la media poblacional. En conclusión, el intervalo de confianza no sirve para dar una estimación puntual del parámetro poblacional, si nos va a servir para hacernos una idea aproximada de cuál podría ser el verdadero de este. Nos permite acotar entre dos valores en dónde se encontrará la media de la población.