SlideShare una empresa de Scribd logo
1 de 67
ANOVA formal: Descomposición de datos, medición de variabilidad, prueba de hipótesis y estimación de diferencias reales Joane M. De Jesus Datiz Estadísticas Avanzadas 25 de marzo de 2010
Descomposición de datos
Meta de la descomposición La meta es dividir cada valor observado en una suma de piezas, una para cada factor. Ejemplo: Descomposición de la primera observación.
La estimación en la descomposición esta basada en el promedio La estimación se computa de las observaciones. Comenzamos con un conjunto completo de promedios. Un conjunto para cada valor, excepto para el error residual.
Ejemplo:
De promedios a efectos estimados Los estimados pueden ser razonables por sentido común. Existe una forma sistemática de hacer estimados. Esta se basa en una regla que se explicará mas adelante.
“Benchmark” La palabra “benchmark” es un anglicismo que se puede traducir como: Comparativa Cota o punto de referencia Se pretende estimar de la pieza común de todas las observaciones. En el experimento es 60.
Duración del día El promedio de los ocho días largos en el experimento es 57. Esto es 3 menos que el “benchmark” estimado. El efecto estimado para los días largos es: long-day average – grand average. 57- 60= -3
Órganos  El efecto estimado para los órganos (corazón y cerebro) se calcula de la misma forma que para la duración del día. Efecto estimado = average – grand average. El promedio de las medidas de los ocho cerebros es 103.5 y el de los corazones es 16.5 El promedio del corazón es 43.5 menos que el promedio principal. El promedio del cerebro es 43.5 mas que el promedio principal.
Hámster  Utilizamos los efectos del hamster para saber las diferencias entre ellos individualmente. El sentido común nos dice que como el hamster #4 tuvo días largos, por lo tanto debemos compararlo con los hamsters que tuvieron días largos. El efecto estimado para el hámster #4 es: 	 49 – 57 = -8, donde 49 es su promedio individual y 57 es el promedio de todos los hamsters que tuvieron días largos.
Interacción  Este es uno de los puntos que se toman en consideración para descomponer datos, sin embargo por el momento no se harán alusiones al mismo, ya que estas son mas complicadas que los puntos antes mencionados.
Error residual Para estimar el error residual, se suman todos los efectos estimados para obtener el valor ajustado. Esto es un estimado de lo que el valor observado seria sin su error residual. Por lo tanto obtenemos, Obs = Fit + Res o  	Res = Obs - Fit 17-12=5
Calculando el cuadrado del promedio para medir su variabilidad
Comparando los cuadrados del promedio Cada tabla en una descomposición, excepto la del promedio principal, demuestran variabilidad. La variabilidad se debe a una mezcla de variabilidades que se relacionan con el factor en cuestión mas otra variabilidad que ANOVA asume por casualidad o azar.
La meta es decidir que cantidad de la variabilidad en cada tabla esta asociada a ese factor y que cantidad se relaciona al azar. Consideremos que el efecto de interacción para el hamster es ±6.5. La variabilidad en la tabla de descomposición es al menos 13 veces tan grande como la variabilidad del promedio en la tabla de los residuos. Por esto se concluye que los efectos de interacción son reales.
La comparación comienza calculando la sumatoria de números, lo cual se llama promedio al cuadrado, para cada tabla. Este sirve como la medida de la variabilidad del promedio de la tabla. Los pasos para calcularlo son los siguientes: SS= sum of squares Se cuadran todos los números en la tabla y se suman. Este total es la medida de la variabilidad total de la tabla. Df= degrees in freedom Cuenta el numero de unidades de información sobre el error residual contenidos en la tabla.
MS= mean square Es la división entre SS y df. Este numero mide el promedio de variacion por unidad de información. En forma de ecuación:
Suma de los cuadrados = medida de la variabilidad total Se tiene que calcular un numero para cada factor que indique que cantidad de la variación esta en el encasillado para ese factor en la descomposición.  El numero (Fisher) escogido es la suma de los cuadrados. Se cuadra cada numero en la caja y luego se suman todos.
El significado de la suma de los cuadrados como medida de variabilidad total ¿Qué nos indican la suma de los cuadrados? La idea de Fisher es que la suma de los cuadrados para un factor es una medida de variabilidad total en los números en esa encasillado de descomposición. Con esto se pretende saber cuan dispersos estan los valores del conjunto, en otras palabras cual es su distancia a cero. Si un numero esta cerca de cero entonces su cuadrado será pequeño; si un numero esta mas lejos de cero entonces su cuadrado será mayor.
La suma de los cuadrados mide la variabilidad total para un conjunto de números, dado que estos números sumen a cero. Ejemplo: Podemos verificar que la suma de los números en cada encasillado suma a cero.
Como los valores observados no suman cero, entonces el promedio principal no es cero. La suma de los cuadrados de los seis factores de descomposición se suman para obtener la suma de los cuadrados de los valores observados.
De la tabla anterior obtenemos: La variabilidad relacionada con los órganos es grande comparada con la de los demás factores. Le sigue la variabilidad de la interacción, la cual es el doble de la de los residuos. Debemos recordar que la suma de los cuadrados es una medida de variabilidad total, no de promedio de variabilidad.
Ejemplo: Consideremos que la suma de los cuadrados de los residuos es 316. La idea básica es que este numero es la medida de variabilidad total de 16 números a la vez. Como 16 números contribuyeron a la suma, entonces deberíamos dividir por 6 para calcular el promedio de variación. Sin embargo a pesar de que hay 16 valores en el encasillado, solo hay 6 unidades de información sobre el riesgo de error.
Por lo tanto, de acuerdo con la teoría de Fisher deberíamos dividir por 6 en vez de 16.
Grados de libertad = unidades de información del error residual Existen dos maneras útiles de pensar en los grados de libertad: En términos de números  libres Ensena como contar los grados de libertad de cada factor y nos lleva a una regla general para todos los diseños balanceados.  En términos de información del error residual Se encuentra cerca de la lógica de promedios cuadrados y pruebas si los efectos de la duración de los días  o de los órganos son muy grandes para ser relacionados con la posibilidad .
Los grados de libertad de una tabla son igual a la cantidad de números libres, el numero de espacios en la tabla que se pueden llenar antes de los patrones de repeticiones y que suman a cero nos dicen cuales deben ser los números que faltan. Ejemplo: Encontrando el hamster contando los números libres
Promedio principal:  df=1 El primer encasillado solo tiene un numero (60) repetido 16 veces. Duración del día: df=1 Hay dos números repetidos en el encasillado: -3 en ocho ocasiones  en la mitad superior y +3 en ocho ocasiones en la mitad inferior. No es coincidencia que al sumar obtengamos cero, pues es una de las propiedades de la descomposición. Órganos: df=1 Hay dos números repetidos en el encasillado: -43.5 y +43.5 repetidos ocho veces cada uno y ubicados en la columna del corazón y en la del cerebro respectivamente.
Hamsters: df=6 Los ocho números (uno por cada fila) suman a cero en dos conjuntos de cuatro. Las primeras cuatro filas suman cero, al igual que las ultimas cuatro. Si decimos que los números en las primeras tres filas son: -8, +3 y +2, entonces podemos calcular que el numero en la cuarta fila debe ser +3. De las ultimas cuatro filas se nos proveen  tres valores, por lo que tenemos 6 grados de libertad.
Patrones de sumar a cero Los patrones de repeticiones se pueden visualizar directamente en la mayoría de los casos. Estos siempre se pueden obtener del diagrama de factores. Siempre que se reste el promedio de un conjunto de números, los restantes del promedio, llamados desviación, sumaran cero.
Cuadrado del promedio = variabilidad promedio por unidad de información Para calcular el cuadrado del promedio (promedio de variacion) para un factor, dividimos la suma de los cuadrados (variabilidad total) por los grados de libertad (unidades de información) MS = SS/df
Ejemplo:
La lógica depende del significado de los grados de libertad como unidades de información sobre el riesgo de error. Cada numero libre nos provee una unidad de información sobre el riesgo de error.
Desviación estándar = raíz de los cuadrados del promedio de los residuos
El promedio de los cuadrados de los residuos es 52.7 Este es la medida del promedio de variación relacionado con el riesgo de error. Es calculado elevando al cuadrado cada residuo, sumando los resultados y dividiendo el total por la cantidad de unidades de información. Para calcular la desviación estándar , simplemente se busca la raíz cuadrada de lo anterior, dada por: SD=√MSres Así que la desviación para el valor anterior es aproximadamente 7.3
Si los errores del residuo siguen una curva normal, entonces:  2/3 de los errores no serán mayores de ±7.3 aproximadamente 95% serán a lo sumo ±14.6 ninguno o a lo sumo uno será mayor de ±21.9 Mientras mayor el promedio, mayor es la desviación estándar. El tamaño típico de los errores residuales depende del tamaño de las medidas.
Prueba de la hipótesis formal: son detectables los efectos?
De la descripción a la inferencia: las conclusiones dependen de las suposiciones de Fisher Diferencia entre población y muestra Muestra Es el conjunto de datos que utilizamos para estimar Nunca utilizamos la población, por lo que podemos llegar a la conclusión de que nunca sabremos los valores reales. Sin embargo utilizando las suposiciones de Fisher podemos estimar para realizar inferencias sobre los valores reales.
El método de probar una hipótesis pretende contestar la pregunta, teniendo un juicio por jurado. Los datos son acusados de tener diferencias reales. La evidencia es provista por los valores observados, los cuales se combinan para formar un numero especial llamado razón-f.
El jurado tiene la forma de una tabla de valores críticos, creada por Fisher, la cual nos dice como juzgar la razón-f. Si la razón-f es mayor que el valor critico, entonces los datos son culpables. Esto quiere decir que las diferencias son reales, no solo se relacionan con el riesgo de error. Si la razón-f es menor que el valor en la tabla, el veredicto es inocente. Las diferencias pueden estar relacionadas razonablemente con el riesgo de error y nada mas.
El análisis de la varianza me permite establecer un veredicto para cada valor. Cada razón-f resume una comparación: Si esta razón es mucho mayor que 1, significa que el promedio de variación se relaciona con el riesgo de error.
Ejemplo: En el caso de la interacción de los datos del hamster, la razón-f es 12.84. Este numero nos indica que el estimado de la variación relacionado con la interacción es 12 veces mas grande que el estimado de variación relacionado con el riesgo de error.ss Al juzgar el valor por la tabla de Fisher cuyo valor es 5.99, llegamos a la conclusión de que la evidencia es mas fuerte que el valor que necesitamos, y que por lo tanto el efecto de interacción es real.
El análisis de la tabla de variación: resumiendo la evidencia Fisher invento una tabla manejable para que podamos seguir con nuestro trabajo. La misma se conoce como ANOVA. Analysis of variancetable La tabla tiene una fila para cada factor en el diseño y una columna para cada paso en el análisis.
Ejemplo:
Calculando la razón-f Para calcular la razón-f de un factor se toma el cuadrado del promedio y se divide por el cuadrado del promedio de los residuos. Ejemplo:
Razón-f para probar interacción La razón-f nos dice que el promedio de variación en el encasillado de la interacción es 13 veces mas grande que el promedio de variación en el encasillado de los residuos. Dado que 12.84 es mayor que el valor de la tabla, entonces concluimos que el efecto de interacción es real. Por lo tanto se rechaza la hipótesis nula, la cual establece que no hay diferencias reales relacionadas con la interacción.
La lógica de la prueba-f Si no existen diferencias reales, entonces los cuadrados de los promedios del numerador y denominador con estimaciones del mismo numero, y la razón-f va a tender cerca de 1. Si existen diferencias reales, el numerador va a tender a ser mayor que el denominador, y la razón-f tendera a ser mayor que 1.
Cada promedio al cuadrado es parte del riesgo de error Cada promedio al cuadrado es la sumatoria de la medida de variación promedio por unidad de información. Cada dato observado es la suma de dos o mas piezas, así que cada promedio al cuadrado es una suma de piezas. Es en parte una medida de variación  y también tiene parte de el riesgo de error.
Los grados de libertad para cada encasillado nos dicen cuantas unidades de información hay. Estas son específicamente unidades de información sobre el riesgo de error. Cuando dividimos la suma de los cuadrados por los grados de libertad, dividimos por el numero exacto para hacer de la pieza de riesgo de error un estimado de la variación por unidad de información sobre el riesgo de error.
Ejemplo:
Relación entre la condición real y la razón-f Cuando utilizamos la razón-f para llegar a conclusiones sobre los datos: Si la razón-f esta cerca de 1, obtenemos que no hay diferencias reales. Por el contrario si es mayor que 1, entonces veremos el comportamiento de cuando hay diferencias reales.
Limitaciones de la prueba-f Recordemos que la razón-f nos dice que las diferencias observadas son muy grandes para ser relacionadas solamente con el riesgo de error. Una razón-f grande no: Verifica el diseño del experimento Verifica si el modelo es bueno Verifica si las seis suposiciones clave se ajustan a los datos
Si el diseño es malo, o el modelo equivocado, o una de las suposiciones no se ajusta a los datos, obtenemos una razón-f grande y se pierde el significado. Para los datos del hamster, existen varias razones por las cuales se debe ser cauteloso sobre las conclusiones de la razón-f. Las mas importantes son: El “subplotfactor” (organo) no se puede asignar, por lo que no puede existir un proceso aleatorio. De acuerdo con el “scatterplot” los datos contienen un “outlier”
La razón-f nos dice si las diferencias reales son lo suficientemente grandes para ser detectadas en el experimento, pero no cual es el tamaño de la diferencia (no si son lo suficientemente grande para ser científicamente interesante). Mucha gente utiliza ANOVA solo para los resultados de las pruebas-f.
Las pruebas-f solo nos dan un conjunto de cuatro conclusiones; No: los efectos totales de la duración del día no son detectables Si: los  efectos totales de los órganos son detectables Si: los efectos de interacción son detectables No: las diferencias del hamster no son detectables Las pruebas-f están limitadas en la información que nos brindan.
Si las utilizamos en una forma mecánica y ociosa, si pensar en los patrones de los datos, en ocasiones pueden ser engañosas.
Intervalos de confianza: el tamaño similar de las diferencias reales
Intervalos para el efecto de la duración del día en los corazones y cerebros La diferencia promedio entre la concentración de enzimas en los días largos y cortos no es la misma en que entre los corazones y cerebros. La diferencia en los promedios son estimados: asumamos que cada numero es el valor real mas el riesgo de error.
El error estándar dice pro estimados lo que la desviación estándar dice mediante un sola observación: el tamaño típico de la parte aleatoria.
Utilizando el 95% de distancia para analizar situaciones de diseño Error estándar Nos dice el tamaño típico de la parte de riesgo por para el estimado. Para calcular el error estándar se multiplica la desviación estándar  por el “levarage factor”. El 95% de la distancia es igual al error estándar multiplicado por un valor t de la tabla.
El 95% de la distancia proviene de la multiplicación de tres números: √Msres (o una medida similar de tamaño de error) Un “leverage factor” basado en el numero de observaciones Un valor t de una tabla (o computadora) El error estándar es igual a tamaño de error por un “leverage factor”
SD = √MS = tamaño típico del riesgo de error √MS Mide la cantidad típica de inseguridad en los valores observados que intervienen en los estimados. Si es grande, entonces el error estándar será grande y el intervalo de confianza será amplio. Si es pequeño, el error estándar será pequeño y el intervalo de confianza será cerrado.
Un MS grande significa que cada valor observado tiende a incluir un riesgo de error grande. Una raíz de MS pequeña significa buenos datos, estimados precisos y un intervalo cerrado. Hay dos estrategias para hacer a MS mas pequeño: Mejor diseño Mejores técnicas de laboratorio
“Leverage factor” para el estimado Nuestros estimados se basan en la combinación de información de distintas observaciones, lo que significa que el riesgo de error que parte de nuestro estimado es menor que para un valor observado. El “leverage factor” se escribe como una fracción, donde el denominador de la misma es el numero de observaciones en el promedio.
Ejemplo: En el experimento de los hamsters : Levarage factor = √((1/4)+(1/4))=.71 En este caso se utilizan los datos de los días cortos/cerebro y los de los días largos/cerebro. En cada uno de los casos hay 4 observaciones. Mientras mas valores en los promedios, mas pequeño es el “leverage factor”, y por lo tanto el error estándar para el estimado es mas pequeño. El “leverage factor” siempre tiene raíz cuadrada.
Valor t= 95% distancia estándar de una tabla Si el riesgo de error tiene sigue una curva normal y se conoce el valor exacto del error estándar, entonces el 95% de la distancia estándar es 2, y el intervalo de confianza es de la forma Estimado ± SE*2. Cada 95% de la distancia es igual al error estándar del estimado multiplicado por el 95% de la distancia estandar.
La tabla t publica estos valores y los valores t, lo cual representa la distancia entre los valores. El valor t depende de dos cosas: De los grados de libertad para el cuadrado del promedio, los cuales se utilizan para el calcular el error estándar Del nivel de confianza, el cual es usualmente 95%
Cuando planificamos un experimento la lección mas importante de la tabla de valores t es que mientras mas pequeño es dfres, añadir solo unas observaciones puede reducir el valor t considerablemente. Esto incrementa la precisión en gran manera. Observaciones adicionales aumentaran principalmente la precisión reduciendo el “leverage factor”

Más contenido relacionado

La actualidad más candente

Fraccion[1]
Fraccion[1]Fraccion[1]
Fraccion[1]anamate
 
Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...
Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...
Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...Luz Hernández
 
S2 1 Intro Anva
S2 1 Intro AnvaS2 1 Intro Anva
S2 1 Intro Anvataecoep
 
Ejemplo resuelto anova
Ejemplo resuelto anovaEjemplo resuelto anova
Ejemplo resuelto anovaAbikSolares
 
Valor esperado o media
Valor esperado o mediaValor esperado o media
Valor esperado o mediaJag Är Omxr
 
Presentación Distribuciones de Muestreo para Estimadores Lineales
Presentación Distribuciones de Muestreo para Estimadores Lineales Presentación Distribuciones de Muestreo para Estimadores Lineales
Presentación Distribuciones de Muestreo para Estimadores Lineales wadar3
 
Distribuciones de Probabilidad
Distribuciones de ProbabilidadDistribuciones de Probabilidad
Distribuciones de ProbabilidadViri_TPerales
 
Taller de medios proyecto
Taller de medios proyectoTaller de medios proyecto
Taller de medios proyectoJeanPaul263
 
Sistemas ecuaciones naudy
Sistemas ecuaciones naudySistemas ecuaciones naudy
Sistemas ecuaciones naudyASIGNACIONUFT
 

La actualidad más candente (18)

Grados de liberta
Grados de libertaGrados de liberta
Grados de liberta
 
Fraccion[1]
Fraccion[1]Fraccion[1]
Fraccion[1]
 
Método algebráico
Método  algebráicoMétodo  algebráico
Método algebráico
 
Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...
Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...
Muestreo por diferencias de medias aritmeticas y por diferencia de proporcion...
 
S2 1 Intro Anva
S2 1 Intro AnvaS2 1 Intro Anva
S2 1 Intro Anva
 
Folleto de estadística (1)
Folleto de estadística (1)Folleto de estadística (1)
Folleto de estadística (1)
 
MÉTODO ALGEBRAICO
MÉTODO ALGEBRAICO MÉTODO ALGEBRAICO
MÉTODO ALGEBRAICO
 
Teorema de chebyshev
Teorema de chebyshevTeorema de chebyshev
Teorema de chebyshev
 
Ejemplo resuelto anova
Ejemplo resuelto anovaEjemplo resuelto anova
Ejemplo resuelto anova
 
Prueba chi cuadrada
Prueba chi cuadradaPrueba chi cuadrada
Prueba chi cuadrada
 
Valor esperado o media
Valor esperado o mediaValor esperado o media
Valor esperado o media
 
U0304
U0304U0304
U0304
 
Análisis de Varianza
Análisis de VarianzaAnálisis de Varianza
Análisis de Varianza
 
Presentación Distribuciones de Muestreo para Estimadores Lineales
Presentación Distribuciones de Muestreo para Estimadores Lineales Presentación Distribuciones de Muestreo para Estimadores Lineales
Presentación Distribuciones de Muestreo para Estimadores Lineales
 
Distribuciones de Probabilidad
Distribuciones de ProbabilidadDistribuciones de Probabilidad
Distribuciones de Probabilidad
 
Unidad 3
Unidad 3Unidad 3
Unidad 3
 
Taller de medios proyecto
Taller de medios proyectoTaller de medios proyecto
Taller de medios proyecto
 
Sistemas ecuaciones naudy
Sistemas ecuaciones naudySistemas ecuaciones naudy
Sistemas ecuaciones naudy
 

Destacado

ESTIMADORES DE REGRESIÓN
ESTIMADORES DE REGRESIÓNESTIMADORES DE REGRESIÓN
ESTIMADORES DE REGRESIÓNguestc0072b
 
Introducción al análisis de regresión simple
Introducción al análisis de regresión simpleIntroducción al análisis de regresión simple
Introducción al análisis de regresión simplemezag
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)Videoconferencias UTPL
 
Estimación y estimadores
Estimación y estimadoresEstimación y estimadores
Estimación y estimadoresfelipe ornelas
 
Ejercicios De RegresióN Multiple
Ejercicios De RegresióN MultipleEjercicios De RegresióN Multiple
Ejercicios De RegresióN MultipleDiego
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidadfranbf66
 
Regresion Multiple2
Regresion Multiple2Regresion Multiple2
Regresion Multiple2juancasa2791
 
Razones Financieras 2008
Razones Financieras 2008Razones Financieras 2008
Razones Financieras 2008herrejon11
 
AnáLisis De Varianza (Anova)
AnáLisis De Varianza (Anova)AnáLisis De Varianza (Anova)
AnáLisis De Varianza (Anova)Diego
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónAlvaro Chavez
 
Financiera Gestion Analisis Proyecto
Financiera Gestion Analisis ProyectoFinanciera Gestion Analisis Proyecto
Financiera Gestion Analisis Proyectoguest2de8df4
 
Sistemas y Administracion de Inventarios
Sistemas y Administracion de InventariosSistemas y Administracion de Inventarios
Sistemas y Administracion de InventariosCESAR_VIVALDO
 

Destacado (20)

Regresión por Mínimos Cuadrados
Regresión por Mínimos CuadradosRegresión por Mínimos Cuadrados
Regresión por Mínimos Cuadrados
 
ESTIMADORES DE REGRESIÓN
ESTIMADORES DE REGRESIÓNESTIMADORES DE REGRESIÓN
ESTIMADORES DE REGRESIÓN
 
Introducción al análisis de regresión simple
Introducción al análisis de regresión simpleIntroducción al análisis de regresión simple
Introducción al análisis de regresión simple
 
Regresión lineal múltiple
Regresión lineal múltipleRegresión lineal múltiple
Regresión lineal múltiple
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Modelo de regresión lineal múltiple
Modelo de regresión lineal múltipleModelo de regresión lineal múltiple
Modelo de regresión lineal múltiple
 
ESTADISTICA II
ESTADISTICA IIESTADISTICA II
ESTADISTICA II
 
UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
UTPL-CONTABILIDAD DE COSTOS I-I-BIMESTRE-(OCTUBRE 2011-FEBRERO 2012)
 
Regresion Y Correlacion
Regresion Y CorrelacionRegresion Y Correlacion
Regresion Y Correlacion
 
Estimación y estimadores
Estimación y estimadoresEstimación y estimadores
Estimación y estimadores
 
Ejercicios De RegresióN Multiple
Ejercicios De RegresióN MultipleEjercicios De RegresióN Multiple
Ejercicios De RegresióN Multiple
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidad
 
Regresion Multiple2
Regresion Multiple2Regresion Multiple2
Regresion Multiple2
 
Razones Financieras 2008
Razones Financieras 2008Razones Financieras 2008
Razones Financieras 2008
 
AnáLisis De Varianza (Anova)
AnáLisis De Varianza (Anova)AnáLisis De Varianza (Anova)
AnáLisis De Varianza (Anova)
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlación
 
5. regresión lineal multiple
5.  regresión lineal multiple5.  regresión lineal multiple
5. regresión lineal multiple
 
Financiera Gestion Analisis Proyecto
Financiera Gestion Analisis ProyectoFinanciera Gestion Analisis Proyecto
Financiera Gestion Analisis Proyecto
 
Sistemas y Administracion de Inventarios
Sistemas y Administracion de InventariosSistemas y Administracion de Inventarios
Sistemas y Administracion de Inventarios
 
Finanza para principiantes
Finanza para principiantesFinanza para principiantes
Finanza para principiantes
 

Similar a A N O V A Formal

Formulas estadisticas
Formulas estadisticasFormulas estadisticas
Formulas estadisticasAbe Mcen
 
Slideshare -Aplicaciones Informaticas.pptx
Slideshare -Aplicaciones Informaticas.pptxSlideshare -Aplicaciones Informaticas.pptx
Slideshare -Aplicaciones Informaticas.pptxGabrielaGarcia286004
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticasyorge1996
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticasyorge1996
 
Clasifiacion de los numeros
Clasifiacion de los numerosClasifiacion de los numeros
Clasifiacion de los numerosbenitonicolas
 
Clasifiacion de los numeros
Clasifiacion de los numerosClasifiacion de los numeros
Clasifiacion de los numerosbenitonicolas
 
Clase v medidas_de_tendencia_central
Clase v medidas_de_tendencia_centralClase v medidas_de_tendencia_central
Clase v medidas_de_tendencia_centralJuan Diaz
 
Dist probabilidades-hn
Dist probabilidades-hnDist probabilidades-hn
Dist probabilidades-hnIUPSM-HNavarro
 
Estadística y software aplicado
Estadística y software aplicadoEstadística y software aplicado
Estadística y software aplicadoglavador95
 
media aritmetica en datos agrupados y no agrupados
media aritmetica en datos agrupados y no agrupadosmedia aritmetica en datos agrupados y no agrupados
media aritmetica en datos agrupados y no agrupadosjoherman paradas
 

Similar a A N O V A Formal (20)

Formulas estadisticas
Formulas estadisticasFormulas estadisticas
Formulas estadisticas
 
Slideshare -Aplicaciones Informaticas.pptx
Slideshare -Aplicaciones Informaticas.pptxSlideshare -Aplicaciones Informaticas.pptx
Slideshare -Aplicaciones Informaticas.pptx
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticas
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticas
 
Clasifiacion de los numeros
Clasifiacion de los numerosClasifiacion de los numeros
Clasifiacion de los numeros
 
Clasifiacion de los numeros
Clasifiacion de los numerosClasifiacion de los numeros
Clasifiacion de los numeros
 
Varianza y desviación estándar
Varianza y desviación estándarVarianza y desviación estándar
Varianza y desviación estándar
 
Unidad 3
Unidad 3Unidad 3
Unidad 3
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
Media aritmetica
Media aritmeticaMedia aritmetica
Media aritmetica
 
MATEMATICASIV2013
MATEMATICASIV2013MATEMATICASIV2013
MATEMATICASIV2013
 
Clase v medidas_de_tendencia_central
Clase v medidas_de_tendencia_centralClase v medidas_de_tendencia_central
Clase v medidas_de_tendencia_central
 
Presentación 2
Presentación 2Presentación 2
Presentación 2
 
Dist probabilidades-hn
Dist probabilidades-hnDist probabilidades-hn
Dist probabilidades-hn
 
Power tics
Power ticsPower tics
Power tics
 
Estadística y software aplicado
Estadística y software aplicadoEstadística y software aplicado
Estadística y software aplicado
 
Proyec mate
Proyec mateProyec mate
Proyec mate
 
media aritmetica en datos agrupados y no agrupados
media aritmetica en datos agrupados y no agrupadosmedia aritmetica en datos agrupados y no agrupados
media aritmetica en datos agrupados y no agrupados
 
Actividad no 7
Actividad no 7Actividad no 7
Actividad no 7
 

Más de joanem28

How to Think Like a Computer Scientist
How to Think Like a Computer ScientistHow to Think Like a Computer Scientist
How to Think Like a Computer Scientistjoanem28
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianzajoanem28
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianzajoanem28
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianzajoanem28
 
Presentacion Visualizacion
Presentacion VisualizacionPresentacion Visualizacion
Presentacion Visualizacionjoanem28
 
Presentacion 1 Matematica Discreta Avanzada
Presentacion 1 Matematica Discreta AvanzadaPresentacion 1 Matematica Discreta Avanzada
Presentacion 1 Matematica Discreta Avanzadajoanem28
 

Más de joanem28 (6)

How to Think Like a Computer Scientist
How to Think Like a Computer ScientistHow to Think Like a Computer Scientist
How to Think Like a Computer Scientist
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
 
Presentacion Visualizacion
Presentacion VisualizacionPresentacion Visualizacion
Presentacion Visualizacion
 
Presentacion 1 Matematica Discreta Avanzada
Presentacion 1 Matematica Discreta AvanzadaPresentacion 1 Matematica Discreta Avanzada
Presentacion 1 Matematica Discreta Avanzada
 

A N O V A Formal

  • 1. ANOVA formal: Descomposición de datos, medición de variabilidad, prueba de hipótesis y estimación de diferencias reales Joane M. De Jesus Datiz Estadísticas Avanzadas 25 de marzo de 2010
  • 3. Meta de la descomposición La meta es dividir cada valor observado en una suma de piezas, una para cada factor. Ejemplo: Descomposición de la primera observación.
  • 4. La estimación en la descomposición esta basada en el promedio La estimación se computa de las observaciones. Comenzamos con un conjunto completo de promedios. Un conjunto para cada valor, excepto para el error residual.
  • 6. De promedios a efectos estimados Los estimados pueden ser razonables por sentido común. Existe una forma sistemática de hacer estimados. Esta se basa en una regla que se explicará mas adelante.
  • 7. “Benchmark” La palabra “benchmark” es un anglicismo que se puede traducir como: Comparativa Cota o punto de referencia Se pretende estimar de la pieza común de todas las observaciones. En el experimento es 60.
  • 8. Duración del día El promedio de los ocho días largos en el experimento es 57. Esto es 3 menos que el “benchmark” estimado. El efecto estimado para los días largos es: long-day average – grand average. 57- 60= -3
  • 9. Órganos El efecto estimado para los órganos (corazón y cerebro) se calcula de la misma forma que para la duración del día. Efecto estimado = average – grand average. El promedio de las medidas de los ocho cerebros es 103.5 y el de los corazones es 16.5 El promedio del corazón es 43.5 menos que el promedio principal. El promedio del cerebro es 43.5 mas que el promedio principal.
  • 10. Hámster Utilizamos los efectos del hamster para saber las diferencias entre ellos individualmente. El sentido común nos dice que como el hamster #4 tuvo días largos, por lo tanto debemos compararlo con los hamsters que tuvieron días largos. El efecto estimado para el hámster #4 es: 49 – 57 = -8, donde 49 es su promedio individual y 57 es el promedio de todos los hamsters que tuvieron días largos.
  • 11. Interacción Este es uno de los puntos que se toman en consideración para descomponer datos, sin embargo por el momento no se harán alusiones al mismo, ya que estas son mas complicadas que los puntos antes mencionados.
  • 12. Error residual Para estimar el error residual, se suman todos los efectos estimados para obtener el valor ajustado. Esto es un estimado de lo que el valor observado seria sin su error residual. Por lo tanto obtenemos, Obs = Fit + Res o Res = Obs - Fit 17-12=5
  • 13. Calculando el cuadrado del promedio para medir su variabilidad
  • 14. Comparando los cuadrados del promedio Cada tabla en una descomposición, excepto la del promedio principal, demuestran variabilidad. La variabilidad se debe a una mezcla de variabilidades que se relacionan con el factor en cuestión mas otra variabilidad que ANOVA asume por casualidad o azar.
  • 15. La meta es decidir que cantidad de la variabilidad en cada tabla esta asociada a ese factor y que cantidad se relaciona al azar. Consideremos que el efecto de interacción para el hamster es ±6.5. La variabilidad en la tabla de descomposición es al menos 13 veces tan grande como la variabilidad del promedio en la tabla de los residuos. Por esto se concluye que los efectos de interacción son reales.
  • 16. La comparación comienza calculando la sumatoria de números, lo cual se llama promedio al cuadrado, para cada tabla. Este sirve como la medida de la variabilidad del promedio de la tabla. Los pasos para calcularlo son los siguientes: SS= sum of squares Se cuadran todos los números en la tabla y se suman. Este total es la medida de la variabilidad total de la tabla. Df= degrees in freedom Cuenta el numero de unidades de información sobre el error residual contenidos en la tabla.
  • 17. MS= mean square Es la división entre SS y df. Este numero mide el promedio de variacion por unidad de información. En forma de ecuación:
  • 18. Suma de los cuadrados = medida de la variabilidad total Se tiene que calcular un numero para cada factor que indique que cantidad de la variación esta en el encasillado para ese factor en la descomposición. El numero (Fisher) escogido es la suma de los cuadrados. Se cuadra cada numero en la caja y luego se suman todos.
  • 19. El significado de la suma de los cuadrados como medida de variabilidad total ¿Qué nos indican la suma de los cuadrados? La idea de Fisher es que la suma de los cuadrados para un factor es una medida de variabilidad total en los números en esa encasillado de descomposición. Con esto se pretende saber cuan dispersos estan los valores del conjunto, en otras palabras cual es su distancia a cero. Si un numero esta cerca de cero entonces su cuadrado será pequeño; si un numero esta mas lejos de cero entonces su cuadrado será mayor.
  • 20. La suma de los cuadrados mide la variabilidad total para un conjunto de números, dado que estos números sumen a cero. Ejemplo: Podemos verificar que la suma de los números en cada encasillado suma a cero.
  • 21. Como los valores observados no suman cero, entonces el promedio principal no es cero. La suma de los cuadrados de los seis factores de descomposición se suman para obtener la suma de los cuadrados de los valores observados.
  • 22. De la tabla anterior obtenemos: La variabilidad relacionada con los órganos es grande comparada con la de los demás factores. Le sigue la variabilidad de la interacción, la cual es el doble de la de los residuos. Debemos recordar que la suma de los cuadrados es una medida de variabilidad total, no de promedio de variabilidad.
  • 23. Ejemplo: Consideremos que la suma de los cuadrados de los residuos es 316. La idea básica es que este numero es la medida de variabilidad total de 16 números a la vez. Como 16 números contribuyeron a la suma, entonces deberíamos dividir por 6 para calcular el promedio de variación. Sin embargo a pesar de que hay 16 valores en el encasillado, solo hay 6 unidades de información sobre el riesgo de error.
  • 24. Por lo tanto, de acuerdo con la teoría de Fisher deberíamos dividir por 6 en vez de 16.
  • 25. Grados de libertad = unidades de información del error residual Existen dos maneras útiles de pensar en los grados de libertad: En términos de números libres Ensena como contar los grados de libertad de cada factor y nos lleva a una regla general para todos los diseños balanceados. En términos de información del error residual Se encuentra cerca de la lógica de promedios cuadrados y pruebas si los efectos de la duración de los días o de los órganos son muy grandes para ser relacionados con la posibilidad .
  • 26. Los grados de libertad de una tabla son igual a la cantidad de números libres, el numero de espacios en la tabla que se pueden llenar antes de los patrones de repeticiones y que suman a cero nos dicen cuales deben ser los números que faltan. Ejemplo: Encontrando el hamster contando los números libres
  • 27. Promedio principal: df=1 El primer encasillado solo tiene un numero (60) repetido 16 veces. Duración del día: df=1 Hay dos números repetidos en el encasillado: -3 en ocho ocasiones en la mitad superior y +3 en ocho ocasiones en la mitad inferior. No es coincidencia que al sumar obtengamos cero, pues es una de las propiedades de la descomposición. Órganos: df=1 Hay dos números repetidos en el encasillado: -43.5 y +43.5 repetidos ocho veces cada uno y ubicados en la columna del corazón y en la del cerebro respectivamente.
  • 28. Hamsters: df=6 Los ocho números (uno por cada fila) suman a cero en dos conjuntos de cuatro. Las primeras cuatro filas suman cero, al igual que las ultimas cuatro. Si decimos que los números en las primeras tres filas son: -8, +3 y +2, entonces podemos calcular que el numero en la cuarta fila debe ser +3. De las ultimas cuatro filas se nos proveen tres valores, por lo que tenemos 6 grados de libertad.
  • 29. Patrones de sumar a cero Los patrones de repeticiones se pueden visualizar directamente en la mayoría de los casos. Estos siempre se pueden obtener del diagrama de factores. Siempre que se reste el promedio de un conjunto de números, los restantes del promedio, llamados desviación, sumaran cero.
  • 30. Cuadrado del promedio = variabilidad promedio por unidad de información Para calcular el cuadrado del promedio (promedio de variacion) para un factor, dividimos la suma de los cuadrados (variabilidad total) por los grados de libertad (unidades de información) MS = SS/df
  • 32. La lógica depende del significado de los grados de libertad como unidades de información sobre el riesgo de error. Cada numero libre nos provee una unidad de información sobre el riesgo de error.
  • 33. Desviación estándar = raíz de los cuadrados del promedio de los residuos
  • 34. El promedio de los cuadrados de los residuos es 52.7 Este es la medida del promedio de variación relacionado con el riesgo de error. Es calculado elevando al cuadrado cada residuo, sumando los resultados y dividiendo el total por la cantidad de unidades de información. Para calcular la desviación estándar , simplemente se busca la raíz cuadrada de lo anterior, dada por: SD=√MSres Así que la desviación para el valor anterior es aproximadamente 7.3
  • 35. Si los errores del residuo siguen una curva normal, entonces: 2/3 de los errores no serán mayores de ±7.3 aproximadamente 95% serán a lo sumo ±14.6 ninguno o a lo sumo uno será mayor de ±21.9 Mientras mayor el promedio, mayor es la desviación estándar. El tamaño típico de los errores residuales depende del tamaño de las medidas.
  • 36. Prueba de la hipótesis formal: son detectables los efectos?
  • 37. De la descripción a la inferencia: las conclusiones dependen de las suposiciones de Fisher Diferencia entre población y muestra Muestra Es el conjunto de datos que utilizamos para estimar Nunca utilizamos la población, por lo que podemos llegar a la conclusión de que nunca sabremos los valores reales. Sin embargo utilizando las suposiciones de Fisher podemos estimar para realizar inferencias sobre los valores reales.
  • 38. El método de probar una hipótesis pretende contestar la pregunta, teniendo un juicio por jurado. Los datos son acusados de tener diferencias reales. La evidencia es provista por los valores observados, los cuales se combinan para formar un numero especial llamado razón-f.
  • 39. El jurado tiene la forma de una tabla de valores críticos, creada por Fisher, la cual nos dice como juzgar la razón-f. Si la razón-f es mayor que el valor critico, entonces los datos son culpables. Esto quiere decir que las diferencias son reales, no solo se relacionan con el riesgo de error. Si la razón-f es menor que el valor en la tabla, el veredicto es inocente. Las diferencias pueden estar relacionadas razonablemente con el riesgo de error y nada mas.
  • 40. El análisis de la varianza me permite establecer un veredicto para cada valor. Cada razón-f resume una comparación: Si esta razón es mucho mayor que 1, significa que el promedio de variación se relaciona con el riesgo de error.
  • 41. Ejemplo: En el caso de la interacción de los datos del hamster, la razón-f es 12.84. Este numero nos indica que el estimado de la variación relacionado con la interacción es 12 veces mas grande que el estimado de variación relacionado con el riesgo de error.ss Al juzgar el valor por la tabla de Fisher cuyo valor es 5.99, llegamos a la conclusión de que la evidencia es mas fuerte que el valor que necesitamos, y que por lo tanto el efecto de interacción es real.
  • 42. El análisis de la tabla de variación: resumiendo la evidencia Fisher invento una tabla manejable para que podamos seguir con nuestro trabajo. La misma se conoce como ANOVA. Analysis of variancetable La tabla tiene una fila para cada factor en el diseño y una columna para cada paso en el análisis.
  • 44. Calculando la razón-f Para calcular la razón-f de un factor se toma el cuadrado del promedio y se divide por el cuadrado del promedio de los residuos. Ejemplo:
  • 45. Razón-f para probar interacción La razón-f nos dice que el promedio de variación en el encasillado de la interacción es 13 veces mas grande que el promedio de variación en el encasillado de los residuos. Dado que 12.84 es mayor que el valor de la tabla, entonces concluimos que el efecto de interacción es real. Por lo tanto se rechaza la hipótesis nula, la cual establece que no hay diferencias reales relacionadas con la interacción.
  • 46. La lógica de la prueba-f Si no existen diferencias reales, entonces los cuadrados de los promedios del numerador y denominador con estimaciones del mismo numero, y la razón-f va a tender cerca de 1. Si existen diferencias reales, el numerador va a tender a ser mayor que el denominador, y la razón-f tendera a ser mayor que 1.
  • 47. Cada promedio al cuadrado es parte del riesgo de error Cada promedio al cuadrado es la sumatoria de la medida de variación promedio por unidad de información. Cada dato observado es la suma de dos o mas piezas, así que cada promedio al cuadrado es una suma de piezas. Es en parte una medida de variación y también tiene parte de el riesgo de error.
  • 48. Los grados de libertad para cada encasillado nos dicen cuantas unidades de información hay. Estas son específicamente unidades de información sobre el riesgo de error. Cuando dividimos la suma de los cuadrados por los grados de libertad, dividimos por el numero exacto para hacer de la pieza de riesgo de error un estimado de la variación por unidad de información sobre el riesgo de error.
  • 50. Relación entre la condición real y la razón-f Cuando utilizamos la razón-f para llegar a conclusiones sobre los datos: Si la razón-f esta cerca de 1, obtenemos que no hay diferencias reales. Por el contrario si es mayor que 1, entonces veremos el comportamiento de cuando hay diferencias reales.
  • 51. Limitaciones de la prueba-f Recordemos que la razón-f nos dice que las diferencias observadas son muy grandes para ser relacionadas solamente con el riesgo de error. Una razón-f grande no: Verifica el diseño del experimento Verifica si el modelo es bueno Verifica si las seis suposiciones clave se ajustan a los datos
  • 52. Si el diseño es malo, o el modelo equivocado, o una de las suposiciones no se ajusta a los datos, obtenemos una razón-f grande y se pierde el significado. Para los datos del hamster, existen varias razones por las cuales se debe ser cauteloso sobre las conclusiones de la razón-f. Las mas importantes son: El “subplotfactor” (organo) no se puede asignar, por lo que no puede existir un proceso aleatorio. De acuerdo con el “scatterplot” los datos contienen un “outlier”
  • 53. La razón-f nos dice si las diferencias reales son lo suficientemente grandes para ser detectadas en el experimento, pero no cual es el tamaño de la diferencia (no si son lo suficientemente grande para ser científicamente interesante). Mucha gente utiliza ANOVA solo para los resultados de las pruebas-f.
  • 54. Las pruebas-f solo nos dan un conjunto de cuatro conclusiones; No: los efectos totales de la duración del día no son detectables Si: los efectos totales de los órganos son detectables Si: los efectos de interacción son detectables No: las diferencias del hamster no son detectables Las pruebas-f están limitadas en la información que nos brindan.
  • 55. Si las utilizamos en una forma mecánica y ociosa, si pensar en los patrones de los datos, en ocasiones pueden ser engañosas.
  • 56. Intervalos de confianza: el tamaño similar de las diferencias reales
  • 57. Intervalos para el efecto de la duración del día en los corazones y cerebros La diferencia promedio entre la concentración de enzimas en los días largos y cortos no es la misma en que entre los corazones y cerebros. La diferencia en los promedios son estimados: asumamos que cada numero es el valor real mas el riesgo de error.
  • 58. El error estándar dice pro estimados lo que la desviación estándar dice mediante un sola observación: el tamaño típico de la parte aleatoria.
  • 59. Utilizando el 95% de distancia para analizar situaciones de diseño Error estándar Nos dice el tamaño típico de la parte de riesgo por para el estimado. Para calcular el error estándar se multiplica la desviación estándar por el “levarage factor”. El 95% de la distancia es igual al error estándar multiplicado por un valor t de la tabla.
  • 60. El 95% de la distancia proviene de la multiplicación de tres números: √Msres (o una medida similar de tamaño de error) Un “leverage factor” basado en el numero de observaciones Un valor t de una tabla (o computadora) El error estándar es igual a tamaño de error por un “leverage factor”
  • 61. SD = √MS = tamaño típico del riesgo de error √MS Mide la cantidad típica de inseguridad en los valores observados que intervienen en los estimados. Si es grande, entonces el error estándar será grande y el intervalo de confianza será amplio. Si es pequeño, el error estándar será pequeño y el intervalo de confianza será cerrado.
  • 62. Un MS grande significa que cada valor observado tiende a incluir un riesgo de error grande. Una raíz de MS pequeña significa buenos datos, estimados precisos y un intervalo cerrado. Hay dos estrategias para hacer a MS mas pequeño: Mejor diseño Mejores técnicas de laboratorio
  • 63. “Leverage factor” para el estimado Nuestros estimados se basan en la combinación de información de distintas observaciones, lo que significa que el riesgo de error que parte de nuestro estimado es menor que para un valor observado. El “leverage factor” se escribe como una fracción, donde el denominador de la misma es el numero de observaciones en el promedio.
  • 64. Ejemplo: En el experimento de los hamsters : Levarage factor = √((1/4)+(1/4))=.71 En este caso se utilizan los datos de los días cortos/cerebro y los de los días largos/cerebro. En cada uno de los casos hay 4 observaciones. Mientras mas valores en los promedios, mas pequeño es el “leverage factor”, y por lo tanto el error estándar para el estimado es mas pequeño. El “leverage factor” siempre tiene raíz cuadrada.
  • 65. Valor t= 95% distancia estándar de una tabla Si el riesgo de error tiene sigue una curva normal y se conoce el valor exacto del error estándar, entonces el 95% de la distancia estándar es 2, y el intervalo de confianza es de la forma Estimado ± SE*2. Cada 95% de la distancia es igual al error estándar del estimado multiplicado por el 95% de la distancia estandar.
  • 66. La tabla t publica estos valores y los valores t, lo cual representa la distancia entre los valores. El valor t depende de dos cosas: De los grados de libertad para el cuadrado del promedio, los cuales se utilizan para el calcular el error estándar Del nivel de confianza, el cual es usualmente 95%
  • 67. Cuando planificamos un experimento la lección mas importante de la tabla de valores t es que mientras mas pequeño es dfres, añadir solo unas observaciones puede reducir el valor t considerablemente. Esto incrementa la precisión en gran manera. Observaciones adicionales aumentaran principalmente la precisión reduciendo el “leverage factor”