CENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdf
Resumen formulario estadistica_avanzada
1. 1.1. Estadística clásicaEstadística clásica
1-1
Estadística Avanzada yEstadística Avanzada y
Análisis de DatosAnálisis de Datos
MásterMáster InteruniversitarioInteruniversitario de Astrofísicade Astrofísica
Javier Gorgas y NicolásJavier Gorgas y Nicolás CardielCardiel
Curso 2006Curso 2006--20072007
2. 1.1. Estadística clásicaEstadística clásica
1-2
IntroducciónIntroducción
En ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría?
¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares?
¿qué ha fallado, cómo podemos mejorar el experimento?)
Para cada medida o parámetro derivado necesitamos una estimación del error que
nos diga, en términos de probabilidades, la confianza que tenemos en su valor.
La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las
decisiones (el método científico).
If your experiment needs statistics, you ought to have done a better experiment
(E. Rutherford)
En particular, en astrofísica:
Nuestras medidas están sujetas a (grandes) errores de medida.
Tenemos la manía de observar al límite de las capacidades instrumentales.
El método clásico de repetir los experimentos no es aplicable.
No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)
3. 1.1. Estadística clásicaEstadística clásica
1-3
Introducción (II)Introducción (II)
No podemos evitar la estadística:
¿Cómo asignamos errores a nuestros datos? (o los de otros)
¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?)
¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores)
¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…?
¿Qué hacer con las muestras incompletas? (¿límites superiores?)
NECESITAMOS DECIDIR
Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo
hacen.
Curso con un enfoque práctico (recetas)
• Métodos paramétricos clásicos
• Métodos no paramétricos
• Estadística bayesiana
4. 1.1. Estadística clásicaEstadística clásica
1-4
ProgramaPrograma
1.1. Estadística clásicaEstadística clásica
2.2. Introducción a la estadísticaIntroducción a la estadística bayesianabayesiana
3.3. Cálculo de erroresCálculo de errores
4.4. Regresión linealRegresión lineal
5.5. CorrelaciónCorrelación
6.6. Regresión múltipleRegresión múltiple
7.7. Contrastes de hipótesis para una muestraContrastes de hipótesis para una muestra
8.8. Contrastes de hipótesis para varias muestrasContrastes de hipótesis para varias muestras
9.9. Análisis de componentes principalesAnálisis de componentes principales
10.10. Estimación de parámetrosEstimación de parámetros
11.11. Detección de la señalDetección de la señal –– SurveysSurveys
12.12. Análisis de datos astrofísicosAnálisis de datos astrofísicos
5. 1.1. Estadística clásicaEstadística clásica
1-5
Tema 1Tema 1
Estadística clásicaEstadística clásica
Introducción
Estadística descriptiva
Distribuciones de probabilidad
Distribuciones discretas de probabilidad
Distribución normal
Estimación de parámetros poblacionales
Distribuciones muestrales de los estadísticos
Estimación por intervalos de confianza
Contrastes de hipótesis
Métodos no paramétricos
6. 1.1. Estadística clásicaEstadística clásica
1-6
Estadística descriptivaEstadística descriptiva
Media aritmética Media geométrica Media armónica Media cuadrática
centralización
Mediana
Me: Valor central (con
los datos ordenados de
mayor a menor)
Moda
Mo: Valor con
mayor frecuencia
dispersión
Varianza
Desviación media
Desviación típica
Coeficientes de variación
asimetría
Momento de orden r
respecto a c
curtosis
7. 1.1. Estadística clásicaEstadística clásica
1-7
Distribuciones de probabilidadDistribuciones de probabilidad
Función de densidad para una
variable continua:
covarianza
Función de
distribución:
Función de probabilidad para
una variable discreta:
Función de
distribución:
media (esperanza matemática) varianza
8. 1.1. Estadística clásicaEstadística clásica
1-8
Distribuciones discretas de probabilidadDistribuciones discretas de probabilidad
Distribución Binomial
Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo)
donde
Media: Desviación típica:
Distribución de Poisson
Probabilidad de que se den x sucesos (λ = número medio de sucesos)
Media: Desviación típica:
donde
9. 1.1. Estadística clásicaEstadística clásica
1-9
Distribución normalDistribución normal
Media: µ Desviación típica: σ
Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con
medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la
variables Y = X1 + X2 + …+ Xn, entonces la variable:
Ej. la distribución binomial tiende a
la distribución normal:
cuando
Normal
tipificada:
Ej. la distribución de Poisson tiende
a la distribución normal:
10. 1.1. Estadística clásicaEstadística clásica
1-10
Estimación de parámetros poblacionalesEstimación de parámetros poblacionales
Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores
puntuales:
Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un
valor del parámetro poblacional:
El estimador de máxima verosimilitud es
el valor de α que hace máximo L
Ejemplo: para una distribución normal:
La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los
valores de la muestra) con funciones de probabilidad conocidas
Estimación puntual Estimación por intervalos de confianza
11. 1.1. Estadística clásicaEstadística clásica
1-11
DistribucionesDistribuciones muestralesmuestrales de los estadísticosde los estadísticos
Distribución muestral de la media: Si es la media de una muestra aleatoria de
tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2,
entonces la variable tipificada:
tiende a una normal N(0,1) cuando n tiende a infinito
Dsitribución muestral de la diferencia de medias: Si y son las medias
muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:
tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito
sigue una distribución
con n-1 grados de libertad
sigue una distribución t de
Student con n-1 grados
de libertad
sigue una distribución F
de Fisher con n1-1 y n2-1
grados de libertad
Distribución muestral
de la varianza:
El estadístico t:
Distribución muestral de
la razón de varianzas:
12. 1.1. Estadística clásicaEstadística clásica
1-12
Estimación por intervalos de confianzaEstimación por intervalos de confianza
Ejemplo: media de una población normal
Si la desviación típica es desconocida:
Muestras grandes (n > 30) Muestras pequeñas
(significado del intervalo de confianza)
nivel de confianza
15. 1.1. Estadística clásicaEstadística clásica
1-15
Contrastes de hipótesisContrastes de hipótesis
Contraste bilateral
α: nivel de
significación
región crítica región crítica región crítica
región de
aceptación
región de
aceptación
región de
aceptación
Contrastes unilaterales
Formulación de las hipótesis:
Hipótesis nula (H0) vs Hipótesis alternativa (H1)
• Aceptación de la hipótesis nula los datos no están en contra
• Rechazo de la hipótesis nula los datos indican que es improbable que sea cierta
Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta
Ejemplo: media de una población normal
19. 1.1. Estadística clásicaEstadística clásica
1-19
Métodos noMétodos no paramétricosparamétricos
Métodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución
de probabilidad conocida (normal). El problema es determinar los parámetros de la
población (ej. µ, σ)
Métodos de distribución libre o NO paramétricos: no se supone ninguna
distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala
asignando rangos (análisis de rangos).
VENTAJAS
• En general no se conoce la distribución
de probabilidad (el teorema del límite
central puede no aplicarse).
• Menos suposiciones sobre los datos.
• Válidos para muestras muy pequeñas.
• Sirven para datos no numéricos
(variables cualitativas y de rango).
• Respuestas rápidas con menos cálculos.
• La conversión a rangos elimina
incertidumbres con la escala.
• A veces no existe la población (no hay
parámetros que estimar).
DESVENTAJAS
• No usan toda la información disponible.
• Al no haber parámetros, es difícil hacer
estimaciones cuantitativas.
• Son algo menos eficientes: (para
rechazar la hipótesis nula con el mismo
nivel de confianza se necesitan muestras
mayores)
Eficiencia relativa asintótica:
para tomar la decisión con el mismo α
(típicamente: ARE entre 0.6 y 0.95)
(Ante la duda es más seguro usar métodos
no paramétricos)