Una breve introduzione ad Elsa Morante, vita e opere
7 inferenza statisticae-statisticadescrittiva
1. Inferenza statistica e statistica
descrittiva
Lucio Fontana - Expectations (MoMA), 1959
Riccardo Rigon
Tuesday, March 6, 12
2. “`E ’na cosa
che serve pe’ fa’ un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che
sposa.”
Trilussa
Tuesday, March 6, 12
3. “There are three kinds of lies:
•lies,
•damn lies,
and
•statistics”
(Benjamin Disraeli/Mark Twain)
Tuesday, March 6, 12
4. Misura e Rappresentazione delle Grandezze Idrologiche
Obbiettivi:
•In queste pagine si ricordano gli elementi fondanti dell’analisi statistica.
•Si definiscono, popolazione, campione e varie statistiche elementari, media,
varianza, covarianza.
•Si discute dell’esistenza delle statistiche e del loro valore.
•Si introduce il concetto di campione casuale (random sampling).
4
Riccardo Rigon
Tuesday, March 6, 12
5. Statistiche
Popolazione e Campione
L’inferenza statistica assume che un insieme di dati rappresenti un
sottoinsieme di casi tra tutti i possibili, normalmente detto
campione.
Tutti i casi possibili rappresentano la
popolazione
da cui l’insieme di dati è stato estratto. Il campione è noto. La popolazione,
in genere no. Sulla popolazione, è sempre implicito, si fanno delle ipotesi.
5
Riccardo Rigon
Tuesday, March 6, 12
6. Statistiche
Analisi Esplorativa dei dati
rappresentazione temporale - istogramma
Un insieme di n dati costituisce dunque un campione di dati.
a) Bergen:Sep temperature
15
14
Temperature (oC)
13
12
11
10
9
8
1860 1880 1900 1920 1940 1960 1980 2000
time
b) Bergen:Sep temperature distribution (1861−1997)
30
25
20
Frequency
15
10
5
0
5 6 7 8 9 10 11 12 13 14 15
Temperature (oC)
Tali dati possono essere rappresentati in vari modi. Ogni forma di
rappresentazione ne mette in rilievo alcune caratteristiche. 6
Riccardo Rigon
Tuesday, March 6, 12
7. Statistiche
Analisi Esplorativa dei dati
rappresentazione temporale - istogramma
Un insieme di n dati costituisce dunque un campione di dati.
a) Bergen:Sep temperature
15
14
Serie
Temperature (oC)
13
temporale
12
11
10
9
8
1860 1880 1900 1920 1940 1960 1980 2000
time
b) Bergen:Sep temperature distribution (1861−1997)
30
25
20
Frequency
15
10
5
0
5 6 7 8 9 10 11 12 13 14 15
Temperature (oC)
Tali dati possono essere rappresentati in vari modi. Ogni forma di
rappresentazione ne mette in rilievo alcune caratteristiche. 6
Riccardo Rigon
Tuesday, March 6, 12
8. Statistiche
Analisi Esplorativa dei dati
rappresentazione temporale - istogramma
Un insieme di n dati costituisce dunque un campione di dati.
a) Bergen:Sep temperature
15
14
Serie
Temperature (oC)
13
temporale
12
11
10
9
8
1860 1880 1900 1920 1940 1960 1980 2000
time
b) Bergen:Sep temperature distribution (1861−1997)
30
25
20
Frequency
Istogramma 15
10
5
0
5 6 7 8 9 10 11 12 13 14 15
Temperature (oC)
Tali dati possono essere rappresentati in vari modi. Ogni forma di
rappresentazione ne mette in rilievo alcune caratteristiche. 6
Riccardo Rigon
Tuesday, March 6, 12
9. Statistiche
Medie campionarie
Assegnato il campione, possono essere calcolati varie statistiche. Per
esempio:
n
1
x :=
¯ x,t Media temporale
n t=1
n
1
< x >:= xi Media spaziale
n i=1
La media è un indicatore di posizione
7
Riccardo Rigon
Tuesday, March 6, 12
10. Inferenza statistica e statistica descrittiva
Inferenza statistica
Corrado Caudek
8
Riccardo Rigon
Tuesday, March 6, 12
11. Inferenza statistica e statistica descrittiva
Inferenza statistica
•L’inferenza statistica è il processo che consente di formulare delle
conclusioni relative ad una popolazione sulla base di un campione di
osservazioni estratte a caso dalla popolazione
Corrado Caudek
8
Riccardo Rigon
Tuesday, March 6, 12
12. Inferenza statistica e statistica descrittiva
Inferenza statistica
•L’inferenza statistica è il processo che consente di formulare delle
conclusioni relative ad una popolazione sulla base di un campione di
osservazioni estratte a caso dalla popolazione
•Centrale all’inferenza statistica classica è la nozione di distribuzione
campionaria, ovvero come variano le statistiche dei campioni, se i campioni
casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla
popolazione
Corrado Caudek
8
Riccardo Rigon
Tuesday, March 6, 12
13. Inferenza statistica e statistica descrittiva
Inferenza statistica
•L’inferenza statistica è il processo che consente di formulare delle
conclusioni relative ad una popolazione sulla base di un campione di
osservazioni estratte a caso dalla popolazione
•Centrale all’inferenza statistica classica è la nozione di distribuzione
campionaria, ovvero come variano le statistiche dei campioni, se i campioni
casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla
popolazione
•Anche se, in ciascuna applicazione pratica dell’inferenza statistica, il
ricercatore dispone solamente di un unico campione casuale di grandezza n,
Corrado Caudek
la possibilità che il campionamento venga ripetuto fornisce la fondazione
concettuale per decidere quanto il campione osservato sia informativo della
popolazione nel suo complesso
8
Riccardo Rigon
Tuesday, March 6, 12
14. Statistiche
Analisi Esplorativa dei dati
La media non è l’unico indicatore di posizione
Mode
9
Riccardo Rigon
Tuesday, March 6, 12
15. Statistiche
Mediana e Moda
La moda rappresenta il valore più frequente.
10
Riccardo Rigon
Tuesday, March 6, 12
16. Statistiche
Mediana e Moda
La moda rappresenta il valore più frequente.
Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la
questione rischia di essere controversa, si dice che i dati sono
multimodali.
10
Riccardo Rigon
Tuesday, March 6, 12
17. Statistiche
Mediana e Moda
La moda rappresenta il valore più frequente.
Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la
questione rischia di essere controversa, si dice che i dati sono
multimodali.
La mediana rappresenta il valore dei dati tale per cui il 50% dei dati ha
valore inferiore ad esso e (ovviamente!) l’altro 50% ha un valore ad esso
superiore.
10
Riccardo Rigon
Tuesday, March 6, 12
18. Statistiche
La distribuzione empirica dei dati
Assegnato l’insieme di dati
hi = {h1 , · · ·, hn }
e prodotto da esso l’insieme ordinato in modo crescente
ˆ ˆ ˆ ˆ ˆ ˆ
hj = (h1 , · · ·, hn ) h1 ⇥ h2 ⇥ · ⇥ hn
La distribuzione cumulata dei dati è definita da
i
ˆ 1
ECDFi (h) := j
n j=1 11
Riccardo Rigon
Tuesday, March 6, 12
19. Statistiche
ECDF
La distribuzione cumulativa empirica può essere rappresentata come illustrato. Il
valore in ordinate individuato dalla curva si dice anche frequenza di non
superamento o quantile Frequenza di non superamento
1.0 ●
●
●
●
●
●
●
●
●
●
0.8
●
●
●
●
●
●
●
●
●
0.6
●
●
P[H<h]
●
●
●
●
●
●
●
0.4
●
●
●
●
●
●
●
●
0.2
●
●
●
●
●
●
●
●
●
0.0
20 40 60 80
12
h[mm]
Riccardo Rigon
Tuesday, March 6, 12
20. Statistiche
ECDF
Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.
Frequenza di non superamento
1.0 ●
●
●
●
●
●
●
●
●
●
0.8
●
●
●
●
●
●
●
●
●
0.6
●
●
P[H<h]
●
0.5 quantile ●
●
●
●
●
●
0.4
●
●
●
●
●
●
●
●
0.2
●
●
●
●
●
●
●
●
●
0.0
20 40 60 80
13
h[mm]
Riccardo Rigon
Tuesday, March 6, 12
21. Statistiche
ECDF
Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.
Frequenza di non superamento
1.0 ●
●
●
●
●
●
●
●
●
●
0.8
●
●
●
●
●
●
●
●
●
0.6
●
●
P[H<h]
●
0.5 quantile ●
●
●
●
●
●
0.4
●
●
●
●
●
●
●
●
0.2
●
●
●
●
●
●
●
●
●
0.0
20 40 60 80
14
h[mm]
Riccardo Rigon
Tuesday, March 6, 12
23. Statistiche
Diagrammi a scatola
La procedura puo’ essere generalizzata e rappresentata da un diagramma a scatola
Frequenza di non superamento
1.0
●
●
●
●
●
●
●
●
●
●
0.8
●
0.75 quantile
●
●
●
●
●
●
●
●
0.6
●
●
0.5 quantile P[H<h]
●
●
●
●
●
●
●
0.4 ●
●
0.25 quantile
●
●
●
●
●
●
0.2
●
●
●
●
●
●
●
●
●
0.0
20 40 60 80
h[mm]
“baffo”
16
Il diagramma a scatola è un’altra forma di rappresentazione della distribuzione dei dati
Riccardo Rigon
Tuesday, March 6, 12
24. Statistiche
Parametri e statistiche
Un parametro è un numero che descrive un qualche aspetto della
popolazione.
• Per esempio, la precipitazione media annuale (vera) in una stazione di
misura è un parametro. Supponiamo che tale media sia
µh = 980 mm
• In qualsiasi situazione concreta, i parametri sono sconosciuti
Corrado Caudek
17
Riccardo Rigon
Tuesday, March 6, 12
25. Statistiche
Parametri e statistiche
Una statistica è un numero che può essere calcolato utilizzando i dati
forniti da un campione, senza alcuna conoscenza dei parametri della
popolazione.
• Supponiamo, per esempio che il campione casuale di precipitazioni
copra 30 anni di misura e la precipitazione media risultante sia
¯
h = 1002 mm
Corrado Caudek
• Tale media, è una statistica.
18
Riccardo Rigon
Tuesday, March 6, 12
26. Statistiche
Altre statistiche: il Range
Rx := max(x) min(x)
Il range è il più semplice indicatore della distribuzione dei dati. E’ un indicatore
della scala dei dati. Tuttavia dipende da soli due dati e non tiene conto degli
altri n-2 che compongono il campione.
19
Riccardo Rigon
Tuesday, March 6, 12
27. Statistiche
Altre statistiche: Varianza e Deviazione
Standard
n
1
V ar(x) := (xi x)
¯
n i=1
⌅
⇤ n
⇤1
x := ⇥ (xi x)
¯
n i=1
La varianza è un indicatore di “scala” che usa tutti i dati del campione
20
Riccardo Rigon
Tuesday, March 6, 12
28. Statistiche
Altre statistiche: Varianza e Deviazione
Standard:
versione “corretta” (unbiased)
n
1
V ar(x) := (xi x)
¯
n 1 i=2
⌅
⇤ n
⇤ 1
x := ⇥ (xi x)
¯
n 1 i=1
La versione unbiased della varianza, tiene conto del fatto che solo n-1 dei
valori sono indipendenti, essendo fissata la loro media. 21
Riccardo Rigon
Tuesday, March 6, 12
29. Statistiche
Coefficiente di variazione
• Il coefficiente di variazione di un campione di dati è il rapporto tra la
deviazione standard e la media:
x
CVx :=
¯
x
• Tanto più alta è il cofficiente di variazione, tanto meno la media è
informativa e indicatrice dell’andamento futuro di una certa
popolazione.
22
Riccardo Rigon
Tuesday, March 6, 12
30. Statistiche
Altre statistiche: Coefficiente di forma o
skewness:
n
⇤1 ⇥3
xi x ¯
skx :=
i=1
n x
Misura l’assimetria della distribuzione di dati
Coefficiente di appiattimento o kurtosis:
n
⇤ ⇥4
1 xi ¯
x
kx := 3 +
i=1
n x
23
Riccardo Rigon
Tuesday, March 6, 12
31. Statistiche
Stima e test di ipotesi
Solitamente, non si è interessati alle statistiche in se, ma a quello che
le statistiche dicono della popolazione.
• Potremmo, as esempio, usare la media delle precipitazioni annuali
misurate in tutte le stazioni idrometeorologiche per stimare la
precipitazione media annuale su tutta la penisola italiana.
• Oppure potremmo usare la media del campione per stabilire se la
precipitazione media annuale sia mutata lungo la durata del campione.
24
Riccardo Rigon
Tuesday, March 6, 12
32. Statistiche
Stima e test di ipotesi
Questi due tipi di domande sono propri dei due principali approcci
all’inferenza statistica classica
• La stima dei parametri
• Il test di ipotesi statistiche
25
Riccardo Rigon
Tuesday, March 6, 12
33. Statistiche
Variabilità campionaria
Un aspetto fondamentale delle statistiche campionarie riguarda il
fatto che variano da campione a campione. Nel caso delle
precipitazioni annuali, sarebbe molto improbabile che la media del
campione coincidesse con il valore di 1002 mm della media della
popolazione.
26
Riccardo Rigon
Tuesday, March 6, 12
34. Statistiche
Variabilità campionaria
• La variabilità di una statistica campionaria da campione a campione è
detta variabilità campionaria.
– Quando la variabilità campionaria è molto grande, il campione è
poco informativo, a proposito del parametro della popolazione.
– Quando la variabilità campionaria è piccola, invece la statistica e
informativa, anche se è praticamente impossibile che la statistica
di un qualsiasi campione sia esattamente uguale al parametro della
popolazione.
27
Riccardo Rigon
Tuesday, March 6, 12
35. Inferenza statistica e statistica descrittiva
2 Simulazione 1
2 Simulazione 1
La variabilit` campionaria verr` illustrata nel modo seguente:
a a
1. verr` considerata una variabile discreta che pu` assumere soltanto
a o
un piccolo numero di valori possibili (N = 4);
2. verr` fornito l’elenco di tutti i possibili campioni di grandezza n = 2;
a
3. verr` calcolata la media di ciascuno dei possibili campioni di
a
grandezza n = 2;
4. verr` esaminata la distribuzione delle medie di tutti i possibili
a
campioni di grandezza n = 2.
La media µ e la varianza della popolazione verranno calcolate.
¯
• µ e sono dei parametri, mentre la media xi e la varianza s2 di
i
ciascun campione sono delle statistiche.
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 8
28
Riccardo Rigon
Tuesday, March 6, 12
36. Inferenza statistica e statistica descrittiva
2 Simulazione 1
• L’esperimento di questo esempio consiste in n = 2 estrazioni con
rimessa di una pallina xi da un’urna che contiene N = 4 palline.
• Le palline sono numerate nel modo seguente:
{2, 3, 5, 9}
• L’estrazione con rimessa corrisponde ad una popolazione di
grandezza infinita (` sempre possibile infatti estrarre una nuova
e
pallina dall’urna).
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 9
29
Riccardo Rigon
Tuesday, March 6, 12
37. Inferenza statistica e statistica descrittiva
2 Simulazione 1
Per ciascun campione di grandezza n = 2 viene calcolata la media dei
2
valori delle palline estratte x = i=1 xi /2.
¯
• Per esempio, se le palline estratte sono x1 = 2 e x2 = 3, allora
x = (2 + 3)/2 = 5/2 = 2.5
¯
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 10
30
Riccardo Rigon
Tuesday, March 6, 12
38. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
2.1 Tre distribuzioni
Dobbiamo distinguere tre distribuzioni:
1. la distribuzione della popolazione,
2. la distribuzione di un particolare campione,
3. la distribuzione campionaria delle medie di tutti i possibili campioni.
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 11
31
Riccardo Rigon
Tuesday, March 6, 12
39. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
2.1.1 Distribuzione della popolazione
Distribuzione della popolazione: la distribuzione di X (il valore della
pallina estratta) nella popolazione. In questo caso la popolazione `
e
infinita e ha la seguente distribuzione di probabilit`:
a
xi pi
1
2 4
1
3 4
1
5 4
1
9 4
somma 1.0
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 12
32
Riccardo Rigon
Tuesday, March 6, 12
40. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
• La media della popolazione `
e
µ= xi pi = 4.75
• La varianza della popolazione `
e
2
= (xi µ)2 pi = 7.1875
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 13
33
Riccardo Rigon
Tuesday, March 6, 12
41. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
2.1.2 Distribuzione di un campione
Distribuzione di un campione: la distribuzione di X in un particolare
campione.
• Per esempio, se x1 = 2 e x2 = 3, allora la media di questo campione
sar` x = 2.5 e la varianza sar` s2 = 0.5.
a¯ a
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 14
34
Riccardo Rigon
Tuesday, March 6, 12
42. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
2.1.3 Distribuzione campionaria della media
Distribuzione campionaria della media: la distribuzione delle medie di
tutti i possibili campioni.
• Se n = 2, ci sono 4 4 = 16 possibili campioni. Possiamo dunque
elencarli, insieme alle loro medie.
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 15
35
Riccardo Rigon
Tuesday, March 6, 12
43. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
campione media xi
¯ campione media xi
¯
{2, 3} 2.5 {3, 2} 2.5
{5, 2} 3.5 {2, 5} 3.5
{9, 2} 5.5 {2, 9} 5.5
{5, 3} 4.0 {3, 5} 4.0
{9, 3} 6.0 {3, 9} 6.0
{9, 5} 7.0 {5, 9} 7.0
{2, 2} 2 {3, 3} 3
{5, 5} 5 {9, 9} 9
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 16
36
Riccardo Rigon
Tuesday, March 6, 12
44. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
La distribuzione campionaria della media ha la seguente distribuzione di
probabilit`:
a
xi
¯ pi
2.0 1/16
2.5 2/16
3.0 1/16
3.5 2/16
4.0 2/16
5.0 1/16
5.5 2/16
6.0 2/16
7.0 2/16
9.0 1/16
somma 1.0
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 17
37
Riccardo Rigon
Tuesday, March 6, 12
45. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
• La media della distribuzione campionaria della media `
e
µx =
¯ xi pi = 4.75
¯
• La varianza della distribuzione campionaria della media `
e
2
x
¯ = (¯i
x µx )2 pi = 3.59375
¯
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 18
38
Riccardo Rigon
Tuesday, March 6, 12
46. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
• L’esercizio presente ha a che fare con una situazione particolare,
quella in cui la distribuzione della popolazione ` conosciuta.
e
• In pratica, la distribuzione della popolazione non ` mai conosciuta.
e
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 19
39
Riccardo Rigon
Tuesday, March 6, 12
47. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
Con questo esercizio possiamo per` di notare come la distribuzione
o
campionaria della media possieda due importanti propriet`.
a
• La media µx della distribuzione campionaria della media ` uguale
¯ e
alla media della popolazione µ.
2
• La varianza x della distribuzione campionaria della media ` uguale
¯ e
al rapporto tra la varianza della popolazione 2 e la numerosit` n
a
del campione:
2
7.1875
2
= = = 3.59375
x
¯
n 2
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 20
40
Riccardo Rigon
Tuesday, March 6, 12
48. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
Si noti che:
1. la media e la varianza della distribuzione campionaria sono
determinate dalla media e varianza della popolazione:
2
µx = µ
¯
2
x
¯ =
n
2. la varianza della distribuzione campionaria della media ` pi` piccola
e u
della varianza della popolazione.
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 21
41
Riccardo Rigon
Tuesday, March 6, 12
49. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
In seguito utilizzeremo le propriet` della distribuzione campionaria per
a
fare delle inferenze a proposito dei parametri della popolazione anche
quando la distribuzione della popolazione non ` conosciuta.
e
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 22
42
Riccardo Rigon
Tuesday, March 6, 12
50. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
Tre distribuzioni
Si noti inoltre che abbiamo distinto tra tre diverse distribuzioni.
1. Distribuzione della popolazione:
= {2, 3, 5, 9}, µ = 4.75, 2
= 7.1875
2. Distribuzione di un particolare campione:
i = {2, 3}, x = 2.5, s2 = 0.5
¯
3. Distribuzione campionaria della media:
x
¯= {2.5, 3.5, 5.5, 4, 6, 7, 2.5, 3.5, 4, 6, 7, 2, 5, 3, 9},
µx = 4.75, x = 3.59375
¯
2
¯
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 23
43
Riccardo Rigon
Tuesday, March 6, 12
51. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
Distribuzione della popolazione La distribuzione che contiene
tutte le osservazioni. Media e varianza di questa distribuzione si
indicano con µ e 2 .
Distribuzione del campione La distribuzione dei valori della
popolazione che fanno parte di un particolare campione casuale di
grandezza n. Le singole osservazioni si indicano con x1 , . . . , xn , e
¯
hanno media x e varianza s2 .
Distribuzione campionaria delle medie dei campioni La
¯
distribuzione di xi per tutti i possibili campioni di grandezza n che si
possono estrarre dalla popolazione considerata. Media e varianza
2
della distribuzione campionaria della media si indicano con µx e x .
¯ ¯
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 24
44
Riccardo Rigon
Tuesday, March 6, 12
52. Inferenza statistica e statistica descrittiva
2.1 Tre distribuzioni 2 Simulazione 1
La distribuzione che sta alla base dell’inferenza statistica ` la
e
distribuzione campionaria.
Definizione: la distribuzione campionaria di una statistica ` la
e
distribuzione dei valori che quella statistica assume in tutti i
campioni di numerosit` n che possono essere estratti dalla
a
popolazione.
• Si noti che, se in una simulazione consideriamo un numero di
campioni minore di quello che teoricamente ` possibile, la
e
distribuzione risultante ci fornir` soltanto un’approssimazione alla
a
vera distribuzione campionaria.
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 25
45
Riccardo Rigon
Tuesday, March 6, 12
53. Inferenza statistica e statistica descrittiva
Stima e test di ipotesi
Avendo creato statistiche differenti, possiamo fare alcune ipotesi. Per
esempio:
• I campioni hanno tutti la medesima media e la medesima varianza ?
• La media dipende dalla numerosità del campione ?
• La varianza dipende dalla numerosità del campione ?
46
Riccardo Rigon
Tuesday, March 6, 12
54. Inferenza statistica e statistica descrittiva
Stima e test di ipotesi
Se i campioni non hanno la medesima media, può essere presente una
tendenza.
47
Riccardo Rigon
Tuesday, March 6, 12
55. Inferenza statistica e statistica descrittiva
Stima e test di ipotesi
La varianza può variare con la numerosità del campione !
Se non si stabilizza all’aumentare dei dati del campione, si dice che i dati
presentano la “sindrome della varianza infinita”.
48
Riccardo Rigon
Tuesday, March 6, 12
56. Inferenza statistica e statistica descrittiva
Ipotesi Zero (Nulla)
Sui test di ipotesi avremo la possibilità di entrare nel dettaglio in
lezioni successive.
• In genere si ricordi, che è non è possibile provare con certezza
alcunchè. Una ipotesi si può tentare di provare che non sia vera. Sia
H0 l’ipotesi zero da provare.
• Se non si riesce a scartare H0 , allora si può affermare che “sia vera”
con un certo grado di confidenza
49
Riccardo Rigon
Tuesday, March 6, 12
57. Inferenza statistica e statistica descrittiva
Altre statistiche
Covarianza
Assegnate due serie di dati, per esempio
hi = {h1 , · · ·, hn } ed li = {l1 , · · ·, ln }
La covarianza tra queste de serie di dati è definita da:
n
1 ¯i )(hi ¯
Cov(hi , li ) := (li l hi )
N 1 1
50
Riccardo Rigon
Tuesday, March 6, 12
58. Inferenza statistica e statistica descrittiva
Altre statistiche
Correlazione
Assegnate due serie di dati, per esempio
hi = {h1 , · · ·, hn } ed li = {l1 , · · ·, ln }
La correlazione tra queste de serie di dati è definita da:
Cov(l, h)
lh :=
⇥h ⇥l
51
Riccardo Rigon
Tuesday, March 6, 12
59. Inferenza statistica e statistica descrittiva
Altre statistiche
Correlazione
Si osservi che, si potrebbe considerare la correlazione tra le due serie
campionarie di ugual lunghezza:
hi = {h1 , · · ·, hn 1} e hi+1 = {h2 , · · ·, hn 1}
Ottenendo
n 1
1 ¯ ¯
Cov(hi , hi+1 ) := (hi hi )(hi+1 hi+1 )
N 1 j=1
52
Riccardo Rigon
Tuesday, March 6, 12
60. Inferenza statistica e statistica descrittiva
Altre statistiche
Correlazione
Ripetendo l’operazione per le serie via via ridotte di lunghezza e separate
da r istanti, si ottiene:
r
hi = {h1 , · · ·, hn r} e hi+r = {hr , · · ·, hn }
Ottenendo
n r
1 ¯ r )(hi+r ¯
Cov(hi , hi+r )
r
:= (hi
r
hi hi+r )
N 1 j=1
Cov(hr , hi+r )
(hi , hi+r ) :=
r i
⇥i ⇥i + r
r
53
Riccardo Rigon
Tuesday, March 6, 12
61. Inferenza statistica e statistica descrittiva
Altre statistiche
Autocorrelazione
54
Riccardo Rigon
Tuesday, March 6, 12
62. Inferenza statistica e statistica descrittiva
Campioni Casuali
Random Sample
Nella strategia di creare ed analizzare i campioni di dati, ha un ruolo importante la
selezione (o, talvolta, la generazione) di campioni casuali.
Un campione casuale di n eventi scelto da una popolazione è tale se la probabilità di
tale campione di essere prescelto è la stessa di ogni altro campione della medesima
numerosità.
Se i dati sono generati, si sta effettuando un esperimento casuale. Esempi ne sono:
•il lancio di una moneta
•il conteggio dei giorni piovosi in un anno
•il conteggio dei giorni in cui si sia misurata a Ponte S. Lorenzo di Trento una
portata superiore ad un valore prefissato.
Riccardo Rigon
Tuesday, March 6, 12
63. Inferenza statistica e statistica descrittiva
3 Simulazione 2
3 Simulazione 2
Consideriamo ora un’altro esempio in cui la variabilit` campionaria verr`
a a
illustrata nel modo seguente:
1. la stessa popolazione dell’esempio precedente verr` usata;
a
2. utilizzando R, verranno estratti con rimessa da questa popolazione
50000 campioni causali di grandezza n = 2;
3. verr` calcolata la media di ciascuno di questi campioni di grandezza
a
n = 2;
4. verranno calcolate la media e la varianza della distribuzione delle
medie dei 50000 campioni di grandezza n = 2.
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 26
56
Riccardo Rigon
Tuesday, March 6, 12
64. Inferenza statistica e statistica descrittiva
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T)
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
57
Riccardo Rigon
Tuesday, March 6, 12
65. Inferenza statistica e statistica descrittiva
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T)
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
57
Riccardo Rigon
Tuesday, March 6, 12
66. Inferenza statistica e statistica descrittiva
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
Media e Varianza del Campione
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T)
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
57
Riccardo Rigon
Tuesday, March 6, 12
67. Inferenza statistica e statistica descrittiva
3 Simulazione 2
N <- 4
n <- 2
nSamples <- 50000
X <- c(2, 3, 5, 9)
Mean <- mean(X)
Var <- var(X)*(N-1)/N
Media e Varianza del Campione
SampDistr <- rep(0, nSamples)
for (i in 1:nSamples){
samp <- sample(X, n, replace=T) Sono fatti 50000 campioni
SampDistr[i] <- mean(samp)
}
MeanSampDistr <- mean(SampDistr)
VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 27
57
Riccardo Rigon
Tuesday, March 6, 12
68. Inferenza statistica e statistica descrittiva
3 Simulazione 2
Risultati della simulazione
> Mean
[1] 4.75
> Var
[1] 7.1875
> MeanSampDistr
[1] 4.73943
> VarSampDistr
[1] 3.578548
> Var/n
[1] 3.59375
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 28
58
Riccardo Rigon
Tuesday, March 6, 12
69. Inferenza statistica e statistica descrittiva
3 Simulazione 2
• Popolazione: µ = 4.75, 2
= 7.1875.
• Distribuzione campionaria della media: µx = 4.75,
¯
2
x
¯ = 3.59375.
• Risultati della simulazione: µx = 4.73943, ˆx = 3.578548.
ˆ¯ 2
¯
Corrado Caudek
Tecniche di Ricerca Psicologica e di Analisi dei Dati 29
59
Riccardo Rigon
Tuesday, March 6, 12
70. Inferenza statistica e statistica descrittiva
Grazie per l’attenzione!
G.Ulrici - Uomo dope aver lavorato alle slides , 2000 ?
60
Riccardo Rigon
Tuesday, March 6, 12
71. Inferenza statistica e statistica descrittiva
http://www.treccani.it/scuola/dossier/2010/statistica/d_agostini.html
61
Riccardo Rigon
Tuesday, March 6, 12