SlideShare una empresa de Scribd logo
1 de 71
Descargar para leer sin conexión
Inferenza statistica e statistica
                                 descrittiva


                          Lucio Fontana - Expectations (MoMA), 1959




                                                                      Riccardo Rigon

Tuesday, March 6, 12
“`E ’na cosa

                       che serve pe’ fa’ un conto in generale

                       de la gente che nasce, che sta male,

                       che more, che va in carcere e che
                       sposa.”


                       Trilussa




Tuesday, March 6, 12
“There are three kinds of lies:
                       •lies,
                       •damn lies,
                        and
                       •statistics”
                       (Benjamin Disraeli/Mark Twain)




Tuesday, March 6, 12
Misura e Rappresentazione delle Grandezze Idrologiche




                                                   Obbiettivi:


        •In queste pagine si ricordano gli elementi fondanti dell’analisi statistica.

        •Si definiscono, popolazione, campione e varie statistiche elementari, media,
        varianza, covarianza.

        •Si discute dell’esistenza delle statistiche e del loro valore.

        •Si introduce il concetto di campione casuale (random sampling).




                                                                                        4


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                              Popolazione e Campione

          L’inferenza statistica assume che un insieme di dati rappresenti un
          sottoinsieme di casi tra tutti i possibili, normalmente detto


          campione.


          Tutti i casi possibili rappresentano la


          popolazione


          da cui l’insieme di dati è stato estratto. Il campione è noto. La popolazione,
          in genere no. Sulla popolazione, è sempre implicito, si fanno delle ipotesi.


                                                                                           5


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche



                                Analisi Esplorativa dei dati
                                rappresentazione temporale - istogramma

                       Un insieme di n dati costituisce dunque un campione di dati.
                                                                                        a) Bergen:Sep temperature
                                                     15

                                                     14




                                  Temperature (oC)
                                                     13

                                                     12

                                                     11

                                                     10

                                                      9

                                                     8
                                                     1860         1880        1900          1920            1940       1960            1980        2000
                                                                                                     time

                                                                             b) Bergen:Sep temperature distribution (1861−1997)
                                                     30

                                                     25

                                                     20
                                      Frequency




                                                     15

                                                     10

                                                      5

                                                      0
                                                          5   6          7       8         9         10         11     12         13          14    15
                                                                                               Temperature (oC)




               Tali dati possono essere rappresentati in vari modi. Ogni forma di
                   rappresentazione ne mette in rilievo alcune caratteristiche.                                                                           6


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche



                                Analisi Esplorativa dei dati
                                rappresentazione temporale - istogramma

                       Un insieme di n dati costituisce dunque un campione di dati.
                                                                                        a) Bergen:Sep temperature
                                                     15

                                                     14

      Serie
                                  Temperature (oC)
                                                     13



    temporale
                                                     12

                                                     11

                                                     10

                                                      9

                                                     8
                                                     1860         1880        1900          1920            1940       1960            1980        2000
                                                                                                     time

                                                                             b) Bergen:Sep temperature distribution (1861−1997)
                                                     30

                                                     25

                                                     20
                                      Frequency




                                                     15

                                                     10

                                                      5

                                                      0
                                                          5   6          7       8         9         10         11     12         13          14    15
                                                                                               Temperature (oC)




               Tali dati possono essere rappresentati in vari modi. Ogni forma di
                   rappresentazione ne mette in rilievo alcune caratteristiche.                                                                           6


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche



                                Analisi Esplorativa dei dati
                                rappresentazione temporale - istogramma

                       Un insieme di n dati costituisce dunque un campione di dati.
                                                                                        a) Bergen:Sep temperature
                                                     15

                                                     14

      Serie
                                  Temperature (oC)
                                                     13



    temporale
                                                     12

                                                     11

                                                     10

                                                      9

                                                     8
                                                     1860         1880        1900          1920            1940       1960            1980        2000
                                                                                                     time

                                                                             b) Bergen:Sep temperature distribution (1861−1997)
                                                     30

                                                     25

                                                     20
                                      Frequency




  Istogramma                                         15

                                                     10

                                                      5

                                                      0
                                                          5   6          7       8         9         10         11     12         13          14    15
                                                                                               Temperature (oC)




               Tali dati possono essere rappresentati in vari modi. Ogni forma di
                   rappresentazione ne mette in rilievo alcune caratteristiche.                                                                           6


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                      Medie campionarie

                   Assegnato il campione, possono essere calcolati varie statistiche. Per
                                                esempio:
                            n
                    1
               x :=
               ¯                x,t             Media temporale
                    n     t=1


                                 n
                      1
              < x >:=                 xi        Media spaziale
                      n         i=1

                                 La media è un indicatore di posizione

                                                                                            7


  Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Inferenza statistica
   Corrado Caudek




                                                                       8


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Inferenza statistica

                    •L’inferenza statistica è il processo che consente di formulare delle
                    conclusioni relative ad una popolazione sulla base di un campione di
                    osservazioni estratte a caso dalla popolazione
   Corrado Caudek




                                                                                            8


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Inferenza statistica

                    •L’inferenza statistica è il processo che consente di formulare delle
                    conclusioni relative ad una popolazione sulla base di un campione di
                    osservazioni estratte a caso dalla popolazione

                    •Centrale all’inferenza statistica classica è la nozione di distribuzione
                    campionaria, ovvero come variano le statistiche dei campioni, se i campioni
                    casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla
                    popolazione
   Corrado Caudek




                                                                                                  8


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Inferenza statistica

                    •L’inferenza statistica è il processo che consente di formulare delle
                    conclusioni relative ad una popolazione sulla base di un campione di
                    osservazioni estratte a caso dalla popolazione

                    •Centrale all’inferenza statistica classica è la nozione di distribuzione
                    campionaria, ovvero come variano le statistiche dei campioni, se i campioni
                    casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla
                    popolazione


                    •Anche se, in ciascuna applicazione pratica dell’inferenza statistica, il
                    ricercatore dispone solamente di un unico campione casuale di grandezza n,
   Corrado Caudek




                    la possibilità che il campionamento venga ripetuto fornisce la fondazione
                    concettuale per decidere quanto il campione osservato sia informativo della
                    popolazione nel suo complesso
                                                                                                  8


Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                         Analisi Esplorativa dei dati
                       La media non è l’unico indicatore di posizione


                        Mode




                                                                        9


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                       Mediana e Moda

                  La moda rappresenta il valore più frequente.




                                                                 10


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                       Mediana e Moda

                  La moda rappresenta il valore più frequente.



               Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la
               questione rischia di essere controversa,   si dice che i dati sono
               multimodali.




                                                                                     10


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                       Mediana e Moda

                  La moda rappresenta il valore più frequente.



               Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la
               questione rischia di essere controversa,   si dice che i dati sono
               multimodali.


             La mediana rappresenta il valore dei dati tale per cui il 50% dei dati ha
             valore inferiore ad esso e (ovviamente!) l’altro 50% ha un valore ad esso
             superiore.




                                                                                         10


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                       La distribuzione empirica dei dati

     Assegnato l’insieme di dati


      hi = {h1 , · · ·, hn }

     e prodotto da esso l’insieme ordinato in modo crescente

     ˆ     ˆ           ˆ    ˆ    ˆ        ˆ
     hj = (h1 , · · ·, hn ) h1 ⇥ h2 ⇥ · ⇥ hn

      La distribuzione cumulata dei dati è definita da

                               i
            ˆ     1
     ECDFi (h) :=                  j
                  n         j=1                                11


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                                                        ECDF
       La distribuzione cumulativa empirica può essere rappresentata come illustrato. Il
       valore in ordinate individuato dalla curva si dice anche frequenza di non
       superamento o quantile                            Frequenza di non superamento


                                   1.0                                                          ●
                                                                                                         ●
                                                                                           ●
                                                                                          ●
                                                                                      ●
                                                                                     ●
                                                                                    ●
                                                                                   ●
                                                                               ●
                                                                           ●
                                   0.8



                                                                           ●
                                                                          ●
                                                                         ●
                                                                        ●
                                                                        ●
                                                                        ●
                                                                       ●
                                                                       ●
                                                                      ●
                                   0.6




                                                                     ●
                                                                     ●
                          P[H<h]




                                                                    ●
                                                                    ●
                                                                   ●
                                                                   ●
                                                                   ●
                                                               ●
                                                              ●
                                   0.4




                                                              ●
                                                             ●
                                                             ●
                                                            ●
                                                           ●
                                                           ●
                                                          ●
                                                         ●
                                   0.2




                                                        ●
                                                        ●
                                                    ●
                                                ●
                                            ●
                                           ●
                                           ●
                                         ●
                                         ●
                                   0.0




                                         20                            40                      60   80
                                                                                                             12
                                                                                     h[mm]


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                                                        ECDF
       Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.

                                                         Frequenza di non superamento


                                   1.0                                                          ●
                                                                                                         ●
                                                                                           ●
                                                                                          ●
                                                                                      ●
                                                                                     ●
                                                                                    ●
                                                                                   ●
                                                                               ●
                                                                           ●
                                   0.8



                                                                           ●
                                                                          ●
                                                                         ●
                                                                        ●
                                                                        ●
                                                                        ●
                                                                       ●
                                                                       ●
                                                                      ●
                                   0.6




                                                                     ●
                                                                     ●
                          P[H<h]




                                                                    ●

       0.5 quantile                                                ●
                                                                   ●
                                                                   ●
                                                                    ●

                                                               ●
                                                              ●
                                   0.4




                                                              ●
                                                             ●
                                                             ●
                                                            ●
                                                           ●
                                                           ●
                                                          ●
                                                         ●
                                   0.2




                                                        ●
                                                        ●
                                                    ●
                                                ●
                                            ●
                                           ●
                                           ●
                                         ●
                                         ●
                                   0.0




                                         20                            40                      60   80
                                                                                                             13
                                                                                     h[mm]


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                                                        ECDF
       Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate.

                                                         Frequenza di non superamento


                                   1.0                                                          ●
                                                                                                         ●
                                                                                           ●
                                                                                          ●
                                                                                      ●
                                                                                     ●
                                                                                    ●
                                                                                   ●
                                                                               ●
                                                                           ●
                                   0.8



                                                                           ●
                                                                          ●
                                                                         ●
                                                                        ●
                                                                        ●
                                                                        ●
                                                                       ●
                                                                       ●
                                                                      ●
                                   0.6




                                                                     ●
                                                                     ●
                          P[H<h]




                                                                    ●

       0.5 quantile                                                ●
                                                                   ●
                                                                   ●
                                                                    ●

                                                               ●
                                                              ●
                                   0.4




                                                              ●
                                                             ●
                                                             ●
                                                            ●
                                                           ●
                                                           ●
                                                          ●
                                                         ●
                                   0.2




                                                        ●
                                                        ●
                                                    ●
                                                ●
                                            ●
                                           ●
                                           ●
                                         ●
                                         ●
                                   0.0




                                         20                            40                      60   80
                                                                                                             14
                                                                                     h[mm]


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                                                               ECDF
       Ecco dunque individuata la mediana

                                                                Frequenza di non superamento


                                          1.0                                                          ●
                                                                                                                ●
                                                                                                  ●
                                                                                                 ●
                                                                                             ●
                                                                                            ●
                                                                                           ●
                                                                                          ●
                                                                                      ●
                                                                                  ●
                                          0.8



                                                                                  ●
                                                                                 ●
                                                                                ●
                                                                               ●
                                                                               ●
                                                                               ●
                                                                              ●
                                                                              ●
                                                                             ●
                                          0.6




                                                                            ●
                                                                            ●
                                 P[H<h]




                                                                           ●

       0.5 quantile                                                       ●
                                                                          ●
                                                                          ●
                                                                           ●

                                                                      ●
                                                                     ●
                                          0.4




                                                                     ●
                                                                    ●
                                                                    ●
                                                                   ●
                                                                  ●
                                                                  ●
                                                                 ●
                                                                ●
                                          0.2




                                                               ●
                                                               ●
                                                           ●
                                                       ●
                                                   ●
                                                  ●
                                                  ●
                                                ●
                                                ●
                                          0.0




                       mediana                  20                            40                      60   80
                                                                                                                    15
                                                                                            h[mm]


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                       Diagrammi a scatola
   La procedura puo’ essere generalizzata e rappresentata da un diagramma a scatola
                                                                        Frequenza di non superamento




                                                  1.0
                                                                                                                        ●
                                                                                                               ●
                                                                                                          ●
                                                                                                         ●
                                                                                                     ●
                                                                                                    ●
                                                                                                   ●
                                                                                                  ●
                                                                                              ●
                                                                                          ●




                                                  0.8
                                                                                          ●



                       0.75 quantile
                                                                                         ●
                                                                                        ●
                                                                                       ●
                                                                                       ●
                                                                                       ●
                                                                                      ●
                                                                                      ●
                                                                                     ●




                                                  0.6
                                                                                    ●
                                                                                    ●


                       0.5 quantile      P[H<h]
                                                                                   ●
                                                                                   ●
                                                                                  ●
                                                                                  ●
                                                                                  ●
                                                                              ●
                                                                             ●

                                                  0.4                       ●
                                                                             ●




                       0.25 quantile
                                                                            ●
                                                                           ●
                                                                          ●
                                                                          ●
                                                                         ●
                                                                        ●
                                                  0.2


                                                                       ●
                                                                       ●
                                                                   ●
                                                               ●
                                                           ●
                                                          ●
                                                          ●
                                                        ●
                                                        ●
                                                  0.0




                                                        20                            40                      60   80

                                                                                                    h[mm]




                        “baffo”


                                                                                                                            16
       Il diagramma a scatola è un’altra forma di rappresentazione della distribuzione dei dati

  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                        Parametri e statistiche

                      Un parametro è un numero che descrive un qualche aspetto della
                      popolazione.



                    • Per esempio, la precipitazione media annuale (vera) in una stazione di
                      misura è un parametro. Supponiamo che tale media sia


                              µh = 980 mm
                    • In qualsiasi situazione concreta, i parametri sono sconosciuti
   Corrado Caudek




                                                                                               17


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                        Parametri e statistiche

                      Una statistica è un numero che può essere calcolato utilizzando i dati
                      forniti da un campione, senza alcuna conoscenza dei parametri della
                      popolazione.



                    • Supponiamo, per esempio che il campione casuale di precipitazioni
                      copra 30 anni di misura e la precipitazione media risultante sia

                              ¯
                              h = 1002 mm
   Corrado Caudek




                    • Tale media, è una statistica.

                                                                                               18


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                              Altre statistiche: il Range




              Rx := max(x)          min(x)



          Il range è il più semplice indicatore della distribuzione dei dati. E’ un indicatore
          della scala dei dati. Tuttavia dipende da soli due dati e non tiene conto degli
          altri n-2 che compongono il campione.




                                                                                           19


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                         Altre statistiche: Varianza e Deviazione
                                         Standard


                                           n
                                  1
                       V ar(x) :=              (xi    x)
                                                      ¯
                                  n      i=1

                               ⌅
                               ⇤     n
                               ⇤1
                        x   := ⇥           (xi       x)
                                                     ¯
                                 n   i=1



              La varianza è un indicatore di “scala” che usa tutti i dati del campione
                                                                                         20


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                           Altre statistiche: Varianza e Deviazione
                                           Standard:
                                              versione “corretta” (unbiased)


                                                    n
                                          1
                   V ar(x) :=                             (xi    x)
                                                                 ¯
                                      n         1   i=2

                              ⌅
                              ⇤                n
                              ⇤       1
                       x   := ⇥                     (xi     x)
                                                            ¯
                                  n       1   i=1


                La versione unbiased della varianza, tiene conto del fatto che solo n-1 dei
                valori sono indipendenti, essendo fissata la loro media.                    21


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                Coefficiente di variazione

             • Il coefficiente di variazione di un campione di dati è il rapporto tra la
               deviazione standard e la media:



                                 x
                       CVx :=
                                ¯
                                x
             • Tanto più alta è il cofficiente di variazione, tanto meno la media è
               informativa e indicatrice dell’andamento futuro di una certa
                 popolazione.




                                                                                           22


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                       Altre statistiche: Coefficiente di forma o
                                       skewness:
                                          n
                                         ⇤1             ⇥3
                                                 xi x ¯
                                  skx :=
                                         i=1
                                             n      x


             Misura l’assimetria della distribuzione di dati


                        Coefficiente di appiattimento o kurtosis:
                                                n
                                                ⇤                           ⇥4
                                                      1        xi       ¯
                                                                        x
                                  kx := 3 +
                                                i=1
                                                      n             x

                                                                                 23


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                    Stima e test di ipotesi

                 Solitamente, non si è interessati alle statistiche in se, ma a quello che
                 le statistiche dicono della popolazione.


            • Potremmo, as esempio, usare la media delle precipitazioni annuali
                 misurate in tutte le stazioni idrometeorologiche per stimare la
                 precipitazione media annuale su tutta la penisola italiana.


            • Oppure potremmo usare la media del campione per stabilire se la
              precipitazione media annuale sia mutata lungo la durata del campione.



                                                                                             24


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                   Stima e test di ipotesi

                 Questi due tipi di domande sono propri dei due principali approcci
                 all’inferenza statistica classica


            • La stima dei parametri


            • Il test di ipotesi statistiche




                                                                                      25


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                 Variabilità campionaria



                 Un aspetto fondamentale delle statistiche campionarie riguarda il
                 fatto che variano da campione a campione. Nel caso delle
                 precipitazioni annuali, sarebbe molto improbabile che la media del
                 campione coincidesse con il valore di 1002 mm della media della
                 popolazione.




                                                                                      26


  Riccardo Rigon

Tuesday, March 6, 12
Statistiche




                                      Variabilità campionaria


            • La variabilità di una statistica campionaria da campione a campione è
              detta variabilità campionaria.
                   – Quando la variabilità campionaria è molto grande, il campione è
                     poco informativo, a proposito del parametro della popolazione.
                   – Quando la variabilità campionaria è piccola, invece la statistica e
                     informativa, anche se è praticamente impossibile che la statistica
                     di un qualsiasi campione sia esattamente uguale al parametro della
                       popolazione.




                                                                                           27


  Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                                             2      Simulazione 1


                            2     Simulazione 1
                            La variabilit` campionaria verr` illustrata nel modo seguente:
                                         a                 a
                             1. verr` considerata una variabile discreta che pu` assumere soltanto
                                    a                                          o
                                un piccolo numero di valori possibili (N = 4);
                             2. verr` fornito l’elenco di tutti i possibili campioni di grandezza n = 2;
                                    a
                             3. verr` calcolata la media di ciascuno dei possibili campioni di
                                    a
                                grandezza n = 2;
                             4. verr` esaminata la distribuzione delle medie di tutti i possibili
                                    a
                                campioni di grandezza n = 2.
                            La media µ e la varianza      della popolazione verranno calcolate.
                                                                         ¯
                              • µ e sono dei parametri, mentre la media xi e la varianza s2 di
                                                                                          i
                                ciascun campione sono delle statistiche.
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                      8




                                                                                                                    28


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                                          2   Simulazione 1


                              • L’esperimento di questo esempio consiste in n = 2 estrazioni con
                                rimessa di una pallina xi da un’urna che contiene N = 4 palline.

                              • Le palline sono numerate nel modo seguente:

                                                                {2, 3, 5, 9}


                              • L’estrazione con rimessa corrisponde ad una popolazione di
                                grandezza infinita (` sempre possibile infatti estrarre una nuova
                                                    e
                                pallina dall’urna).
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                9




                                                                                                              29


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                                           2   Simulazione 1


                            Per ciascun campione di grandezza n = 2 viene calcolata la media dei
                                                              2
                            valori delle palline estratte x = i=1 xi /2.
                                                          ¯

                              • Per esempio, se le palline estratte sono x1 = 2 e x2 = 3, allora

                                                       x = (2 + 3)/2 = 5/2 = 2.5
                                                       ¯
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                10




                                                                                                               30


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva

                    2.1 Tre distribuzioni                                                    2 Simulazione 1


                            2.1     Tre distribuzioni

                            Dobbiamo distinguere tre distribuzioni:

                             1. la distribuzione della popolazione,

                             2. la distribuzione di un particolare campione,

                             3. la distribuzione campionaria delle medie di tutti i possibili campioni.
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                 11




                                                                                                               31


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                               2   Simulazione 1


                            2.1.1    Distribuzione della popolazione

                            Distribuzione della popolazione: la distribuzione di X (il valore della
                            pallina estratta) nella popolazione. In questo caso la popolazione `
                                                                                               e
                            infinita e ha la seguente distribuzione di probabilit`:
                                                                                a

                                                                xi      pi
                                                                            1
                                                                2           4
                                                                            1
                                                                3           4
                                                                            1
                                                                5           4
                                                                            1
                                                                9           4

                                                             somma     1.0
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                               12

                                                                                                              32


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                                  2   Simulazione 1


                              • La media della popolazione `
                                                           e

                                                               µ=         xi pi = 4.75




                              • La varianza della popolazione `
                                                              e
                                                       2
                                                           =        (xi    µ)2 pi = 7.1875
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                  13


                                                                                                                 33


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva



                    2.1 Tre distribuzioni                                                2 Simulazione 1


                            2.1.2    Distribuzione di un campione

                            Distribuzione di un campione: la distribuzione di X in un particolare
                            campione.

                              • Per esempio, se x1 = 2 e x2 = 3, allora la media di questo campione
                                sar` x = 2.5 e la varianza sar` s2 = 0.5.
                                   a¯                         a
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                             14


                                                                                                           34


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1 Tre distribuzioni                                               2 Simulazione 1


                            2.1.3    Distribuzione campionaria della media

                            Distribuzione campionaria della media: la distribuzione delle medie di
                            tutti i possibili campioni.

                              • Se n = 2, ci sono 4 4 = 16 possibili campioni. Possiamo dunque
                                elencarli, insieme alle loro medie.
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                            15


                                                                                                          35


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                                2   Simulazione 1


                                            campione     media xi
                                                               ¯     campione   media xi
                                                                                      ¯
                                                {2, 3}      2.5        {3, 2}     2.5
                                                {5, 2}      3.5        {2, 5}     3.5
                                                {9, 2}      5.5        {2, 9}     5.5
                                                {5, 3}      4.0        {3, 5}     4.0
                                                {9, 3}      6.0        {3, 9}     6.0
                                                {9, 5}      7.0        {5, 9}     7.0
                                                {2, 2}       2         {3, 3}      3
                                                {5, 5}       5         {9, 9}      9
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                16


                                                                                                               36


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                               2   Simulazione 1


                            La distribuzione campionaria della media ha la seguente distribuzione di
                            probabilit`:
                                      a
                                                               xi
                                                               ¯       pi
                                                               2.0    1/16
                                                               2.5    2/16
                                                               3.0    1/16
                                                               3.5    2/16
                                                               4.0    2/16
                                                               5.0    1/16
                                                               5.5    2/16
                                                               6.0    2/16
                                                               7.0    2/16
                                                               9.0    1/16
                                                             somma     1.0
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                               17


                                                                                                              37


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                                 2   Simulazione 1


                              • La media della distribuzione campionaria della media `
                                                                                     e


                                                              µx =
                                                               ¯      xi pi = 4.75
                                                                      ¯


                              • La varianza della distribuzione campionaria della media `
                                                                                        e

                                                      2
                                                      x
                                                      ¯   =     (¯i
                                                                 x    µx )2 pi = 3.59375
                                                                       ¯
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                 18

                                                                                                                38


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                                 2   Simulazione 1


                              • L’esercizio presente ha a che fare con una situazione particolare,
                                quella in cui la distribuzione della popolazione ` conosciuta.
                                                                                 e

                              • In pratica, la distribuzione della popolazione non ` mai conosciuta.
                                                                                   e
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                 19

                                                                                                                39


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1 Tre distribuzioni                                                 2 Simulazione 1


                            Con questo esercizio possiamo per` di notare come la distribuzione
                                                             o
                            campionaria della media possieda due importanti propriet`.
                                                                                    a
                              • La media µx della distribuzione campionaria della media ` uguale
                                           ¯                                            e
                                alla media della popolazione µ.
                                              2
                              • La varianza x della distribuzione campionaria della media ` uguale
                                              ¯                                           e
                                al rapporto tra la varianza della popolazione 2 e la numerosit` n
                                                                                              a
                                del campione:

                                                               2
                                                                       7.1875
                                                       2
                                                           =       =          = 3.59375
                                                       x
                                                       ¯
                                                               n          2
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                             20


                                                                                                            40


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                                2   Simulazione 1


                            Si noti che:
                             1. la media e la varianza della distribuzione campionaria sono
                                determinate dalla media e varianza della popolazione:

                                                                                    2
                                                           µx = µ
                                                            ¯
                                                                            2
                                                                            x
                                                                            ¯   =
                                                                                    n

                             2. la varianza della distribuzione campionaria della media ` pi` piccola
                                                                                        e u
                                della varianza della popolazione.
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                21

                                                                                                               41


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                                 2   Simulazione 1


                            In seguito utilizzeremo le propriet` della distribuzione campionaria per
                                                               a
                            fare delle inferenze a proposito dei parametri della popolazione anche
                            quando la distribuzione della popolazione non ` conosciuta.
                                                                              e
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                 22

                                                                                                                42


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva

                    2.1   Tre distribuzioni                                                     2   Simulazione 1


                            Tre distribuzioni
                            Si noti inoltre che abbiamo distinto tra tre diverse distribuzioni.


                             1. Distribuzione della popolazione:
                                   = {2, 3, 5, 9}, µ = 4.75,     2
                                                                     = 7.1875


                             2. Distribuzione di un particolare campione:
                                  i   = {2, 3}, x = 2.5, s2 = 0.5
                                                ¯


                             3. Distribuzione campionaria della media:
                                  x
                                  ¯= {2.5, 3.5, 5.5, 4, 6, 7, 2.5, 3.5, 4, 6, 7, 2, 5, 3, 9},
                                µx = 4.75, x = 3.59375
                                 ¯
                                            2
                                            ¯
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                     23




                                                                                                                    43


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1   Tre distribuzioni                                                   2   Simulazione 1


                            Distribuzione della popolazione La distribuzione che contiene
                               tutte le osservazioni. Media e varianza di questa distribuzione si
                               indicano con µ e 2 .

                            Distribuzione del campione La distribuzione dei valori della
                               popolazione che fanno parte di un particolare campione casuale di
                               grandezza n. Le singole osservazioni si indicano con x1 , . . . , xn , e
                                            ¯
                               hanno media x e varianza s2 .

                            Distribuzione campionaria delle medie dei campioni La
                                                 ¯
                               distribuzione di xi per tutti i possibili campioni di grandezza n che si
                               possono estrarre dalla popolazione considerata. Media e varianza
                                                                                                    2
                               della distribuzione campionaria della media si indicano con µx e x .
                                                                                               ¯    ¯
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                   24


                                                                                                                  44


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                    2.1 Tre distribuzioni                                                       2 Simulazione 1


                            La distribuzione che sta alla base dell’inferenza statistica ` la
                                                                                         e
                            distribuzione campionaria.

                            Definizione: la distribuzione campionaria di una statistica ` la
                                                                                          e
                               distribuzione dei valori che quella statistica assume in tutti i
                               campioni di numerosit` n che possono essere estratti dalla
                                                       a
                               popolazione.

                              • Si noti che, se in una simulazione consideriamo un numero di
                                campioni minore di quello che teoricamente ` possibile, la
                                                                               e
                                distribuzione risultante ci fornir` soltanto un’approssimazione alla
                                                                  a
                                vera distribuzione campionaria.
   Corrado Caudek




                    Tecniche di Ricerca Psicologica e di Analisi dei Dati                                   25

                                                                                                                  45


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Stima e test di ipotesi

             Avendo creato statistiche differenti, possiamo fare alcune ipotesi. Per
             esempio:



        • I campioni hanno tutti la medesima media e la medesima varianza ?


        • La media dipende dalla numerosità del campione ?


        • La varianza dipende dalla numerosità del campione ?


                                                                                       46


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Stima e test di ipotesi




              Se i campioni non hanno la medesima media, può essere presente una
              tendenza.
                                                                                   47


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Stima e test di ipotesi
                            La varianza può variare con la numerosità del campione !




                       Se non si stabilizza all’aumentare dei dati del campione, si dice che i dati
                       presentano la “sindrome della varianza infinita”.
                                                                                                      48


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Ipotesi Zero (Nulla)

                       Sui test di ipotesi avremo la possibilità di entrare nel dettaglio in
                       lezioni successive.



                  • In genere si ricordi, che è non è possibile provare con certezza
                       alcunchè. Una ipotesi si può tentare di provare che non sia vera. Sia
                       H0 l’ipotesi zero da provare.



                  • Se non si riesce a scartare H0 , allora si può affermare che “sia vera”
                       con un certo grado di confidenza




                                                                                               49


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                        Altre statistiche
                                                                  Covarianza




  Assegnate due serie di dati, per esempio

     hi = {h1 , · · ·, hn }                                  ed                   li = {l1 , · · ·, ln }

   La covarianza tra queste de serie di dati è definita da:


                                                         n
                                                1                       ¯i )(hi     ¯
      Cov(hi , li ) :=                                            (li   l           hi )
                                         N          1    1


                                                                                                           50


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Altre statistiche
                                                   Correlazione




  Assegnate due serie di dati, per esempio

     hi = {h1 , · · ·, hn }                       ed              li = {l1 , · · ·, ln }

   La correlazione tra queste de serie di dati è definita da:



                    Cov(l, h)
          lh     :=
                      ⇥h ⇥l

                                                                                           51


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                 Altre statistiche
                                                         Correlazione



            Si osservi che, si potrebbe considerare la correlazione tra le due serie
            campionarie di ugual lunghezza:



            hi = {h1 , · · ·, hn                1}           e      hi+1 = {h2 , · · ·, hn   1}

               Ottenendo
                                                             n 1
                                                     1                   ¯            ¯
             Cov(hi , hi+1 ) :=                                    (hi   hi )(hi+1    hi+1 )
                                                N        1   j=1



                                                                                                  52


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                 Altre statistiche
                                                         Correlazione



            Ripetendo l’operazione per le serie via via ridotte di lunghezza e separate
            da r istanti, si ottiene:



           r
          hi      = {h1 , · · ·, hn             r}           e         hi+r = {hr , · · ·, hn }
             Ottenendo
                                                                 n r
                                                         1                    ¯ r )(hi+r    ¯
                       Cov(hi , hi+r )
                            r
                                                :=                     (hi
                                                                         r
                                                                              hi            hi+r )
                                                     N       1   j=1

                                        Cov(hr , hi+r )
                        (hi , hi+r ) :=
                          r                  i
                                         ⇥i ⇥i + r
                                           r
                                                                                                     53


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Altre statistiche
                                                  Autocorrelazione




                                                                     54


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                Campioni Casuali
                                                Random Sample

       Nella strategia di creare ed analizzare i campioni di dati, ha un ruolo importante la
       selezione (o, talvolta, la generazione) di campioni casuali.


       Un campione casuale di n eventi scelto da una popolazione è tale se la probabilità di
       tale campione di essere prescelto è la stessa di ogni altro campione della medesima
       numerosità.

         Se i dati sono generati, si sta effettuando un esperimento casuale. Esempi ne sono:


         •il lancio di una moneta
         •il conteggio dei giorni piovosi in un anno
         •il conteggio dei giorni in cui si sia misurata a Ponte S. Lorenzo di Trento una
         portata superiore ad un valore prefissato.


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                                       3   Simulazione 2


                      3    Simulazione 2

                      Consideriamo ora un’altro esempio in cui la variabilit` campionaria verr`
                                                                            a                 a
                      illustrata nel modo seguente:

                       1. la stessa popolazione dell’esempio precedente verr` usata;
                                                                            a
                       2. utilizzando R, verranno estratti con rimessa da questa popolazione
                          50000 campioni causali di grandezza n = 2;
                       3. verr` calcolata la media di ciascuno di questi campioni di grandezza
                              a
                          n = 2;
                       4. verranno calcolate la media e la varianza della distribuzione delle
                          medie dei 50000 campioni di grandezza n = 2.
     Corrado Caudek




           Tecniche di Ricerca Psicologica e di Analisi dei Dati                                     26




                                                                                                           56


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                             3   Simulazione 2


                      N <- 4
                      n <- 2
                      nSamples <- 50000
                      X <- c(2, 3, 5, 9)

                      Mean <- mean(X)
                      Var <- var(X)*(N-1)/N

                      SampDistr <- rep(0, nSamples)

                      for (i in 1:nSamples){
                        samp <- sample(X, n, replace=T)
                        SampDistr[i] <- mean(samp)
                      }

                      MeanSampDistr <- mean(SampDistr)
                      VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
     Corrado Caudek




             Tecniche di Ricerca Psicologica e di Analisi dei Dati                         27




                                                                                                 57


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                             3   Simulazione 2


                      N <- 4
                      n <- 2
                      nSamples <- 50000
                      X <- c(2, 3, 5, 9)

                      Mean <- mean(X)
                      Var <- var(X)*(N-1)/N

                      SampDistr <- rep(0, nSamples)

                      for (i in 1:nSamples){
                        samp <- sample(X, n, replace=T)
                        SampDistr[i] <- mean(samp)
                      }

                      MeanSampDistr <- mean(SampDistr)
                      VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
     Corrado Caudek




             Tecniche di Ricerca Psicologica e di Analisi dei Dati                         27




                                                                                                 57


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                               3   Simulazione 2


                      N <- 4
                      n <- 2
                      nSamples <- 50000
                      X <- c(2, 3, 5, 9)

                      Mean <- mean(X)
                      Var <- var(X)*(N-1)/N
                                                             Media e Varianza del Campione

                      SampDistr <- rep(0, nSamples)

                      for (i in 1:nSamples){
                        samp <- sample(X, n, replace=T)
                        SampDistr[i] <- mean(samp)
                      }

                      MeanSampDistr <- mean(SampDistr)
                      VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
     Corrado Caudek




             Tecniche di Ricerca Psicologica e di Analisi dei Dati                           27




                                                                                                   57


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                               3   Simulazione 2


                      N <- 4
                      n <- 2
                      nSamples <- 50000
                      X <- c(2, 3, 5, 9)

                      Mean <- mean(X)
                      Var <- var(X)*(N-1)/N
                                                             Media e Varianza del Campione

                      SampDistr <- rep(0, nSamples)

                      for (i in 1:nSamples){
                        samp <- sample(X, n, replace=T)              Sono fatti 50000 campioni
                        SampDistr[i] <- mean(samp)
                      }

                      MeanSampDistr <- mean(SampDistr)
                      VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples
     Corrado Caudek




             Tecniche di Ricerca Psicologica e di Analisi dei Dati                           27




                                                                                                   57


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                               3 Simulazione 2


                    Risultati della simulazione


                    > Mean
                    [1] 4.75
                    > Var
                    [1] 7.1875
                    > MeanSampDistr
                    [1] 4.73943
                    > VarSampDistr
                    [1] 3.578548
                    > Var/n
                    [1] 3.59375
   Corrado Caudek




       Tecniche di Ricerca Psicologica e di Analisi dei Dati               28




                                                                                 58


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva
                                                                                  3 Simulazione 2


                    • Popolazione: µ = 4.75,    2
                                                    = 7.1875.
                    • Distribuzione campionaria della media: µx = 4.75,
                                                              ¯
                                                                          2
                                                                          x
                                                                          ¯   = 3.59375.
                    • Risultati della simulazione: µx = 4.73943, ˆx = 3.578548.
                                                   ˆ¯             2
                                                                  ¯
   Corrado Caudek




        Tecniche di Ricerca Psicologica e di Analisi dei Dati                                 29




                                                                                                    59


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




                                                                                                          Grazie per l’attenzione!




                                                G.Ulrici - Uomo dope aver lavorato alle slides , 2000 ?




                                                                                                                                     60


Riccardo Rigon

Tuesday, March 6, 12
Inferenza statistica e statistica descrittiva




          http://www.treccani.it/scuola/dossier/2010/statistica/d_agostini.html




                                                                                  61


Riccardo Rigon

Tuesday, March 6, 12

Más contenido relacionado

Destacado

Il cicloidrologico&lasuamisura
Il cicloidrologico&lasuamisuraIl cicloidrologico&lasuamisura
Il cicloidrologico&lasuamisuraRiccardo Rigon
 
R Workshop for Beginners
R Workshop for BeginnersR Workshop for Beginners
R Workshop for BeginnersMetamarkets
 
12.12 acqua nei suoli-macropores
12.12 acqua nei suoli-macropores12.12 acqua nei suoli-macropores
12.12 acqua nei suoli-macroporesRiccardo Rigon
 
12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequations12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequationsRiccardo Rigon
 
Acquedotti distribuzione
Acquedotti distribuzioneAcquedotti distribuzione
Acquedotti distribuzioneRiccardo Rigon
 
P jgrass-tools-SlidesUsateALezione
P jgrass-tools-SlidesUsateALezioneP jgrass-tools-SlidesUsateALezione
P jgrass-tools-SlidesUsateALezioneRiccardo Rigon
 
12.10 acqua nei suoli-richards-1d
12.10 acqua nei suoli-richards-1d12.10 acqua nei suoli-richards-1d
12.10 acqua nei suoli-richards-1dRiccardo Rigon
 
Horton Machine - GIS spatial Analysis Tool - In Italian
Horton Machine - GIS spatial Analysis Tool - In ItalianHorton Machine - GIS spatial Analysis Tool - In Italian
Horton Machine - GIS spatial Analysis Tool - In ItalianRiccardo Rigon
 
Derivazioni opere dipresa
Derivazioni opere dipresaDerivazioni opere dipresa
Derivazioni opere dipresaRiccardo Rigon
 
Elementi idrologiciprogettazione
Elementi idrologiciprogettazioneElementi idrologiciprogettazione
Elementi idrologiciprogettazioneRiccardo Rigon
 
Presentazione epanet si_2
Presentazione epanet si_2Presentazione epanet si_2
Presentazione epanet si_2Riccardo Rigon
 
Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...
Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...
Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...Riccardo Rigon
 
2 introduzione gis - La nuova versione
2   introduzione gis - La nuova versione2   introduzione gis - La nuova versione
2 introduzione gis - La nuova versioneRiccardo Rigon
 
Introduzione allelezionidiCI
Introduzione allelezionidiCIIntroduzione allelezionidiCI
Introduzione allelezionidiCIRiccardo Rigon
 

Destacado (20)

Il cicloidrologico&lasuamisura
Il cicloidrologico&lasuamisuraIl cicloidrologico&lasuamisura
Il cicloidrologico&lasuamisura
 
R Workshop for Beginners
R Workshop for BeginnersR Workshop for Beginners
R Workshop for Beginners
 
12.12 acqua nei suoli-macropores
12.12 acqua nei suoli-macropores12.12 acqua nei suoli-macropores
12.12 acqua nei suoli-macropores
 
12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequations12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequations
 
Acquedotti distribuzione
Acquedotti distribuzioneAcquedotti distribuzione
Acquedotti distribuzione
 
P jgrass-tools-SlidesUsateALezione
P jgrass-tools-SlidesUsateALezioneP jgrass-tools-SlidesUsateALezione
P jgrass-tools-SlidesUsateALezione
 
12.10 acqua nei suoli-richards-1d
12.10 acqua nei suoli-richards-1d12.10 acqua nei suoli-richards-1d
12.10 acqua nei suoli-richards-1d
 
8 iuh theory-ci
8 iuh theory-ci8 iuh theory-ci
8 iuh theory-ci
 
P udig
P udigP udig
P udig
 
P j grass-tools
P j grass-toolsP j grass-tools
P j grass-tools
 
Horton Machine - GIS spatial Analysis Tool - In Italian
Horton Machine - GIS spatial Analysis Tool - In ItalianHorton Machine - GIS spatial Analysis Tool - In Italian
Horton Machine - GIS spatial Analysis Tool - In Italian
 
Derivazioni opere dipresa
Derivazioni opere dipresaDerivazioni opere dipresa
Derivazioni opere dipresa
 
Nettools Epanet
Nettools   EpanetNettools   Epanet
Nettools Epanet
 
Presentazione qgis
Presentazione qgisPresentazione qgis
Presentazione qgis
 
Elementi idrologiciprogettazione
Elementi idrologiciprogettazioneElementi idrologiciprogettazione
Elementi idrologiciprogettazione
 
Presentazione epanet si_2
Presentazione epanet si_2Presentazione epanet si_2
Presentazione epanet si_2
 
Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...
Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...
Introduzione all'uso della Console di OMS e di QGIS (per le analisi del corso...
 
Modern urbanhydrology
Modern urbanhydrologyModern urbanhydrology
Modern urbanhydrology
 
2 introduzione gis - La nuova versione
2   introduzione gis - La nuova versione2   introduzione gis - La nuova versione
2 introduzione gis - La nuova versione
 
Introduzione allelezionidiCI
Introduzione allelezionidiCIIntroduzione allelezionidiCI
Introduzione allelezionidiCI
 

Más de Riccardo Rigon

12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequations12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequationsRiccardo Rigon
 
12.1b tessitura e struttura
12.1b   tessitura e struttura12.1b   tessitura e struttura
12.1b tessitura e strutturaRiccardo Rigon
 
12.1a acqua neisuoli-suoli
12.1a acqua neisuoli-suoli12.1a acqua neisuoli-suoli
12.1a acqua neisuoli-suoliRiccardo Rigon
 
4 hydrology geostatistics-part_2
4 hydrology geostatistics-part_2 4 hydrology geostatistics-part_2
4 hydrology geostatistics-part_2 Riccardo Rigon
 
3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial Correlation3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial CorrelationRiccardo Rigon
 
1 alberti-prima parte - Metodi di Interpolazione
1 alberti-prima parte - Metodi di Interpolazione1 alberti-prima parte - Metodi di Interpolazione
1 alberti-prima parte - Metodi di InterpolazioneRiccardo Rigon
 
6 l-radiation-table ofsymbols
6 l-radiation-table ofsymbols6 l-radiation-table ofsymbols
6 l-radiation-table ofsymbolsRiccardo Rigon
 
6 i-longwave radiation
6 i-longwave radiation6 i-longwave radiation
6 i-longwave radiationRiccardo Rigon
 
6 h-coping withterrain
6 h-coping withterrain6 h-coping withterrain
6 h-coping withterrainRiccardo Rigon
 
6 g-considering clouds
6 g-considering clouds6 g-considering clouds
6 g-considering cloudsRiccardo Rigon
 
6 f-radiation-absorptions
6 f-radiation-absorptions6 f-radiation-absorptions
6 f-radiation-absorptionsRiccardo Rigon
 
6 e-coping withearthsurface
6 e-coping withearthsurface6 e-coping withearthsurface
6 e-coping withearthsurfaceRiccardo Rigon
 
6 d-radiation-from sun2earth
6 d-radiation-from sun2earth6 d-radiation-from sun2earth
6 d-radiation-from sun2earthRiccardo Rigon
 
6 c-radiation-stefan boltzman
6 c-radiation-stefan boltzman6 c-radiation-stefan boltzman
6 c-radiation-stefan boltzmanRiccardo Rigon
 

Más de Riccardo Rigon (20)

10 Idrologia & Clima
10 Idrologia & Clima10 Idrologia & Clima
10 Idrologia & Clima
 
12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequations12.13 acqua neisuoli-watertableequations
12.13 acqua neisuoli-watertableequations
 
12.6b just ks
12.6b just ks12.6b just ks
12.6b just ks
 
12.6 acquanei suoli-k
12.6 acquanei suoli-k12.6 acquanei suoli-k
12.6 acquanei suoli-k
 
12.1b tessitura e struttura
12.1b   tessitura e struttura12.1b   tessitura e struttura
12.1b tessitura e struttura
 
12.1a acqua neisuoli-suoli
12.1a acqua neisuoli-suoli12.1a acqua neisuoli-suoli
12.1a acqua neisuoli-suoli
 
4 hydrology geostatistics-part_2
4 hydrology geostatistics-part_2 4 hydrology geostatistics-part_2
4 hydrology geostatistics-part_2
 
3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial Correlation3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial Correlation
 
2 - Simple Kriging
2 - Simple Kriging2 - Simple Kriging
2 - Simple Kriging
 
1 alberti-prima parte - Metodi di Interpolazione
1 alberti-prima parte - Metodi di Interpolazione1 alberti-prima parte - Metodi di Interpolazione
1 alberti-prima parte - Metodi di Interpolazione
 
6 l-radiation-table ofsymbols
6 l-radiation-table ofsymbols6 l-radiation-table ofsymbols
6 l-radiation-table ofsymbols
 
6 i-longwave radiation
6 i-longwave radiation6 i-longwave radiation
6 i-longwave radiation
 
6 h-coping withterrain
6 h-coping withterrain6 h-coping withterrain
6 h-coping withterrain
 
6 g-considering clouds
6 g-considering clouds6 g-considering clouds
6 g-considering clouds
 
6 f-radiation-absorptions
6 f-radiation-absorptions6 f-radiation-absorptions
6 f-radiation-absorptions
 
6 e-coping withearthsurface
6 e-coping withearthsurface6 e-coping withearthsurface
6 e-coping withearthsurface
 
6 d-radiation-from sun2earth
6 d-radiation-from sun2earth6 d-radiation-from sun2earth
6 d-radiation-from sun2earth
 
6 c-radiation-stefan boltzman
6 c-radiation-stefan boltzman6 c-radiation-stefan boltzman
6 c-radiation-stefan boltzman
 
6 b-radiation-the sun
6 b-radiation-the sun6 b-radiation-the sun
6 b-radiation-the sun
 
6 a-radiation-goals
6 a-radiation-goals6 a-radiation-goals
6 a-radiation-goals
 

Último

Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxlorenzodemidio01
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxtecongo2007
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxtecongo2007
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxtecongo2007
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....giorgiadeascaniis59
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxtecongo2007
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxlorenzodemidio01
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.camillaorlando17
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxlorenzodemidio01
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................giorgiadeascaniis59
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileNicola Rabbi
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxlorenzodemidio01
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................giorgiadeascaniis59
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereMarco Chizzali
 

Último (16)

Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opere
 

7 inferenza statisticae-statisticadescrittiva

  • 1. Inferenza statistica e statistica descrittiva Lucio Fontana - Expectations (MoMA), 1959 Riccardo Rigon Tuesday, March 6, 12
  • 2. “`E ’na cosa che serve pe’ fa’ un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa.” Trilussa Tuesday, March 6, 12
  • 3. “There are three kinds of lies: •lies, •damn lies, and •statistics” (Benjamin Disraeli/Mark Twain) Tuesday, March 6, 12
  • 4. Misura e Rappresentazione delle Grandezze Idrologiche Obbiettivi: •In queste pagine si ricordano gli elementi fondanti dell’analisi statistica. •Si definiscono, popolazione, campione e varie statistiche elementari, media, varianza, covarianza. •Si discute dell’esistenza delle statistiche e del loro valore. •Si introduce il concetto di campione casuale (random sampling). 4 Riccardo Rigon Tuesday, March 6, 12
  • 5. Statistiche Popolazione e Campione L’inferenza statistica assume che un insieme di dati rappresenti un sottoinsieme di casi tra tutti i possibili, normalmente detto campione. Tutti i casi possibili rappresentano la popolazione da cui l’insieme di dati è stato estratto. Il campione è noto. La popolazione, in genere no. Sulla popolazione, è sempre implicito, si fanno delle ipotesi. 5 Riccardo Rigon Tuesday, March 6, 12
  • 6. Statistiche Analisi Esplorativa dei dati rappresentazione temporale - istogramma Un insieme di n dati costituisce dunque un campione di dati. a) Bergen:Sep temperature 15 14 Temperature (oC) 13 12 11 10 9 8 1860 1880 1900 1920 1940 1960 1980 2000 time b) Bergen:Sep temperature distribution (1861−1997) 30 25 20 Frequency 15 10 5 0 5 6 7 8 9 10 11 12 13 14 15 Temperature (oC) Tali dati possono essere rappresentati in vari modi. Ogni forma di rappresentazione ne mette in rilievo alcune caratteristiche. 6 Riccardo Rigon Tuesday, March 6, 12
  • 7. Statistiche Analisi Esplorativa dei dati rappresentazione temporale - istogramma Un insieme di n dati costituisce dunque un campione di dati. a) Bergen:Sep temperature 15 14 Serie Temperature (oC) 13 temporale 12 11 10 9 8 1860 1880 1900 1920 1940 1960 1980 2000 time b) Bergen:Sep temperature distribution (1861−1997) 30 25 20 Frequency 15 10 5 0 5 6 7 8 9 10 11 12 13 14 15 Temperature (oC) Tali dati possono essere rappresentati in vari modi. Ogni forma di rappresentazione ne mette in rilievo alcune caratteristiche. 6 Riccardo Rigon Tuesday, March 6, 12
  • 8. Statistiche Analisi Esplorativa dei dati rappresentazione temporale - istogramma Un insieme di n dati costituisce dunque un campione di dati. a) Bergen:Sep temperature 15 14 Serie Temperature (oC) 13 temporale 12 11 10 9 8 1860 1880 1900 1920 1940 1960 1980 2000 time b) Bergen:Sep temperature distribution (1861−1997) 30 25 20 Frequency Istogramma 15 10 5 0 5 6 7 8 9 10 11 12 13 14 15 Temperature (oC) Tali dati possono essere rappresentati in vari modi. Ogni forma di rappresentazione ne mette in rilievo alcune caratteristiche. 6 Riccardo Rigon Tuesday, March 6, 12
  • 9. Statistiche Medie campionarie Assegnato il campione, possono essere calcolati varie statistiche. Per esempio: n 1 x := ¯ x,t Media temporale n t=1 n 1 < x >:= xi Media spaziale n i=1 La media è un indicatore di posizione 7 Riccardo Rigon Tuesday, March 6, 12
  • 10. Inferenza statistica e statistica descrittiva Inferenza statistica Corrado Caudek 8 Riccardo Rigon Tuesday, March 6, 12
  • 11. Inferenza statistica e statistica descrittiva Inferenza statistica •L’inferenza statistica è il processo che consente di formulare delle conclusioni relative ad una popolazione sulla base di un campione di osservazioni estratte a caso dalla popolazione Corrado Caudek 8 Riccardo Rigon Tuesday, March 6, 12
  • 12. Inferenza statistica e statistica descrittiva Inferenza statistica •L’inferenza statistica è il processo che consente di formulare delle conclusioni relative ad una popolazione sulla base di un campione di osservazioni estratte a caso dalla popolazione •Centrale all’inferenza statistica classica è la nozione di distribuzione campionaria, ovvero come variano le statistiche dei campioni, se i campioni casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla popolazione Corrado Caudek 8 Riccardo Rigon Tuesday, March 6, 12
  • 13. Inferenza statistica e statistica descrittiva Inferenza statistica •L’inferenza statistica è il processo che consente di formulare delle conclusioni relative ad una popolazione sulla base di un campione di osservazioni estratte a caso dalla popolazione •Centrale all’inferenza statistica classica è la nozione di distribuzione campionaria, ovvero come variano le statistiche dei campioni, se i campioni casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla popolazione •Anche se, in ciascuna applicazione pratica dell’inferenza statistica, il ricercatore dispone solamente di un unico campione casuale di grandezza n, Corrado Caudek la possibilità che il campionamento venga ripetuto fornisce la fondazione concettuale per decidere quanto il campione osservato sia informativo della popolazione nel suo complesso 8 Riccardo Rigon Tuesday, March 6, 12
  • 14. Statistiche Analisi Esplorativa dei dati La media non è l’unico indicatore di posizione Mode 9 Riccardo Rigon Tuesday, March 6, 12
  • 15. Statistiche Mediana e Moda La moda rappresenta il valore più frequente. 10 Riccardo Rigon Tuesday, March 6, 12
  • 16. Statistiche Mediana e Moda La moda rappresenta il valore più frequente. Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali. 10 Riccardo Rigon Tuesday, March 6, 12
  • 17. Statistiche Mediana e Moda La moda rappresenta il valore più frequente. Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali. La mediana rappresenta il valore dei dati tale per cui il 50% dei dati ha valore inferiore ad esso e (ovviamente!) l’altro 50% ha un valore ad esso superiore. 10 Riccardo Rigon Tuesday, March 6, 12
  • 18. Statistiche La distribuzione empirica dei dati Assegnato l’insieme di dati hi = {h1 , · · ·, hn } e prodotto da esso l’insieme ordinato in modo crescente ˆ ˆ ˆ ˆ ˆ ˆ hj = (h1 , · · ·, hn ) h1 ⇥ h2 ⇥ · ⇥ hn La distribuzione cumulata dei dati è definita da i ˆ 1 ECDFi (h) := j n j=1 11 Riccardo Rigon Tuesday, March 6, 12
  • 19. Statistiche ECDF La distribuzione cumulativa empirica può essere rappresentata come illustrato. Il valore in ordinate individuato dalla curva si dice anche frequenza di non superamento o quantile Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 12 h[mm] Riccardo Rigon Tuesday, March 6, 12
  • 20. Statistiche ECDF Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate. Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● 0.5 quantile ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 13 h[mm] Riccardo Rigon Tuesday, March 6, 12
  • 21. Statistiche ECDF Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate. Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● 0.5 quantile ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 14 h[mm] Riccardo Rigon Tuesday, March 6, 12
  • 22. Statistiche ECDF Ecco dunque individuata la mediana Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● 0.5 quantile ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 mediana 20 40 60 80 15 h[mm] Riccardo Rigon Tuesday, March 6, 12
  • 23. Statistiche Diagrammi a scatola La procedura puo’ essere generalizzata e rappresentata da un diagramma a scatola Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● 0.75 quantile ● ● ● ● ● ● ● ● 0.6 ● ● 0.5 quantile P[H<h] ● ● ● ● ● ● ● 0.4 ● ● 0.25 quantile ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 h[mm] “baffo” 16 Il diagramma a scatola è un’altra forma di rappresentazione della distribuzione dei dati Riccardo Rigon Tuesday, March 6, 12
  • 24. Statistiche Parametri e statistiche Un parametro è un numero che descrive un qualche aspetto della popolazione. • Per esempio, la precipitazione media annuale (vera) in una stazione di misura è un parametro. Supponiamo che tale media sia µh = 980 mm • In qualsiasi situazione concreta, i parametri sono sconosciuti Corrado Caudek 17 Riccardo Rigon Tuesday, March 6, 12
  • 25. Statistiche Parametri e statistiche Una statistica è un numero che può essere calcolato utilizzando i dati forniti da un campione, senza alcuna conoscenza dei parametri della popolazione. • Supponiamo, per esempio che il campione casuale di precipitazioni copra 30 anni di misura e la precipitazione media risultante sia ¯ h = 1002 mm Corrado Caudek • Tale media, è una statistica. 18 Riccardo Rigon Tuesday, March 6, 12
  • 26. Statistiche Altre statistiche: il Range Rx := max(x) min(x) Il range è il più semplice indicatore della distribuzione dei dati. E’ un indicatore della scala dei dati. Tuttavia dipende da soli due dati e non tiene conto degli altri n-2 che compongono il campione. 19 Riccardo Rigon Tuesday, March 6, 12
  • 27. Statistiche Altre statistiche: Varianza e Deviazione Standard n 1 V ar(x) := (xi x) ¯ n i=1 ⌅ ⇤ n ⇤1 x := ⇥ (xi x) ¯ n i=1 La varianza è un indicatore di “scala” che usa tutti i dati del campione 20 Riccardo Rigon Tuesday, March 6, 12
  • 28. Statistiche Altre statistiche: Varianza e Deviazione Standard: versione “corretta” (unbiased) n 1 V ar(x) := (xi x) ¯ n 1 i=2 ⌅ ⇤ n ⇤ 1 x := ⇥ (xi x) ¯ n 1 i=1 La versione unbiased della varianza, tiene conto del fatto che solo n-1 dei valori sono indipendenti, essendo fissata la loro media. 21 Riccardo Rigon Tuesday, March 6, 12
  • 29. Statistiche Coefficiente di variazione • Il coefficiente di variazione di un campione di dati è il rapporto tra la deviazione standard e la media: x CVx := ¯ x • Tanto più alta è il cofficiente di variazione, tanto meno la media è informativa e indicatrice dell’andamento futuro di una certa popolazione. 22 Riccardo Rigon Tuesday, March 6, 12
  • 30. Statistiche Altre statistiche: Coefficiente di forma o skewness: n ⇤1 ⇥3 xi x ¯ skx := i=1 n x Misura l’assimetria della distribuzione di dati Coefficiente di appiattimento o kurtosis: n ⇤ ⇥4 1 xi ¯ x kx := 3 + i=1 n x 23 Riccardo Rigon Tuesday, March 6, 12
  • 31. Statistiche Stima e test di ipotesi Solitamente, non si è interessati alle statistiche in se, ma a quello che le statistiche dicono della popolazione. • Potremmo, as esempio, usare la media delle precipitazioni annuali misurate in tutte le stazioni idrometeorologiche per stimare la precipitazione media annuale su tutta la penisola italiana. • Oppure potremmo usare la media del campione per stabilire se la precipitazione media annuale sia mutata lungo la durata del campione. 24 Riccardo Rigon Tuesday, March 6, 12
  • 32. Statistiche Stima e test di ipotesi Questi due tipi di domande sono propri dei due principali approcci all’inferenza statistica classica • La stima dei parametri • Il test di ipotesi statistiche 25 Riccardo Rigon Tuesday, March 6, 12
  • 33. Statistiche Variabilità campionaria Un aspetto fondamentale delle statistiche campionarie riguarda il fatto che variano da campione a campione. Nel caso delle precipitazioni annuali, sarebbe molto improbabile che la media del campione coincidesse con il valore di 1002 mm della media della popolazione. 26 Riccardo Rigon Tuesday, March 6, 12
  • 34. Statistiche Variabilità campionaria • La variabilità di una statistica campionaria da campione a campione è detta variabilità campionaria. – Quando la variabilità campionaria è molto grande, il campione è poco informativo, a proposito del parametro della popolazione. – Quando la variabilità campionaria è piccola, invece la statistica e informativa, anche se è praticamente impossibile che la statistica di un qualsiasi campione sia esattamente uguale al parametro della popolazione. 27 Riccardo Rigon Tuesday, March 6, 12
  • 35. Inferenza statistica e statistica descrittiva 2 Simulazione 1 2 Simulazione 1 La variabilit` campionaria verr` illustrata nel modo seguente: a a 1. verr` considerata una variabile discreta che pu` assumere soltanto a o un piccolo numero di valori possibili (N = 4); 2. verr` fornito l’elenco di tutti i possibili campioni di grandezza n = 2; a 3. verr` calcolata la media di ciascuno dei possibili campioni di a grandezza n = 2; 4. verr` esaminata la distribuzione delle medie di tutti i possibili a campioni di grandezza n = 2. La media µ e la varianza della popolazione verranno calcolate. ¯ • µ e sono dei parametri, mentre la media xi e la varianza s2 di i ciascun campione sono delle statistiche. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 8 28 Riccardo Rigon Tuesday, March 6, 12
  • 36. Inferenza statistica e statistica descrittiva 2 Simulazione 1 • L’esperimento di questo esempio consiste in n = 2 estrazioni con rimessa di una pallina xi da un’urna che contiene N = 4 palline. • Le palline sono numerate nel modo seguente: {2, 3, 5, 9} • L’estrazione con rimessa corrisponde ad una popolazione di grandezza infinita (` sempre possibile infatti estrarre una nuova e pallina dall’urna). Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 9 29 Riccardo Rigon Tuesday, March 6, 12
  • 37. Inferenza statistica e statistica descrittiva 2 Simulazione 1 Per ciascun campione di grandezza n = 2 viene calcolata la media dei 2 valori delle palline estratte x = i=1 xi /2. ¯ • Per esempio, se le palline estratte sono x1 = 2 e x2 = 3, allora x = (2 + 3)/2 = 5/2 = 2.5 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 10 30 Riccardo Rigon Tuesday, March 6, 12
  • 38. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1 Tre distribuzioni Dobbiamo distinguere tre distribuzioni: 1. la distribuzione della popolazione, 2. la distribuzione di un particolare campione, 3. la distribuzione campionaria delle medie di tutti i possibili campioni. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 11 31 Riccardo Rigon Tuesday, March 6, 12
  • 39. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1.1 Distribuzione della popolazione Distribuzione della popolazione: la distribuzione di X (il valore della pallina estratta) nella popolazione. In questo caso la popolazione ` e infinita e ha la seguente distribuzione di probabilit`: a xi pi 1 2 4 1 3 4 1 5 4 1 9 4 somma 1.0 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 12 32 Riccardo Rigon Tuesday, March 6, 12
  • 40. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 • La media della popolazione ` e µ= xi pi = 4.75 • La varianza della popolazione ` e 2 = (xi µ)2 pi = 7.1875 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 13 33 Riccardo Rigon Tuesday, March 6, 12
  • 41. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1.2 Distribuzione di un campione Distribuzione di un campione: la distribuzione di X in un particolare campione. • Per esempio, se x1 = 2 e x2 = 3, allora la media di questo campione sar` x = 2.5 e la varianza sar` s2 = 0.5. a¯ a Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 14 34 Riccardo Rigon Tuesday, March 6, 12
  • 42. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1.3 Distribuzione campionaria della media Distribuzione campionaria della media: la distribuzione delle medie di tutti i possibili campioni. • Se n = 2, ci sono 4 4 = 16 possibili campioni. Possiamo dunque elencarli, insieme alle loro medie. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 15 35 Riccardo Rigon Tuesday, March 6, 12
  • 43. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 campione media xi ¯ campione media xi ¯ {2, 3} 2.5 {3, 2} 2.5 {5, 2} 3.5 {2, 5} 3.5 {9, 2} 5.5 {2, 9} 5.5 {5, 3} 4.0 {3, 5} 4.0 {9, 3} 6.0 {3, 9} 6.0 {9, 5} 7.0 {5, 9} 7.0 {2, 2} 2 {3, 3} 3 {5, 5} 5 {9, 9} 9 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 16 36 Riccardo Rigon Tuesday, March 6, 12
  • 44. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 La distribuzione campionaria della media ha la seguente distribuzione di probabilit`: a xi ¯ pi 2.0 1/16 2.5 2/16 3.0 1/16 3.5 2/16 4.0 2/16 5.0 1/16 5.5 2/16 6.0 2/16 7.0 2/16 9.0 1/16 somma 1.0 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 17 37 Riccardo Rigon Tuesday, March 6, 12
  • 45. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 • La media della distribuzione campionaria della media ` e µx = ¯ xi pi = 4.75 ¯ • La varianza della distribuzione campionaria della media ` e 2 x ¯ = (¯i x µx )2 pi = 3.59375 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 18 38 Riccardo Rigon Tuesday, March 6, 12
  • 46. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 • L’esercizio presente ha a che fare con una situazione particolare, quella in cui la distribuzione della popolazione ` conosciuta. e • In pratica, la distribuzione della popolazione non ` mai conosciuta. e Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 19 39 Riccardo Rigon Tuesday, March 6, 12
  • 47. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Con questo esercizio possiamo per` di notare come la distribuzione o campionaria della media possieda due importanti propriet`. a • La media µx della distribuzione campionaria della media ` uguale ¯ e alla media della popolazione µ. 2 • La varianza x della distribuzione campionaria della media ` uguale ¯ e al rapporto tra la varianza della popolazione 2 e la numerosit` n a del campione: 2 7.1875 2 = = = 3.59375 x ¯ n 2 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 20 40 Riccardo Rigon Tuesday, March 6, 12
  • 48. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Si noti che: 1. la media e la varianza della distribuzione campionaria sono determinate dalla media e varianza della popolazione: 2 µx = µ ¯ 2 x ¯ = n 2. la varianza della distribuzione campionaria della media ` pi` piccola e u della varianza della popolazione. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 21 41 Riccardo Rigon Tuesday, March 6, 12
  • 49. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 In seguito utilizzeremo le propriet` della distribuzione campionaria per a fare delle inferenze a proposito dei parametri della popolazione anche quando la distribuzione della popolazione non ` conosciuta. e Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 22 42 Riccardo Rigon Tuesday, March 6, 12
  • 50. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Tre distribuzioni Si noti inoltre che abbiamo distinto tra tre diverse distribuzioni. 1. Distribuzione della popolazione: = {2, 3, 5, 9}, µ = 4.75, 2 = 7.1875 2. Distribuzione di un particolare campione: i = {2, 3}, x = 2.5, s2 = 0.5 ¯ 3. Distribuzione campionaria della media: x ¯= {2.5, 3.5, 5.5, 4, 6, 7, 2.5, 3.5, 4, 6, 7, 2, 5, 3, 9}, µx = 4.75, x = 3.59375 ¯ 2 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 23 43 Riccardo Rigon Tuesday, March 6, 12
  • 51. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Distribuzione della popolazione La distribuzione che contiene tutte le osservazioni. Media e varianza di questa distribuzione si indicano con µ e 2 . Distribuzione del campione La distribuzione dei valori della popolazione che fanno parte di un particolare campione casuale di grandezza n. Le singole osservazioni si indicano con x1 , . . . , xn , e ¯ hanno media x e varianza s2 . Distribuzione campionaria delle medie dei campioni La ¯ distribuzione di xi per tutti i possibili campioni di grandezza n che si possono estrarre dalla popolazione considerata. Media e varianza 2 della distribuzione campionaria della media si indicano con µx e x . ¯ ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 24 44 Riccardo Rigon Tuesday, March 6, 12
  • 52. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 La distribuzione che sta alla base dell’inferenza statistica ` la e distribuzione campionaria. Definizione: la distribuzione campionaria di una statistica ` la e distribuzione dei valori che quella statistica assume in tutti i campioni di numerosit` n che possono essere estratti dalla a popolazione. • Si noti che, se in una simulazione consideriamo un numero di campioni minore di quello che teoricamente ` possibile, la e distribuzione risultante ci fornir` soltanto un’approssimazione alla a vera distribuzione campionaria. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 25 45 Riccardo Rigon Tuesday, March 6, 12
  • 53. Inferenza statistica e statistica descrittiva Stima e test di ipotesi Avendo creato statistiche differenti, possiamo fare alcune ipotesi. Per esempio: • I campioni hanno tutti la medesima media e la medesima varianza ? • La media dipende dalla numerosità del campione ? • La varianza dipende dalla numerosità del campione ? 46 Riccardo Rigon Tuesday, March 6, 12
  • 54. Inferenza statistica e statistica descrittiva Stima e test di ipotesi Se i campioni non hanno la medesima media, può essere presente una tendenza. 47 Riccardo Rigon Tuesday, March 6, 12
  • 55. Inferenza statistica e statistica descrittiva Stima e test di ipotesi La varianza può variare con la numerosità del campione ! Se non si stabilizza all’aumentare dei dati del campione, si dice che i dati presentano la “sindrome della varianza infinita”. 48 Riccardo Rigon Tuesday, March 6, 12
  • 56. Inferenza statistica e statistica descrittiva Ipotesi Zero (Nulla) Sui test di ipotesi avremo la possibilità di entrare nel dettaglio in lezioni successive. • In genere si ricordi, che è non è possibile provare con certezza alcunchè. Una ipotesi si può tentare di provare che non sia vera. Sia H0 l’ipotesi zero da provare. • Se non si riesce a scartare H0 , allora si può affermare che “sia vera” con un certo grado di confidenza 49 Riccardo Rigon Tuesday, March 6, 12
  • 57. Inferenza statistica e statistica descrittiva Altre statistiche Covarianza Assegnate due serie di dati, per esempio hi = {h1 , · · ·, hn } ed li = {l1 , · · ·, ln } La covarianza tra queste de serie di dati è definita da: n 1 ¯i )(hi ¯ Cov(hi , li ) := (li l hi ) N 1 1 50 Riccardo Rigon Tuesday, March 6, 12
  • 58. Inferenza statistica e statistica descrittiva Altre statistiche Correlazione Assegnate due serie di dati, per esempio hi = {h1 , · · ·, hn } ed li = {l1 , · · ·, ln } La correlazione tra queste de serie di dati è definita da: Cov(l, h) lh := ⇥h ⇥l 51 Riccardo Rigon Tuesday, March 6, 12
  • 59. Inferenza statistica e statistica descrittiva Altre statistiche Correlazione Si osservi che, si potrebbe considerare la correlazione tra le due serie campionarie di ugual lunghezza: hi = {h1 , · · ·, hn 1} e hi+1 = {h2 , · · ·, hn 1} Ottenendo n 1 1 ¯ ¯ Cov(hi , hi+1 ) := (hi hi )(hi+1 hi+1 ) N 1 j=1 52 Riccardo Rigon Tuesday, March 6, 12
  • 60. Inferenza statistica e statistica descrittiva Altre statistiche Correlazione Ripetendo l’operazione per le serie via via ridotte di lunghezza e separate da r istanti, si ottiene: r hi = {h1 , · · ·, hn r} e hi+r = {hr , · · ·, hn } Ottenendo n r 1 ¯ r )(hi+r ¯ Cov(hi , hi+r ) r := (hi r hi hi+r ) N 1 j=1 Cov(hr , hi+r ) (hi , hi+r ) := r i ⇥i ⇥i + r r 53 Riccardo Rigon Tuesday, March 6, 12
  • 61. Inferenza statistica e statistica descrittiva Altre statistiche Autocorrelazione 54 Riccardo Rigon Tuesday, March 6, 12
  • 62. Inferenza statistica e statistica descrittiva Campioni Casuali Random Sample Nella strategia di creare ed analizzare i campioni di dati, ha un ruolo importante la selezione (o, talvolta, la generazione) di campioni casuali. Un campione casuale di n eventi scelto da una popolazione è tale se la probabilità di tale campione di essere prescelto è la stessa di ogni altro campione della medesima numerosità. Se i dati sono generati, si sta effettuando un esperimento casuale. Esempi ne sono: •il lancio di una moneta •il conteggio dei giorni piovosi in un anno •il conteggio dei giorni in cui si sia misurata a Ponte S. Lorenzo di Trento una portata superiore ad un valore prefissato. Riccardo Rigon Tuesday, March 6, 12
  • 63. Inferenza statistica e statistica descrittiva 3 Simulazione 2 3 Simulazione 2 Consideriamo ora un’altro esempio in cui la variabilit` campionaria verr` a a illustrata nel modo seguente: 1. la stessa popolazione dell’esempio precedente verr` usata; a 2. utilizzando R, verranno estratti con rimessa da questa popolazione 50000 campioni causali di grandezza n = 2; 3. verr` calcolata la media di ciascuno di questi campioni di grandezza a n = 2; 4. verranno calcolate la media e la varianza della distribuzione delle medie dei 50000 campioni di grandezza n = 2. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 26 56 Riccardo Rigon Tuesday, March 6, 12
  • 64. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57 Riccardo Rigon Tuesday, March 6, 12
  • 65. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57 Riccardo Rigon Tuesday, March 6, 12
  • 66. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N Media e Varianza del Campione SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57 Riccardo Rigon Tuesday, March 6, 12
  • 67. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N Media e Varianza del Campione SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) Sono fatti 50000 campioni SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57 Riccardo Rigon Tuesday, March 6, 12
  • 68. Inferenza statistica e statistica descrittiva 3 Simulazione 2 Risultati della simulazione > Mean [1] 4.75 > Var [1] 7.1875 > MeanSampDistr [1] 4.73943 > VarSampDistr [1] 3.578548 > Var/n [1] 3.59375 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 28 58 Riccardo Rigon Tuesday, March 6, 12
  • 69. Inferenza statistica e statistica descrittiva 3 Simulazione 2 • Popolazione: µ = 4.75, 2 = 7.1875. • Distribuzione campionaria della media: µx = 4.75, ¯ 2 x ¯ = 3.59375. • Risultati della simulazione: µx = 4.73943, ˆx = 3.578548. ˆ¯ 2 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 29 59 Riccardo Rigon Tuesday, March 6, 12
  • 70. Inferenza statistica e statistica descrittiva Grazie per l’attenzione! G.Ulrici - Uomo dope aver lavorato alle slides , 2000 ? 60 Riccardo Rigon Tuesday, March 6, 12
  • 71. Inferenza statistica e statistica descrittiva http://www.treccani.it/scuola/dossier/2010/statistica/d_agostini.html 61 Riccardo Rigon Tuesday, March 6, 12