SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
Note di Statistica e Calcolo della probabilità




                                             DATI e PREVISIONI

           Note di base sulla Statistica e Calcolo della probabilità




               2° Incontro: Indici statistici. Correlazione tra dati




                                                                 Enrico Smargiassi




Bologna, 18 Febbraio 2013                                                            1
Note di Statistica e Calcolo della probabilità




Indici Statistici
Percentili

I percentili sono indici statistici di posizione non centrale che si definiscono similmente alla
mediana che ne è un caso particolare.

In generale si definirà                (con                    ) il più piccolo valore dei
dati ordinati,   , tale che la percentuale 100 di dati sia minore o uguale a

Più in particolare si fa uso spesso di:
    primo quartile              che è il valore del campione di dati per cui il numero di dati
    con valore inferiore o uguale a       è almeno il 25%
    terzo quartile             che è il valore del campione di dati per cui il numero di dati
    con valore inferiore o uguale a       è almeno il 75%
    secondo quartile              che è il valore mediano del campione,

Anche in questo calcolo, come per la mediana, se        non è un numero intero si prende
come valore del percentile il valore successivo, ovvero

Se se   è invece un numero intero si può prendere come valore del percentile
qualunque valore compreso tra     (compreso) e      ; solitamente si fa uso del valore
più piccolo           o del valore medio (aritmetico)


  ESEMPIO 6

  Carattere osservato  peso in g di bambini nati in un dato ospedale in un mese

  Campione di dati 



  Cardinalità  n = 30

  Tipo di dato  quantitativo continuo

  Ordiniamo i dati:




  Calcoliamo alcuni percentili:
        1° quartile  0.25-percentile 
        2° quartile (mediana)  0.5-percentile 
        3° quartile  0.75-percentile 
        0.10-percentile 


Bologna, 18 Febbraio 2013                                                                2
Note di Statistica e Calcolo della probabilità




 Aggreghiamo e rappresentiamo graficamente i dati.

 Il campo di variazione dei dati è l’intervallo [1800; 5000] di ampiezza 3200 g

 La regola di Sturges:                                                   ci suggerisce il numero di classi che
 fissiamo a 6. Ogni classe potrebbe avere un’ampiezza di
 Considerando i dati a disposizione scegliamo 500 come ampiezza di una classe.

                  Classe                Frequenza           Frequenza       Frequenza    Frequenza
                    Ik                   assoluta             relativa     percentuale     relativa
                                            Nk                    fk            f% k     cumulativa
              1800  x < 2300               3                                  10 %          0.10

              2300  x < 2800                  6                                200 %       0.30

              2800  x < 3300                  7                                23 %        0.53

              3300  x < 3800                  6                                20 %        0.73

              3800  x < 4300                  5                                17 %        0.90

                 x  4300                      3                                10 %        1.00

                  Totale                      30                 1              100 %



   Frequenza relativa fi
                                             mediana
                               1° quartile
   0,25                                       3220
                                  2760
             0.10-percentile                             3° quartile
                  2230                                      3860
     0,2


   0,15


     0,1


   0,05


       0
              2050          2550        3050        3550        4050     4850
                                              Peso (g)




Bologna, 18 Febbraio 2013                                                                                3
Note di Statistica e Calcolo della probabilità



Indici di dispersione o di variabilità

Consideriamo di prendere la media campionaria come indice di centralità del campione
dei dati. E’ ovvio che tale indice non è sufficiente per caratterizzare completamente il
campione, poiché ci sono campioni che hanno lo stesso valor medio, ma con dati
distribuiti in modo molto diverso rispetto al valore “centrale”.
E’ necessario, quindi, fornire una misura di questa dispersione del campione.

Vi sono molti modi per valutare la dispersione, ma generalmente si parte dagli
scostamenti che i dati hanno rispetto al valore centrale scelto, ovvero
Considerandoli senza segno per evitare compensazioni, cioè

Sembra ragionevole considerare allora la media di tutti gli scostamenti come misura di
dispersione:


Questo valore è un primo indice di dispersione noto come Scarto medio assoluto.

Si può matematicamente evitare di maneggiare il modulo dei dati (il modulo non è
additivo, non è derivabile,…), considerando il quadrato degli scarti.
Si ottiene così la definizione di varianza.

Varianza campionaria


                                                   (4)


si usa talvolta il simbolo              per riferirsi al campione in oggetto.

Se i dati hanno una dimensione allora anche la varianza ha una dimensione, la stessa di x
al quadrato (es. x  m     m2)

Pertanto si utilizza invece della varianza la sua radice quadrata che ha la stessa
dimensione dei dati.

Scarto quadratico medio (o deviazione standard)


                                                   (5)
Il termine deviazione standard è più usato in ambito della statistica inferenziale.

Tanto maggiore è la distanza media dei dati dal “suo centro”, maggiore è il valore della
varianza, che appunto fornisce una misura della dispersione o variabilità del campione.

Nel caso di dati aggregati, secondo le modalità o le classi, valgono le seguenti relazioni
per il calcolo della varianza e lo scarto quadratico medio, dove k indica il numero delle
modalità o di classi:
Bologna, 18 Febbraio 2013                                                             4
Note di Statistica e Calcolo della probabilità




                                                                                      (6)



Molto spesso, nel calcolo della varianza si usa una espressione che prevede
                                 dove l’uso di n-1 piuttosto che n è giustificato e più idoneo
nell’ambito della statistica inferenziale, dove si affronta il problema della stima dei
parametri delle distribuzioni.

Nel caso di un’analisi dati di tipo solo descrittivo continuiamo ad utilizzare l’espressione (4)

Alcune proprietà della varianza

    1. Formula pratica per il calcolo della varianza




                                                 -
                                                 =n         =n
         Pertanto
                                                      (7)


         Cioè la varianza è calcolabile come la media dei quadrati dei dati diminuita del
         quadrato della media.



    2. Trasformazione della varianza al cambiamento lineare della base dati

         Se x è una variabile con un campione di dati      e i dati sono traslati di un
         offset            con conseguente modifica del campione di dati
         allora la varianza rimane inalterata, cioè                (la dispersione non cambia per
         un offset!)
         Infatti:



         Se invece la trasformazione dei dati riguarda una trasformazione di scala,
         allora la relazione delle varianze è data da
         Infatti:



         dove in entrambe le relazioni si è sfruttata la proprietà della media per una
         trasformazione lineare dei dati.

Bologna, 18 Febbraio 2013                                                                        5
Note di Statistica e Calcolo della probabilità




    3. La varainza come minimo di un funzionale

         Se consideriamo la funzione reale a valore reale:


         definita per un dato campione di dati.
         Allora V(x) assume valore minimo per                    cioè quando lo
         scostamento è calcolato rispetto al valore medio.
         Infatti:




         OSSERVAZIONE
         Se consideriamo la funzione somma degli scostamenti in modulo


         allora essa è minima quando si prende x uguale alla mediana dei dati
         disposizione.




    4. Variabile standardizzata
       Se invece della variabile osservata x, relativa al campione
       si considera la variabile:


         con campione di dati
         allora quest’ultima è una variabile centrata e ridotta, cioè con media nulla e
         varainza unitaria.
         Infatti:


         dove si sono sfruttate le proprietà della media e della varianza.

    5. Coefficiente di variazione
       Come indice di dispersione di un campione si può utilizzare anche il rapporto dello
       scarto quadratico medio con la media campionaria, ovvero:


         Il coefficiente di variazione esprime la deviazione standard come percentuale
         della media. Essendo           misurate con la stessa unità di misura, cv è un indice
         adimensionale e quindi si presta ad essere utilizzato per confrontare la dispersione
         di campioni diversi e non omogenei.


Bologna, 18 Febbraio 2013                                                               6
Note di Statistica e Calcolo della probabilità




  ESEMPIO 7
  Carattere osservato  tempi in minuti per l’esecuzione di un determinato processo di
  lavorazione

  Campione di dati 

  Cardinalità  n = 10

  Tipo di dato  quantitativo discreto

  Indici di posizione e di dispersione  disponiamo i dati in una tabella (numero di dati
  limitato)
                                                     Media 
                               (min)
                                2.6           6.76   Varianza 
                                1.8           3.24
                                2.1           4.41
                                1.5           2.25
                                2.8           7.84
                                                     Scarto quadratico medio 
                                3.0           9.00
                                1.2           1.44
                                1.9           3.61
                                2.3           5.29   Coefficiente di variazione 
                                2.8           7.84
                 Somma         22.0          51.68



  E’ ragionevole dedurre che il campione è poco disperso intorno al suo valore centrale




Bologna, 18 Febbraio 2013                                                             7
Note di Statistica e Calcolo della probabilità




   PROBLEMA 9
   Per la partecipazione a una gara di chimica una scuola deve proporre una squadra di 6
   alunni di una stessa classe. La scuola organizza un test preliminare per scegliere la
   squadra. Il test che ha un punteggio massimo di 100 punti, ha permesso di individuare 3
   classi sulla media dei migliori 6 punteggi conseguiti dagli alunni di una stessa classe.
   Questo valore medio è però uguale per le tre squadre che quindi risultano a pari merito.
   Con quale criterio può essere scelta la squadra da mandare alla gara?

   I dati (punteggi nel test) 


                                               Classe A         Classe B         Classe C

                                           (/100)           (/100)            (/100)
                        Punteggio alunni




                                            72       5184    74        5476    73       5329
                                            75       5625    75        5625    76       5776
                                            78       6084    80        6400    79       6241
                                            83       6889    81        6561    82       6724
                                            84       7056    83        6889    84       7056
                                            86       7396    85        7225    84       7056
                   Somma                   478      38234   478       38176   478      38182

   Per ciascuna classe il punteggio medio del test è stato




   Mentre la varianza risulta essere:




   Sebbene di poco è ragionevole scegliere la classe B perché ha una dispersione inferiore
   e quindi il team offre maggiori garanzie di successo.




Bologna, 18 Febbraio 2013                                                                      8
Note di Statistica e Calcolo della probabilità




  PROBLEMA 10
  Una azienda produce pistoncini e deve fornire, come specifiche, le caratteristiche
  dimensionali del prodotto. Per questo si effettua un test a campione prendendo la
  misura della lunghezza di 40 pistoncini scelti casualmente.

  I dati (lunghezze in cm) 




  Calcoliamo la media e lo scarto quadratico medio.
  La numerosità del campione ci permetterebbe anche di dividere in classi il nostro
  carattere osservato, ma la precisione del problema impone un calcolo puntuale, dato
  per dato:


                         (cm)                    (cm)              (cm)              (cm)
                          2.08     4.3264         2.11    4.4521    2.03    4.1209    2.08    4.3264
                          2.07     4.2849         2.10     4.41     2.10     4.41     2.14    4.5796
                          2.11     4.4521         2.12    4.4944    2.07    4.2849    2.07    4.2849
                          2.09     4.3681         2.15    4.6225    2.13    4.5369    2.11    4.4521
                          2.10      4.41          2.07    4.2849    2.09    4.3681    2.13    4.5369
                          2.05     4.2025         2.06    4.2436    2.05    4.2025    2.08    4.3264
                          2.12     4.4944         2.10     4.41     2.11    4.4521    2.09    4.3681
                          2.06     4.2436         2.08    4.3264    2.10     4.41     2.10     4.41
                          2.05     4.2025         2.09    4.3681    2.09    4.3681    2.15    4.6225
                          2.09     4.3681         2.13    4.5369    2.02    4.0804    2.03    4.1209
             somma       20.82    43.3526        21.01   44.1489   20.79   43.2339   20.98   44.0278




  Valore medio 



  Varianza 


                     

  Da questa semplice analisi si può supporre che la lunghezza “tipica” prodotta sia 2.09
  cm, ma sicuramente non è molto corretto affermare che l’errore associato sia  0.03 cm,
  ovvero descrivere le dimensioni del pistoncino come (2.09  0.03) cm.

  Per approfondire la situazione domandiamoci quanti dati del nostro campione rientrano
  nell’intervallo                                                , e quanti rientrano
  nell’intervallo                         ?




Bologna, 18 Febbraio 2013                                                                              9
Note di Statistica e Calcolo della probabilità




Visualizziamo graficamente
                     2,16
                     2,15
                     2,14
                     2,13
                     2,12
                     2,11
    lunghezza (cm)




                     2,10
                     2,09
                     2,08
                     2,07
                     2,06
                     2,05
                     2,04
                     2,03
                     2,02
                     2,01
                            0   5      10        15     20      25   30      35       40
                                                      N. dato



Il numero di dati campione che rientrano nell’intervallo                  sono 28 mentre
quelli che rientrano nell’intervallo              sono 39.

Pertanto il prodotto può essere commercializzato indicando come specifica
dimensionale il valore di        cioè (2.090.06) cm.
[NOTA Qui non si parla di tolleranza meccanica ma di un errore da associare
statisticamente, dovuto a componenti casuali]




PROBLEMA 11
Una ditta che si occupa di trasporti e logistica deve decidere se far pagare il trasporto
di alcuni pacchi prodotti da una Azienda in termini di peso o di volume.
Pertanto deve analizzare se la maggiore variabilità si ha relativamente al peso o al
volume dei pacchi da trasportare in un determinato tempo (es. settimana).

I dati  (peso e volume)




Bologna, 18 Febbraio 2013                                                              10
Note di Statistica e Calcolo della probabilità




  Poiché le grandezze d’interesse sono diverse (anche se correlate)ed utilizzano unità di
  misura diverse, non è possibile confrontare direttamente l’indice di dispersione fornito
  dallo scarto quadratico medio.

  Ricorriamo quindi al coefficiente di variazione che è un indice senza dimensione:




  Si deduce che si ha una maggiore variabilità nel volume dei pacchi rispetto al loro
  peso.
  Converrebbe (dal punto di vista di chi fornisce il servizio del trasporto) differenziare le
  tariffe in funzione del volume dei pacchi.




  PROBLEMA 12
  Caratterizzare la quantità di grassi nel latte di un allevamento bovino di mucche di 3
  anni.

  I dati (percentuale di grassi % raccolti in un giorno per ogni bovino) 

     4.32    3.96    3.74    4.10   4.33    4.23   4.28   4.15   4.49   4.67   4.24   4.48   4.12   4.10   4.09
     4.42    4.00    4.16    4.67   4.03    4.29   4.05   4.11   4.29   3.89   4.20   4.33   3.86   3.99   3.91
     3.88    3.74    4.42    4.27   3.97    4.24   4.00   4.02   3.87   3.81   4.81   4.25   4.10   4.40   4.70
     4.09    4.38    4.32    5.00   4.60    4.00   4.71   4.38   4.06   3.97   4.31   4.30   4.41   4.24   4.20
     4.51    4.24    3.94    4.17   4.06    3.93   4.38   4.22   3.95   4.35   4.09   4.28   4.18   3.56   3.99
     4.38    4.46    3.96    4.16   4.08    3.97   3.70   4.17   3.86   4.05   3.89   3.82   4.33   3.58   4.60
     3.89    4.20    4.14    3.57   4.38    3.91   4.34   3.98   3.72   4.82   3.66   3.77   3.97   4.91   4.52
     3.66    4.20    3.83    3.97   4.36    4.05   4.58   3.70   4.07   3.89   4.66   3.92   4.09   4.88   4.58


  Cardinalità  120

  Poiché i dati sono numerosi e la quantità sotto osservazione è considerabile continua,
  aggreghiamo i dati raccolti tramite classi della grandezza osservata.

  Determiniamo inizialmente il range di variabilità del nostro campione e il numero
  adeguato di classi.

  Range di variabilità  [3.56; 5.00]

  Numero di classi  regola di Sturges


Bologna, 18 Febbraio 2013                                                                                     11
Note di Statistica e Calcolo della probabilità




 Ogni classe avrà una ampiezza di


 Costruiamo ora la tabella della frequenza, aggiungendo anche i dati necessari per
 determinare gli indici statistici che interessano

                  Classe           Frequenza     Frequenza     Valore     Valore     Prodotto    Prodotto
                    Ik              assoluta       relativa   centrale   centrale   ponderato   ponderato
                                       Nk              fk      xk (%)      (xk)2        fkxk       fk(xk)2
              3.56  x < 3.74          8            0.067       3.65     13.3225      0.24455    0.892608
              3.74  x < 3.92          16           0.133       3.83     14.6689      0.50939    1.950964
              3.92  x < 4.10          30           0.250       4.01     16.0801      1.00250    4.020025
              4.10  x < 4.28          24           0.200       4.19     17.5561      0.83800    3.511220
              4.28  x < 4.46          22           0.183       4.37     19.0969      0.79971    3.494733
              4.46  x < 4.64          8            0.067       4.55     20.7025      0.30485    1.387068
              4.64  x < 4.82          5            0.042       4.73     22.3729      0.19866    0.939662
                 x  4.82              7            0.058       4.91     24.1081      0.28478    1.398270
                  Totale              120              1                             4.18240     17.5945


 Calcoliamo la media campionaria della percentuale di grassi




 Calcoliamo la varianza e lo scarto quadratico medio della percentuale di grassi




 Le nostre mucche hanno quindi un contenuto percentuale medio di grassi pari a 4.18 %
 Con una dispersione di circa 0.32 %




La media e lo scarto quadratico medio sono i due indici di posizione e di dispersione più
usati.
Uno dei motivi principali è che la distribuzione normale, che viene largamente utilizzata in
molti campi diversi, è definita in termini di questi due parametri.

Nell’elaborazione pura dei dati di un campione si possono usare altri indici, sia di posizione
come abbiamo già visto, e sia di variabilità.

In particolare vediamo come si possa usare la mediana e i percentili per sintetizzare i dati
di un campione.




Bologna, 18 Febbraio 2013                                                                           12
Note di Statistica e Calcolo della probabilità




ESEMPIO 8

Carattere osservato  esito di un esame universitario scritto giudicato sufficiente per
sostenere il dialogo orale

Campione di dati 

Cardinalità  n = 35

Tipo di dato  quantitativo discreto

Ordiniamo i dati:



Calcoliamo i quartili:
      1° quartile  0.25-percentile 
      2° quartile (mediana)  0.5-percentile 
      3° quartile  0.75-percentile 

Allora è possibile considerare la mediana come indice di centralità e la nuova grandezza
         , nota come l’ampiezza dell’intervallo interquartile [ ; ] rappresenta un indice di
variabilità indicando che in tale intervallo vi è il 50 % dei valori centrali del campione.
Nel caso specifico
L’utilizzo dei suddetti indici ha una efficace rappresentazione grafica, nota come box-plot,
che consente anche un rapido confronto tra campioni diversi ma omogenei.




                                     Voto
                                     (/30) 30        Xn=max{xi}
                                                                    Permette un rapido
                                                                    confronto con i dati di
                                                q3                  un altro campione
                                          25
            Modalità del carattere




                                          20         mediana
                                                q1


                                          15
                                                     x1=min{xi}




Bologna, 18 Febbraio 2013                                                                     13
Note di Statistica e Calcolo della probabilità




Indici di forma e di simmetria

Un'altra caratteristica interessante per descrivere i dati di un campione è la forma della
distribuzione delle frequenze (forma dell’istogramma).

Il riferimento usato per confrontare queste forme è la nota “forma a campana” in cui i
dati si distribuiscono in modo simmetrico rispetto ad un valore centrale e con un
andamento “tipico”.

L’andamento tipico è quella della
distribuzione normale di Gauss che
accenneremo nella sezione di
approfondimento, e la cui forma
funzionale è, per una variabile continua:


                                            (8)



Quando i dati sono così o
approssimativamente così distribuiti si
dicono appunto normali o approssimativamente normali. Per una distribuzione normale
mediana e media coincidono e inoltre essa è caratterizzata solo da due parametri: valor
medio e deviazione standard (come si può vedere dalla forma funzionale).

Se una distribuzione di dati è approssimativamente normale, con media campionaria            e
deviazione standard , allora vale la seguente regola empirica :

    ▪    Circa il 68% dei dati hanno valori compresi tra            , cioè appartenenti
         all’intervallo
    ▪    Circa il 95% dei dati hanno valori compresi tra              , cioè appartenenti
         all’intervallo
    ▪    Circa il 99.7% dei dati hanno valori compresi tra              , cioè appartenenti
         all’intervallo




Bologna, 18 Febbraio 2013                                                             14
Note di Statistica e Calcolo della probabilità


                                                                  mediana
                                                     mediana

Se una distribuzione si allontana dalla forma normale presenterà una asimmetria che la
porterà ad avere una coda a sinistra o a destra




Una asimmetria a sinistra è detta anche negativa, mentre una a destra anche positiva.
In questo caso la mediana e la media hanno valori distinti.
Se la media è inferiore alla mediana la distribuzione è asimmetrica negativa e viceversa.
Come possiamo costruire un indice di asimmetria ?
Vi sono diverse possibilità

Partiamo generalizzando il concetto di media e di varianza, considerandoli casi particolari
di una famiglia di valori calcolabili a partire da un campione di dati, ovvero i momenti
centrali di ordine k, cioè:



Dove
         k=1               e ci permette di definire la media
         k=2               è la definizione di varianza

Il momento centrale di ordine 3 può essere utilizzato per caratterizzare l’asimmetria della
distribuzione, in quanto l’elevamento alla terza potenza amplifica le distanze maggiori tra
il dato campionato e la media, così come riduce le distanze minori.
In generale      risulterà positivo quando la distribuzione avrà una coda verso destra
distribuendo i dati più lontano dalla media, mentre        risulterà negativo quando la coda
della distribuzione sarà verso sinistra.
Se, invece     sarà vicino a zero, ciò indicherà che i dati sono distribuiti simmetricamente
intorno al valore centrale.

Nel caso particolare della distribuzione normale (8), si ha



Bologna, 18 Febbraio 2013                                                            15
Note di Statistica e Calcolo della probabilità



Poiché il momento    si porta con se solitamente una dimensione, per consentire un
immediato confronto fra distribuzioni diverse, si definisce indice di asimmetria o skewness
la quantità adimensionale



Osserviamo che questo indice è invariante per una trasformazione lineare dei dati del
campione


 ESEMPIO 9
  I clienti di un supermercato sono stati classificati sulla base dell’entità delle loro spese
 fatte in un giorno. I dati sono raccolti nella seguente tabella, dove sono state già
 aggregati per classi e dove si è fissato un limite massimo di 160 euro

 I dati 
                   Classe           Frequenza    Frequenza     Valore       Valore        Prodotto     Prodotto
                      Ik             assoluta      relativa   centrale     centrale      ponderato    ponderato
              (spesa in euro)           Nk             fk     xk (euro)      (xk)2           fkxk        fk(xk)2
                 0  x < 20            165          0.233         10         100             2.33         23.3
                 20  x < 40           212          0.299         30         900             8.97        269.1
                 40  x < 60           129          0.182         50         2500            9.10        455.0
                 60  x < 80            78          0.110         70         4900             7.7        539.0
                80  x < 100            56          0.079         90         8100            7.11        639.9
               100  x < 120            32          0.045        110        12100            4.95        544.5
               120  x < 140            25          0.035        130        16900            4.55        591.5
               140  x < 160            12          0.017        150        22500            2.55        382.5
                   Totale              709             1                                    47.26       3444.8


 Pertanto il valore medio vale
 La varianza e la deviazione standard risultano:




 Calcoliamo anche la mediana, per confronto:
                                classe modale  2a poiché
 quindi


 la differenza tra media e mediana ci suggerisce che la distribuzione dei dati sia
 asimmetrica. Pertanto calcoliamo l’indice di asimmetria
                   Classe           Frequenza    Frequenza     Valore     Scarto dalla   Cubo dello    Prodotto
                      Ik             assoluta      relativa   centrale    media            scarto     ponderato
              (spesa in euro)           Nk             fk     xk (euro)      xk - x       (xk – x)3     fk(xk – x)3
                 0  x < 20            165          0.233         10          -37          -50653      -11802,15
                 20  x < 40           212          0.299         30          -17           -4913      -1468,987
                 40  x < 60           129          0.182         50           3              27           4,914
                 60  x < 80            78          0.110         70           23           12167        1338,37
                80  x < 100            56          0.079         90           43           79507       6281,053
               100  x < 120            32          0.045        110           63          250047       11252,12
               120  x < 140            25          0.035        130           83          571787       20012,55
               140  x < 160            12          0.017        150          103         1092727       18576,36
                   Totale              709             1                                              43194,256




Bologna, 18 Febbraio 2013                                                                                  16
Note di Statistica e Calcolo della probabilità




  Calcoliamo l’indice di skewness




  L’indice è positivo e maggiore di 1. Ciò ci dice che la distribuzione è (abbastanza)
  asimmetrica positiva (coda a destra).
    0,350                  mediana = 37
    0,300                      media = 47

    0,250
    0,200
    0,150
    0,100
    0,050
    0,000
               10     30       50     70    90   110   130   150




E’ possibile ottenere anche una stima dell’indice di asimmetria tramite la seguente regola
(empirica) suggerita da Pearson
                                                                   dove   è la mediana



  Applichiamo la stima proposta all’esempio precedente:


  La stima sottostima il valore calcolato, ma in ogni caso esprime comunque l’asimmetria
  positiva.


Ovviamente possono esistere modi diversi di esprimere l’asimmetria di una distribuzione di
frequenze.

Un'altra caratteristica della forma della distribuzione che può essere catturata è la Kurtosi.

La Kurtosi è un indice di forma che misura il peso relativo che ha le code della
distribuzione rispetto alla parte centrale, cioè quanto la distribuzione è a "punta" verso
l’alto.
In modo più analitico, la Kurtosi esprime l’ordine d’infinitesimo della densità di probabilità
di una variabile aleatoria, rispetto alla distribuzione normale, cioè se la densità in oggetto
tende a 0 “più o meno velocemente” di quella normale.
Bologna, 18 Febbraio 2013                                                                17
Note di Statistica e Calcolo della probabilità




La Kurtosi si esprime come



Anche la Kurtosi è un invariante rispetto ad una trasformazione lineare dei dati.
La costante 3 nella formula indicata entra in gioco perché nel caso della distribuzione
normale        vale 0.

In particolare si ha:
    ▪ KURT > 0  code leggere – appuntite
    ▪ KURT = 0  rapporto code/parte centrale come la normale
    ▪ KURT < 0  code pesanti


                                                            KURT > 0




                                                 KURT = 0




                                                                       KURT < 0




Anche per la Kurtosi si può proporre una stima empirica data dalla seguente relazione




Bologna, 18 Febbraio 2013                                                           18
Note di Statistica e Calcolo della probabilità




Correlazione tra più caratteri

Talvolta per lo stesso campione si osservano più caratteri (peso, altezza,…) e se i caratteri
sono quantitativi è naturale porsi il problema del’esistenza di una correlazione tra i
caratteri.
Nel caso in cui si suppone l’esistenza di un legame tra le grandezze, che può nascere
dall’osservazione dei dati od anche da informazioni esterne (es. informazioni provenienti
da ambiti scientifici che trattano lo studio delle grandezze in oggetto), deve essere
individuato il tipo “funzionale” della relazione.

Risolvere, quindi, il problema della correlazione tra caratteri significa individuare il legame
funzionale tra le grandezze coinvolte e fornire una misura della bontà del risultato
ottenuto.

Analizziamo inizialmente il caso più semplice, dove per ogni individuo di un campione
vengono osservate due grandezze:

         carattere x  campione
         carattere y  campione

Aggreghiamo i dati in un unico campione 
Dove l’ordine tra le grandezze è del tutto arbitrario.

In primo luogo ci affidiamo ad una rappresentazione grafica per valutare la possibilità
che ci sia un qualche tipo di correlazione, riportando i dati su un grafico “cartesiano”
dove gli assi rappresentano i valori delle modalità di ogni carattere e ogni osservazione
congiunta (cioè che si riferisce allo stesso individuo del campione)         costituisce un
punto del grafico stesso.

Questo tipo di grafico si chiama diagramma di dispersione o scatter plot.


y                      No apparente correlazione     y               Si apparente correlazione




                                                 x                                               x

Bologna, 18 Febbraio 2013                                                                    19
Note di Statistica e Calcolo della probabilità



Il secondo diagramma evidenzia una certa regolarità: punti con ascissa piccola hanno
ordinata piccola e punti con ascissa grande hanno ordinata grande; in questo caso si
parla di correlazione diretta o positiva fra le due variabili.
Analogamente si potrà parlare di correlazione inversa o negativa fra le due grandezze.

Dallo stesso grafico si può ipotizzare una correlazione tra le due variabili di tipo lineare.


Correlazione lineare
Se i dati sono correlati in modo lineare allora sarà possibile determinare il valore di due
parametri, a e b, in modo tale che
Cioè i valori rilevati del carattere y possono essere approssimativamente dedotti da quelli
osservati per il carattere x, tramite la suddetta relazione.

La relazione funzionale              rappresenta una retta del piano Oxy e sarà la retta
“che meglio si avvicina” ai dati a disposizione.

Tale retta è detta retta di regressione

Per trovare la retta di regressione è necessario dapprima definire un criterio di scelta,
ovvero definire cosa si intende per “avvicinamento migliore” ai dati.

E’ naturale considerare la differenza tra i dati sperimentali osservati di una grandezza e
quelli dedotti applicando la relazione prevista ai dati dell’altro carattere, cioè




dove il simbolo e sta a indicare l’errore che si commette applicando la dipendenza
lineare.




Bologna, 18 Febbraio 2013                                                                 20
Note di Statistica e Calcolo della probabilità



Un criterio adeguato potrebbe essere di minimizzare la somma di tutte le suddette
differenze

Questo criterio non consente di avere una unica soluzione al problema di determinare i
coefficienti a e b. Infatti se consideriamo solo due punti, è ovvio che la retta migliore è
quella che passa per i punti stessi, ma qualunque altra retta che passa per il punto medio
dei due punti fornisce ugualmente un valore nullo allo suddetta somma che quindi la
minimizza.

Allo stesso modo se si considera la somma dei moduli degli errori come funzione obiettivo
da minimizzare, e cioè                              , si ha ancora una infinità di soluzioni al
problema. Basta pensare al caso di 4 punti, dove qualunque retta compresa tra le due
che uniscono i punti a due a due soddisfa il suddetto criterio.

Il criterio migliore e coerente da utilizzare è quello noto come CRITERIO DEI MINIMI
QUADRATI, cioè quello di minimizzare la funzione obiettivo

Quindi, sintetizzando, si può dire che la retta di regressione o la retta dei minimi quadrati è
la retta di equazione             per la quale è minima la quantità




Matematicamente il problema si risolve considerando la funzione obiettivo come funzione
delle due variabili a e b:



E quindi ricercando il minimo della stessa funzione.

Condizione necessaria affinché un punto (a,b) sia un minimo per F(a,b) è che le derivate
parziali rispetto alle variabili indipendenti si annullino (matrice Jacobiana nulla):




Bologna, 18 Febbraio 2013                                                               21
Note di Statistica e Calcolo della probabilità




                                                                                    La retta passa per il
                                                                                    punto




Osserviamo che


Inoltre si definisce la nuova quantità, rilevante nei problemi di correlazione, nota come
covarianza di x e y


La cui definizione di base è:



Infatti




                                                 –

Riformuliamo quindi le espressioni per i coefficienti della retta di regressione:



                                                               (9)


Le condizioni espresse nella (9) garantiscono anche che la matrice hessiana sia definita
positiva, cioè che il punto critico individuato sia un punto di minimo,
Bologna, 18 Febbraio 2013                                                                    22
Note di Statistica e Calcolo della probabilità



Lo studio autonomo della covarianza fornisce alcune informazioni che vanno oltre la
caratterizzazione della retta d’interpolazione, ovvero consente di classificare il tipo di
correlazione. Infatti:

         Se                 la retta di regressione è orizzontale (il coefficiente angolare della retta
         è nullo) e in un certo senso i valori di y non dipendono da quelli di x, cioè le
         grandezze non sono correlate.
         Questo accadrebbe, come esempio, se x e y fossero l’esito del lancio di due dadi.


                                 y
                                                     xy  0




                                                                      x

         Questa situazione può nascondere però una altra situazione, ovvero che la
         dipendenza tra le due grandezze non sia considerabile lineare. La figura di seguito
         indica una chiara correlazione quadratica, ma la covarianza risulta ugualmente
         nulla.
                                     y               xy  0




                                                                          x



         Se                 allora anche il coefficiente angolare della retta è positivo e quindi la
         funzione è crescente. In questo caso la correlazione si dice diretta o positiva (es.
         peso vs altezza)
                             y                   xy > 0




                                                                              x
Bologna, 18 Febbraio 2013                                                                      23
Note di Statistica e Calcolo della probabilità



         Se                 allora anche il coefficiente angolare della retta è negativo e quindi la
         funzione è decrescente. In questo caso la correlazione si dice inversa o negativa
         (es. vs altezza)
                             y                  xy < 0




                                                                               x




Un altro parametro significativo nei problemi d’interpolazione di grandezze è il
coefficiente di correlazione dei caratteri x e y




Poiché in generale


Quindi

         Se                 allora si ha scarsa correlazione tra i caratteri

         Se                   allora si ha una ottima correlazione (antagonista) tra i caratteri

         Se                 allora si ha una ottima correlazione (all’unisono) dei caratteri

L’uso del coefficiente di correlazione è diffuso proprio perché fornisce un indice
immediato della bontà della correlazione (lineare). Se il suo valore senza segno è molto
vicino a 1 indica una alta probabilità dell’effettivo legame lineare tra le grandezze.
Inoltre il coefficiente di correlazione è insensibile ad eventuali cambiamenti della scale di
misura della x e/o della y, a differenza della covarianza.




Bologna, 18 Febbraio 2013                                                                      24
Note di Statistica e Calcolo della probabilità




   ESEMPIO 10
   Ad una persona mentre cammina vengono misurate la velocità del movimento e la
   quantità di ossigeno consumata. C’è una correlazione tra le due grandezze ?

   I dati (velocità in km/h e quantità di ossigeno in litri/h) 
              Velocità             Ossigeno
               (km/h)               (litri/h)
                  0                     19
                  1                     20
                  2                   20.5
                  3                   21.5
                  4                     22
                  5                     23
                  6                     23
                  7                   23.5
                  8                     24
                  x                    y

   Proviamo a correlare le grandezze in modo lineare, costruendo la seguente tabella
   che racchiude tutti i valori necessari

                              xi                  yi     xi yi     xi2     yi2
                              0                   19        0      0      361
                              1                   20       20      1      400
                              2                  20.5      41      4     420.25
                              3                  21.5     64.5     9     462.25
                              4                   22       88      16     484
                              5                   23      115      25     529
                              6                   23      138      36     529
                              7                  23.5    164.5     49    552.25
                              8                   24      192      64     576
        Somma                 36                 196.5   823       204   4313.75

   Da cui;
   media campionaria della grandezza x 
   media campionaria della grandezza y 


              

              

                                          = 91.444


              


              


Bologna, 18 Febbraio 2013                                                          25
Note di Statistica e Calcolo della probabilità




   Varianza campionaria della grandezza x 


   Deviazione standard della grandezza x 

   Varianza campionaria della grandezza y 


   Deviazione standard della grandezza y 


   Covarianza 


   I coefficienti della retta di regressione sono ora calcolabili come




   Pertanto la retta di regressione è

   Il coefficiente di correlazione relativo è:                                          La correlazione è buona!


                                    25
                                    24
                                    23
       Consumo ossigeno (litri/h)




                                    22
                                    21                           y = 0,6167x + 19,367
                                    20                                R² = 0,9709
                                    19
                                    18
                                    17
                                    16
                                    15
                                         0   1   2   3     4        5      6       7        8      9
                                                         Velocità (km/h)




Bologna, 18 Febbraio 2013                                                                                 26
Note di Statistica e Calcolo della probabilità



Regressione polinomiale e metodi di linearizzazione

Lo stesso principio dei minimi quadrati si può applicare per stimare i coefficienti di una
interpolazione tramite un polinomio di grado n.

Consideriamo, come esempio, il caso di una dipendenza quadratica:

Legame funzionale 


Funzione obiettivo da minimizzare 

Sistema lineare da risolvere (matrice Jacobiana nulla) 




Se la legge funzionale ipotizzata non è polinomiale ma ti tipo potenza             si può
procedere alla linearizzazione e quindi applicare i suddetti metodi di interpolazione.
In particolare, la linearizzazione è effettuata utilizzando il logaritmo naturale:

Legame funzionale 

Trasformazione della legge d’interpolazione 
Rinominando le variabili                         e i parametri
si ottiene la relazione lineare                        .




Bologna, 18 Febbraio 2013                                                              27
Note di Statistica e Calcolo della probabilità



Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione
iniziale



Se la legge funzionale è di tipo esponenziale si procede analogamente:

Legame funzionale 

Trasformazione della legge d’interpolazione 
Rinominando le variabili                         e i parametri
si ottiene la relazione lineare                        .

Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione
iniziale


Altri casi d’interesse:


    ▪



    ▪



    ▪



    ▪




    ▪



    ▪




Bologna, 18 Febbraio 2013                                                            28
Note di Statistica e Calcolo della probabilità




Obiettivi dell’incontro
         Ulteriori indici di posizione
         Indici di dispersione o di variabilità
                 Varianza e deviazione standard
                 Intervallo interquartile
         Indici di forma e simmetria
         Correlazione lineare tra grandezze
         Covarianza e coefficiente di correlazione
         Interpolazione polinomiale e linearizzazione




    APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassi




Bologna, 18 Febbraio 2013                                  29

Más contenido relacionado

Destacado

Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1
ESmargiassi
 

Destacado (12)

STATISTICA DESCRITTIVA - Dall'ISTOGRAMMA alla TABELLA-CASO 3a - CARATTERE, MO...
STATISTICA DESCRITTIVA - Dall'ISTOGRAMMA alla TABELLA-CASO 3a - CARATTERE, MO...STATISTICA DESCRITTIVA - Dall'ISTOGRAMMA alla TABELLA-CASO 3a - CARATTERE, MO...
STATISTICA DESCRITTIVA - Dall'ISTOGRAMMA alla TABELLA-CASO 3a - CARATTERE, MO...
 
Appunti di statistica
Appunti di statisticaAppunti di statistica
Appunti di statistica
 
Gli stimatori e le loro proprietà
Gli stimatori e le loro proprietà Gli stimatori e le loro proprietà
Gli stimatori e le loro proprietà
 
Esercitazioni corso di Statistica con riassunti teorici
Esercitazioni corso di Statistica con riassunti teoriciEsercitazioni corso di Statistica con riassunti teorici
Esercitazioni corso di Statistica con riassunti teorici
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1
 
Statistica
StatisticaStatistica
Statistica
 
Statistica
Statistica Statistica
Statistica
 
STATISTICA DESCRITTIVA - PRIMI PASSI-4 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-4 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...STATISTICA DESCRITTIVA - PRIMI PASSI-4 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-4 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
 
La correlazione tra i Principali mercati finanziari
La correlazione tra i Principali mercati finanziariLa correlazione tra i Principali mercati finanziari
La correlazione tra i Principali mercati finanziari
 
La statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLa statistica, medie e indici di variabilità
La statistica, medie e indici di variabilità
 
Webinar MED Digital&Media Literacy18042013
Webinar MED Digital&Media Literacy18042013Webinar MED Digital&Media Literacy18042013
Webinar MED Digital&Media Literacy18042013
 
CUBICA: dal GRAFICO all'EQUAZIONE ESEMPIO 2 - TRE METODI - CALCOLI e GRAFICI ...
CUBICA: dal GRAFICO all'EQUAZIONE ESEMPIO 2 - TRE METODI - CALCOLI e GRAFICI ...CUBICA: dal GRAFICO all'EQUAZIONE ESEMPIO 2 - TRE METODI - CALCOLI e GRAFICI ...
CUBICA: dal GRAFICO all'EQUAZIONE ESEMPIO 2 - TRE METODI - CALCOLI e GRAFICI ...
 

Similar a Appunti statistica descrittiva 2

Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
Luca Vecchiato
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del gioco
Riccardo Narizzano
 
6 Strumenti Statistici
6 Strumenti Statistici6 Strumenti Statistici
6 Strumenti Statistici
Luca Vecchiato
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
Istituto nazionale di statistica
 

Similar a Appunti statistica descrittiva 2 (20)

8 Statistica
8 Statistica8 Statistica
8 Statistica
 
5 Control Charts
5 Control Charts5 Control Charts
5 Control Charts
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del gioco
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
 
Indici di variabilità
Indici di variabilità Indici di variabilità
Indici di variabilità
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statistica
 
6 Strumenti Statistici
6 Strumenti Statistici6 Strumenti Statistici
6 Strumenti Statistici
 
Statistica sociale
Statistica socialeStatistica sociale
Statistica sociale
 
Il modello Logistico
Il modello LogisticoIl modello Logistico
Il modello Logistico
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativa
 
Psicometria Parte I
 Psicometria Parte I Psicometria Parte I
Psicometria Parte I
 
Lss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excelLss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excel
 
Statistica descrittiva - consigli pratici
Statistica descrittiva - consigli praticiStatistica descrittiva - consigli pratici
Statistica descrittiva - consigli pratici
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
 
Mobile price classification
Mobile price classificationMobile price classification
Mobile price classification
 
3 b-statistics statistics
3 b-statistics statistics3 b-statistics statistics
3 b-statistics statistics
 
Gli indici di posizione
Gli indici di posizioneGli indici di posizione
Gli indici di posizione
 
G. Bruno - Strumenti statistici di base
G. Bruno - Strumenti statistici di baseG. Bruno - Strumenti statistici di base
G. Bruno - Strumenti statistici di base
 
Accuratezza
AccuratezzaAccuratezza
Accuratezza
 

Más de ESmargiassi (9)

Sheda esercizi n8 statistica descrittiva
Sheda esercizi n8   statistica descrittivaSheda esercizi n8   statistica descrittiva
Sheda esercizi n8 statistica descrittiva
 
Sheda esercizi n7 probabilità
Sheda esercizi n7   probabilitàSheda esercizi n7   probabilità
Sheda esercizi n7 probabilità
 
Sheda esercizi n6 equazioni differenziali
Sheda esercizi n6   equazioni differenzialiSheda esercizi n6   equazioni differenziali
Sheda esercizi n6 equazioni differenziali
 
Sheda esercizi n4 integrali indefiniti
Sheda esercizi n4   integrali indefinitiSheda esercizi n4   integrali indefiniti
Sheda esercizi n4 integrali indefiniti
 
Sheda esercizi n3 studio di funzione
Sheda esercizi n3   studio di funzioneSheda esercizi n3   studio di funzione
Sheda esercizi n3 studio di funzione
 
Esami metodi matematici e statistici 2010 2011
Esami metodi matematici e statistici 2010 2011Esami metodi matematici e statistici 2010 2011
Esami metodi matematici e statistici 2010 2011
 
Sheda esercizi n2 calcolo di limiti
Sheda esercizi n2   calcolo di limitiSheda esercizi n2   calcolo di limiti
Sheda esercizi n2 calcolo di limiti
 
Sheda esercizi n1 calcolo del dominio
Sheda esercizi n1   calcolo del dominioSheda esercizi n1   calcolo del dominio
Sheda esercizi n1 calcolo del dominio
 
L'insieme dei numeri reali
L'insieme dei numeri reali L'insieme dei numeri reali
L'insieme dei numeri reali
 

Último

case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
sasaselvatico
 
Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
nico07fusco
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 

Último (20)

case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Storia-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptxStoria-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptx
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptxTeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
TeccarelliLorenzo-i4stilidellapitturaromana.docx
TeccarelliLorenzo-i4stilidellapitturaromana.docxTeccarelliLorenzo-i4stilidellapitturaromana.docx
TeccarelliLorenzo-i4stilidellapitturaromana.docx
 
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
 
TeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdfTeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdf
 
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opere
 

Appunti statistica descrittiva 2

  • 1. Note di Statistica e Calcolo della probabilità DATI e PREVISIONI Note di base sulla Statistica e Calcolo della probabilità 2° Incontro: Indici statistici. Correlazione tra dati Enrico Smargiassi Bologna, 18 Febbraio 2013 1
  • 2. Note di Statistica e Calcolo della probabilità Indici Statistici Percentili I percentili sono indici statistici di posizione non centrale che si definiscono similmente alla mediana che ne è un caso particolare. In generale si definirà (con ) il più piccolo valore dei dati ordinati, , tale che la percentuale 100 di dati sia minore o uguale a Più in particolare si fa uso spesso di: primo quartile che è il valore del campione di dati per cui il numero di dati con valore inferiore o uguale a è almeno il 25% terzo quartile che è il valore del campione di dati per cui il numero di dati con valore inferiore o uguale a è almeno il 75% secondo quartile che è il valore mediano del campione, Anche in questo calcolo, come per la mediana, se non è un numero intero si prende come valore del percentile il valore successivo, ovvero Se se è invece un numero intero si può prendere come valore del percentile qualunque valore compreso tra (compreso) e ; solitamente si fa uso del valore più piccolo o del valore medio (aritmetico) ESEMPIO 6 Carattere osservato  peso in g di bambini nati in un dato ospedale in un mese Campione di dati  Cardinalità  n = 30 Tipo di dato  quantitativo continuo Ordiniamo i dati: Calcoliamo alcuni percentili: 1° quartile  0.25-percentile  2° quartile (mediana)  0.5-percentile  3° quartile  0.75-percentile  0.10-percentile  Bologna, 18 Febbraio 2013 2
  • 3. Note di Statistica e Calcolo della probabilità Aggreghiamo e rappresentiamo graficamente i dati. Il campo di variazione dei dati è l’intervallo [1800; 5000] di ampiezza 3200 g La regola di Sturges: ci suggerisce il numero di classi che fissiamo a 6. Ogni classe potrebbe avere un’ampiezza di Considerando i dati a disposizione scegliamo 500 come ampiezza di una classe. Classe Frequenza Frequenza Frequenza Frequenza Ik assoluta relativa percentuale relativa Nk fk f% k cumulativa 1800  x < 2300 3 10 % 0.10 2300  x < 2800 6 200 % 0.30 2800  x < 3300 7 23 % 0.53 3300  x < 3800 6 20 % 0.73 3800  x < 4300 5 17 % 0.90 x  4300 3 10 % 1.00 Totale 30 1 100 % Frequenza relativa fi mediana 1° quartile 0,25 3220 2760 0.10-percentile 3° quartile 2230 3860 0,2 0,15 0,1 0,05 0 2050 2550 3050 3550 4050 4850 Peso (g) Bologna, 18 Febbraio 2013 3
  • 4. Note di Statistica e Calcolo della probabilità Indici di dispersione o di variabilità Consideriamo di prendere la media campionaria come indice di centralità del campione dei dati. E’ ovvio che tale indice non è sufficiente per caratterizzare completamente il campione, poiché ci sono campioni che hanno lo stesso valor medio, ma con dati distribuiti in modo molto diverso rispetto al valore “centrale”. E’ necessario, quindi, fornire una misura di questa dispersione del campione. Vi sono molti modi per valutare la dispersione, ma generalmente si parte dagli scostamenti che i dati hanno rispetto al valore centrale scelto, ovvero Considerandoli senza segno per evitare compensazioni, cioè Sembra ragionevole considerare allora la media di tutti gli scostamenti come misura di dispersione: Questo valore è un primo indice di dispersione noto come Scarto medio assoluto. Si può matematicamente evitare di maneggiare il modulo dei dati (il modulo non è additivo, non è derivabile,…), considerando il quadrato degli scarti. Si ottiene così la definizione di varianza. Varianza campionaria (4) si usa talvolta il simbolo per riferirsi al campione in oggetto. Se i dati hanno una dimensione allora anche la varianza ha una dimensione, la stessa di x al quadrato (es. x  m  m2) Pertanto si utilizza invece della varianza la sua radice quadrata che ha la stessa dimensione dei dati. Scarto quadratico medio (o deviazione standard) (5) Il termine deviazione standard è più usato in ambito della statistica inferenziale. Tanto maggiore è la distanza media dei dati dal “suo centro”, maggiore è il valore della varianza, che appunto fornisce una misura della dispersione o variabilità del campione. Nel caso di dati aggregati, secondo le modalità o le classi, valgono le seguenti relazioni per il calcolo della varianza e lo scarto quadratico medio, dove k indica il numero delle modalità o di classi: Bologna, 18 Febbraio 2013 4
  • 5. Note di Statistica e Calcolo della probabilità (6) Molto spesso, nel calcolo della varianza si usa una espressione che prevede dove l’uso di n-1 piuttosto che n è giustificato e più idoneo nell’ambito della statistica inferenziale, dove si affronta il problema della stima dei parametri delle distribuzioni. Nel caso di un’analisi dati di tipo solo descrittivo continuiamo ad utilizzare l’espressione (4) Alcune proprietà della varianza 1. Formula pratica per il calcolo della varianza - =n =n Pertanto (7) Cioè la varianza è calcolabile come la media dei quadrati dei dati diminuita del quadrato della media. 2. Trasformazione della varianza al cambiamento lineare della base dati Se x è una variabile con un campione di dati e i dati sono traslati di un offset con conseguente modifica del campione di dati allora la varianza rimane inalterata, cioè (la dispersione non cambia per un offset!) Infatti: Se invece la trasformazione dei dati riguarda una trasformazione di scala, allora la relazione delle varianze è data da Infatti: dove in entrambe le relazioni si è sfruttata la proprietà della media per una trasformazione lineare dei dati. Bologna, 18 Febbraio 2013 5
  • 6. Note di Statistica e Calcolo della probabilità 3. La varainza come minimo di un funzionale Se consideriamo la funzione reale a valore reale: definita per un dato campione di dati. Allora V(x) assume valore minimo per cioè quando lo scostamento è calcolato rispetto al valore medio. Infatti: OSSERVAZIONE Se consideriamo la funzione somma degli scostamenti in modulo allora essa è minima quando si prende x uguale alla mediana dei dati disposizione. 4. Variabile standardizzata Se invece della variabile osservata x, relativa al campione si considera la variabile: con campione di dati allora quest’ultima è una variabile centrata e ridotta, cioè con media nulla e varainza unitaria. Infatti: dove si sono sfruttate le proprietà della media e della varianza. 5. Coefficiente di variazione Come indice di dispersione di un campione si può utilizzare anche il rapporto dello scarto quadratico medio con la media campionaria, ovvero: Il coefficiente di variazione esprime la deviazione standard come percentuale della media. Essendo misurate con la stessa unità di misura, cv è un indice adimensionale e quindi si presta ad essere utilizzato per confrontare la dispersione di campioni diversi e non omogenei. Bologna, 18 Febbraio 2013 6
  • 7. Note di Statistica e Calcolo della probabilità ESEMPIO 7 Carattere osservato  tempi in minuti per l’esecuzione di un determinato processo di lavorazione Campione di dati  Cardinalità  n = 10 Tipo di dato  quantitativo discreto Indici di posizione e di dispersione  disponiamo i dati in una tabella (numero di dati limitato) Media  (min) 2.6 6.76 Varianza  1.8 3.24 2.1 4.41 1.5 2.25 2.8 7.84 Scarto quadratico medio  3.0 9.00 1.2 1.44 1.9 3.61 2.3 5.29 Coefficiente di variazione  2.8 7.84 Somma 22.0 51.68 E’ ragionevole dedurre che il campione è poco disperso intorno al suo valore centrale Bologna, 18 Febbraio 2013 7
  • 8. Note di Statistica e Calcolo della probabilità PROBLEMA 9 Per la partecipazione a una gara di chimica una scuola deve proporre una squadra di 6 alunni di una stessa classe. La scuola organizza un test preliminare per scegliere la squadra. Il test che ha un punteggio massimo di 100 punti, ha permesso di individuare 3 classi sulla media dei migliori 6 punteggi conseguiti dagli alunni di una stessa classe. Questo valore medio è però uguale per le tre squadre che quindi risultano a pari merito. Con quale criterio può essere scelta la squadra da mandare alla gara? I dati (punteggi nel test)  Classe A Classe B Classe C (/100) (/100) (/100) Punteggio alunni 72 5184 74 5476 73 5329 75 5625 75 5625 76 5776 78 6084 80 6400 79 6241 83 6889 81 6561 82 6724 84 7056 83 6889 84 7056 86 7396 85 7225 84 7056 Somma 478 38234 478 38176 478 38182 Per ciascuna classe il punteggio medio del test è stato Mentre la varianza risulta essere: Sebbene di poco è ragionevole scegliere la classe B perché ha una dispersione inferiore e quindi il team offre maggiori garanzie di successo. Bologna, 18 Febbraio 2013 8
  • 9. Note di Statistica e Calcolo della probabilità PROBLEMA 10 Una azienda produce pistoncini e deve fornire, come specifiche, le caratteristiche dimensionali del prodotto. Per questo si effettua un test a campione prendendo la misura della lunghezza di 40 pistoncini scelti casualmente. I dati (lunghezze in cm)  Calcoliamo la media e lo scarto quadratico medio. La numerosità del campione ci permetterebbe anche di dividere in classi il nostro carattere osservato, ma la precisione del problema impone un calcolo puntuale, dato per dato: (cm) (cm) (cm) (cm) 2.08 4.3264 2.11 4.4521 2.03 4.1209 2.08 4.3264 2.07 4.2849 2.10 4.41 2.10 4.41 2.14 4.5796 2.11 4.4521 2.12 4.4944 2.07 4.2849 2.07 4.2849 2.09 4.3681 2.15 4.6225 2.13 4.5369 2.11 4.4521 2.10 4.41 2.07 4.2849 2.09 4.3681 2.13 4.5369 2.05 4.2025 2.06 4.2436 2.05 4.2025 2.08 4.3264 2.12 4.4944 2.10 4.41 2.11 4.4521 2.09 4.3681 2.06 4.2436 2.08 4.3264 2.10 4.41 2.10 4.41 2.05 4.2025 2.09 4.3681 2.09 4.3681 2.15 4.6225 2.09 4.3681 2.13 4.5369 2.02 4.0804 2.03 4.1209 somma 20.82 43.3526 21.01 44.1489 20.79 43.2339 20.98 44.0278 Valore medio  Varianza   Da questa semplice analisi si può supporre che la lunghezza “tipica” prodotta sia 2.09 cm, ma sicuramente non è molto corretto affermare che l’errore associato sia  0.03 cm, ovvero descrivere le dimensioni del pistoncino come (2.09  0.03) cm. Per approfondire la situazione domandiamoci quanti dati del nostro campione rientrano nell’intervallo , e quanti rientrano nell’intervallo ? Bologna, 18 Febbraio 2013 9
  • 10. Note di Statistica e Calcolo della probabilità Visualizziamo graficamente 2,16 2,15 2,14 2,13 2,12 2,11 lunghezza (cm) 2,10 2,09 2,08 2,07 2,06 2,05 2,04 2,03 2,02 2,01 0 5 10 15 20 25 30 35 40 N. dato Il numero di dati campione che rientrano nell’intervallo sono 28 mentre quelli che rientrano nell’intervallo sono 39. Pertanto il prodotto può essere commercializzato indicando come specifica dimensionale il valore di cioè (2.090.06) cm. [NOTA Qui non si parla di tolleranza meccanica ma di un errore da associare statisticamente, dovuto a componenti casuali] PROBLEMA 11 Una ditta che si occupa di trasporti e logistica deve decidere se far pagare il trasporto di alcuni pacchi prodotti da una Azienda in termini di peso o di volume. Pertanto deve analizzare se la maggiore variabilità si ha relativamente al peso o al volume dei pacchi da trasportare in un determinato tempo (es. settimana). I dati  (peso e volume) Bologna, 18 Febbraio 2013 10
  • 11. Note di Statistica e Calcolo della probabilità Poiché le grandezze d’interesse sono diverse (anche se correlate)ed utilizzano unità di misura diverse, non è possibile confrontare direttamente l’indice di dispersione fornito dallo scarto quadratico medio. Ricorriamo quindi al coefficiente di variazione che è un indice senza dimensione: Si deduce che si ha una maggiore variabilità nel volume dei pacchi rispetto al loro peso. Converrebbe (dal punto di vista di chi fornisce il servizio del trasporto) differenziare le tariffe in funzione del volume dei pacchi. PROBLEMA 12 Caratterizzare la quantità di grassi nel latte di un allevamento bovino di mucche di 3 anni. I dati (percentuale di grassi % raccolti in un giorno per ogni bovino)  4.32 3.96 3.74 4.10 4.33 4.23 4.28 4.15 4.49 4.67 4.24 4.48 4.12 4.10 4.09 4.42 4.00 4.16 4.67 4.03 4.29 4.05 4.11 4.29 3.89 4.20 4.33 3.86 3.99 3.91 3.88 3.74 4.42 4.27 3.97 4.24 4.00 4.02 3.87 3.81 4.81 4.25 4.10 4.40 4.70 4.09 4.38 4.32 5.00 4.60 4.00 4.71 4.38 4.06 3.97 4.31 4.30 4.41 4.24 4.20 4.51 4.24 3.94 4.17 4.06 3.93 4.38 4.22 3.95 4.35 4.09 4.28 4.18 3.56 3.99 4.38 4.46 3.96 4.16 4.08 3.97 3.70 4.17 3.86 4.05 3.89 3.82 4.33 3.58 4.60 3.89 4.20 4.14 3.57 4.38 3.91 4.34 3.98 3.72 4.82 3.66 3.77 3.97 4.91 4.52 3.66 4.20 3.83 3.97 4.36 4.05 4.58 3.70 4.07 3.89 4.66 3.92 4.09 4.88 4.58 Cardinalità  120 Poiché i dati sono numerosi e la quantità sotto osservazione è considerabile continua, aggreghiamo i dati raccolti tramite classi della grandezza osservata. Determiniamo inizialmente il range di variabilità del nostro campione e il numero adeguato di classi. Range di variabilità  [3.56; 5.00] Numero di classi  regola di Sturges Bologna, 18 Febbraio 2013 11
  • 12. Note di Statistica e Calcolo della probabilità Ogni classe avrà una ampiezza di Costruiamo ora la tabella della frequenza, aggiungendo anche i dati necessari per determinare gli indici statistici che interessano Classe Frequenza Frequenza Valore Valore Prodotto Prodotto Ik assoluta relativa centrale centrale ponderato ponderato Nk fk xk (%) (xk)2 fkxk fk(xk)2 3.56  x < 3.74 8 0.067 3.65 13.3225 0.24455 0.892608 3.74  x < 3.92 16 0.133 3.83 14.6689 0.50939 1.950964 3.92  x < 4.10 30 0.250 4.01 16.0801 1.00250 4.020025 4.10  x < 4.28 24 0.200 4.19 17.5561 0.83800 3.511220 4.28  x < 4.46 22 0.183 4.37 19.0969 0.79971 3.494733 4.46  x < 4.64 8 0.067 4.55 20.7025 0.30485 1.387068 4.64  x < 4.82 5 0.042 4.73 22.3729 0.19866 0.939662 x  4.82 7 0.058 4.91 24.1081 0.28478 1.398270 Totale 120 1 4.18240 17.5945 Calcoliamo la media campionaria della percentuale di grassi Calcoliamo la varianza e lo scarto quadratico medio della percentuale di grassi Le nostre mucche hanno quindi un contenuto percentuale medio di grassi pari a 4.18 % Con una dispersione di circa 0.32 % La media e lo scarto quadratico medio sono i due indici di posizione e di dispersione più usati. Uno dei motivi principali è che la distribuzione normale, che viene largamente utilizzata in molti campi diversi, è definita in termini di questi due parametri. Nell’elaborazione pura dei dati di un campione si possono usare altri indici, sia di posizione come abbiamo già visto, e sia di variabilità. In particolare vediamo come si possa usare la mediana e i percentili per sintetizzare i dati di un campione. Bologna, 18 Febbraio 2013 12
  • 13. Note di Statistica e Calcolo della probabilità ESEMPIO 8 Carattere osservato  esito di un esame universitario scritto giudicato sufficiente per sostenere il dialogo orale Campione di dati  Cardinalità  n = 35 Tipo di dato  quantitativo discreto Ordiniamo i dati: Calcoliamo i quartili: 1° quartile  0.25-percentile  2° quartile (mediana)  0.5-percentile  3° quartile  0.75-percentile  Allora è possibile considerare la mediana come indice di centralità e la nuova grandezza , nota come l’ampiezza dell’intervallo interquartile [ ; ] rappresenta un indice di variabilità indicando che in tale intervallo vi è il 50 % dei valori centrali del campione. Nel caso specifico L’utilizzo dei suddetti indici ha una efficace rappresentazione grafica, nota come box-plot, che consente anche un rapido confronto tra campioni diversi ma omogenei. Voto (/30) 30 Xn=max{xi} Permette un rapido confronto con i dati di q3 un altro campione 25 Modalità del carattere 20 mediana q1 15 x1=min{xi} Bologna, 18 Febbraio 2013 13
  • 14. Note di Statistica e Calcolo della probabilità Indici di forma e di simmetria Un'altra caratteristica interessante per descrivere i dati di un campione è la forma della distribuzione delle frequenze (forma dell’istogramma). Il riferimento usato per confrontare queste forme è la nota “forma a campana” in cui i dati si distribuiscono in modo simmetrico rispetto ad un valore centrale e con un andamento “tipico”. L’andamento tipico è quella della distribuzione normale di Gauss che accenneremo nella sezione di approfondimento, e la cui forma funzionale è, per una variabile continua: (8) Quando i dati sono così o approssimativamente così distribuiti si dicono appunto normali o approssimativamente normali. Per una distribuzione normale mediana e media coincidono e inoltre essa è caratterizzata solo da due parametri: valor medio e deviazione standard (come si può vedere dalla forma funzionale). Se una distribuzione di dati è approssimativamente normale, con media campionaria e deviazione standard , allora vale la seguente regola empirica : ▪ Circa il 68% dei dati hanno valori compresi tra , cioè appartenenti all’intervallo ▪ Circa il 95% dei dati hanno valori compresi tra , cioè appartenenti all’intervallo ▪ Circa il 99.7% dei dati hanno valori compresi tra , cioè appartenenti all’intervallo Bologna, 18 Febbraio 2013 14
  • 15. Note di Statistica e Calcolo della probabilità mediana mediana Se una distribuzione si allontana dalla forma normale presenterà una asimmetria che la porterà ad avere una coda a sinistra o a destra Una asimmetria a sinistra è detta anche negativa, mentre una a destra anche positiva. In questo caso la mediana e la media hanno valori distinti. Se la media è inferiore alla mediana la distribuzione è asimmetrica negativa e viceversa. Come possiamo costruire un indice di asimmetria ? Vi sono diverse possibilità Partiamo generalizzando il concetto di media e di varianza, considerandoli casi particolari di una famiglia di valori calcolabili a partire da un campione di dati, ovvero i momenti centrali di ordine k, cioè: Dove k=1  e ci permette di definire la media k=2  è la definizione di varianza Il momento centrale di ordine 3 può essere utilizzato per caratterizzare l’asimmetria della distribuzione, in quanto l’elevamento alla terza potenza amplifica le distanze maggiori tra il dato campionato e la media, così come riduce le distanze minori. In generale risulterà positivo quando la distribuzione avrà una coda verso destra distribuendo i dati più lontano dalla media, mentre risulterà negativo quando la coda della distribuzione sarà verso sinistra. Se, invece sarà vicino a zero, ciò indicherà che i dati sono distribuiti simmetricamente intorno al valore centrale. Nel caso particolare della distribuzione normale (8), si ha Bologna, 18 Febbraio 2013 15
  • 16. Note di Statistica e Calcolo della probabilità Poiché il momento si porta con se solitamente una dimensione, per consentire un immediato confronto fra distribuzioni diverse, si definisce indice di asimmetria o skewness la quantità adimensionale Osserviamo che questo indice è invariante per una trasformazione lineare dei dati del campione ESEMPIO 9 I clienti di un supermercato sono stati classificati sulla base dell’entità delle loro spese fatte in un giorno. I dati sono raccolti nella seguente tabella, dove sono state già aggregati per classi e dove si è fissato un limite massimo di 160 euro I dati  Classe Frequenza Frequenza Valore Valore Prodotto Prodotto Ik assoluta relativa centrale centrale ponderato ponderato (spesa in euro) Nk fk xk (euro) (xk)2 fkxk fk(xk)2 0  x < 20 165 0.233 10 100 2.33 23.3 20  x < 40 212 0.299 30 900 8.97 269.1 40  x < 60 129 0.182 50 2500 9.10 455.0 60  x < 80 78 0.110 70 4900 7.7 539.0 80  x < 100 56 0.079 90 8100 7.11 639.9 100  x < 120 32 0.045 110 12100 4.95 544.5 120  x < 140 25 0.035 130 16900 4.55 591.5 140  x < 160 12 0.017 150 22500 2.55 382.5 Totale 709 1 47.26 3444.8 Pertanto il valore medio vale La varianza e la deviazione standard risultano: Calcoliamo anche la mediana, per confronto: classe modale  2a poiché quindi la differenza tra media e mediana ci suggerisce che la distribuzione dei dati sia asimmetrica. Pertanto calcoliamo l’indice di asimmetria Classe Frequenza Frequenza Valore Scarto dalla Cubo dello Prodotto Ik assoluta relativa centrale media scarto ponderato (spesa in euro) Nk fk xk (euro) xk - x (xk – x)3 fk(xk – x)3 0  x < 20 165 0.233 10 -37 -50653 -11802,15 20  x < 40 212 0.299 30 -17 -4913 -1468,987 40  x < 60 129 0.182 50 3 27 4,914 60  x < 80 78 0.110 70 23 12167 1338,37 80  x < 100 56 0.079 90 43 79507 6281,053 100  x < 120 32 0.045 110 63 250047 11252,12 120  x < 140 25 0.035 130 83 571787 20012,55 140  x < 160 12 0.017 150 103 1092727 18576,36 Totale 709 1 43194,256 Bologna, 18 Febbraio 2013 16
  • 17. Note di Statistica e Calcolo della probabilità Calcoliamo l’indice di skewness L’indice è positivo e maggiore di 1. Ciò ci dice che la distribuzione è (abbastanza) asimmetrica positiva (coda a destra). 0,350 mediana = 37 0,300 media = 47 0,250 0,200 0,150 0,100 0,050 0,000 10 30 50 70 90 110 130 150 E’ possibile ottenere anche una stima dell’indice di asimmetria tramite la seguente regola (empirica) suggerita da Pearson dove è la mediana Applichiamo la stima proposta all’esempio precedente: La stima sottostima il valore calcolato, ma in ogni caso esprime comunque l’asimmetria positiva. Ovviamente possono esistere modi diversi di esprimere l’asimmetria di una distribuzione di frequenze. Un'altra caratteristica della forma della distribuzione che può essere catturata è la Kurtosi. La Kurtosi è un indice di forma che misura il peso relativo che ha le code della distribuzione rispetto alla parte centrale, cioè quanto la distribuzione è a "punta" verso l’alto. In modo più analitico, la Kurtosi esprime l’ordine d’infinitesimo della densità di probabilità di una variabile aleatoria, rispetto alla distribuzione normale, cioè se la densità in oggetto tende a 0 “più o meno velocemente” di quella normale. Bologna, 18 Febbraio 2013 17
  • 18. Note di Statistica e Calcolo della probabilità La Kurtosi si esprime come Anche la Kurtosi è un invariante rispetto ad una trasformazione lineare dei dati. La costante 3 nella formula indicata entra in gioco perché nel caso della distribuzione normale vale 0. In particolare si ha: ▪ KURT > 0  code leggere – appuntite ▪ KURT = 0  rapporto code/parte centrale come la normale ▪ KURT < 0  code pesanti KURT > 0 KURT = 0 KURT < 0 Anche per la Kurtosi si può proporre una stima empirica data dalla seguente relazione Bologna, 18 Febbraio 2013 18
  • 19. Note di Statistica e Calcolo della probabilità Correlazione tra più caratteri Talvolta per lo stesso campione si osservano più caratteri (peso, altezza,…) e se i caratteri sono quantitativi è naturale porsi il problema del’esistenza di una correlazione tra i caratteri. Nel caso in cui si suppone l’esistenza di un legame tra le grandezze, che può nascere dall’osservazione dei dati od anche da informazioni esterne (es. informazioni provenienti da ambiti scientifici che trattano lo studio delle grandezze in oggetto), deve essere individuato il tipo “funzionale” della relazione. Risolvere, quindi, il problema della correlazione tra caratteri significa individuare il legame funzionale tra le grandezze coinvolte e fornire una misura della bontà del risultato ottenuto. Analizziamo inizialmente il caso più semplice, dove per ogni individuo di un campione vengono osservate due grandezze: carattere x  campione carattere y  campione Aggreghiamo i dati in un unico campione  Dove l’ordine tra le grandezze è del tutto arbitrario. In primo luogo ci affidiamo ad una rappresentazione grafica per valutare la possibilità che ci sia un qualche tipo di correlazione, riportando i dati su un grafico “cartesiano” dove gli assi rappresentano i valori delle modalità di ogni carattere e ogni osservazione congiunta (cioè che si riferisce allo stesso individuo del campione) costituisce un punto del grafico stesso. Questo tipo di grafico si chiama diagramma di dispersione o scatter plot. y No apparente correlazione y Si apparente correlazione x x Bologna, 18 Febbraio 2013 19
  • 20. Note di Statistica e Calcolo della probabilità Il secondo diagramma evidenzia una certa regolarità: punti con ascissa piccola hanno ordinata piccola e punti con ascissa grande hanno ordinata grande; in questo caso si parla di correlazione diretta o positiva fra le due variabili. Analogamente si potrà parlare di correlazione inversa o negativa fra le due grandezze. Dallo stesso grafico si può ipotizzare una correlazione tra le due variabili di tipo lineare. Correlazione lineare Se i dati sono correlati in modo lineare allora sarà possibile determinare il valore di due parametri, a e b, in modo tale che Cioè i valori rilevati del carattere y possono essere approssimativamente dedotti da quelli osservati per il carattere x, tramite la suddetta relazione. La relazione funzionale rappresenta una retta del piano Oxy e sarà la retta “che meglio si avvicina” ai dati a disposizione. Tale retta è detta retta di regressione Per trovare la retta di regressione è necessario dapprima definire un criterio di scelta, ovvero definire cosa si intende per “avvicinamento migliore” ai dati. E’ naturale considerare la differenza tra i dati sperimentali osservati di una grandezza e quelli dedotti applicando la relazione prevista ai dati dell’altro carattere, cioè dove il simbolo e sta a indicare l’errore che si commette applicando la dipendenza lineare. Bologna, 18 Febbraio 2013 20
  • 21. Note di Statistica e Calcolo della probabilità Un criterio adeguato potrebbe essere di minimizzare la somma di tutte le suddette differenze Questo criterio non consente di avere una unica soluzione al problema di determinare i coefficienti a e b. Infatti se consideriamo solo due punti, è ovvio che la retta migliore è quella che passa per i punti stessi, ma qualunque altra retta che passa per il punto medio dei due punti fornisce ugualmente un valore nullo allo suddetta somma che quindi la minimizza. Allo stesso modo se si considera la somma dei moduli degli errori come funzione obiettivo da minimizzare, e cioè , si ha ancora una infinità di soluzioni al problema. Basta pensare al caso di 4 punti, dove qualunque retta compresa tra le due che uniscono i punti a due a due soddisfa il suddetto criterio. Il criterio migliore e coerente da utilizzare è quello noto come CRITERIO DEI MINIMI QUADRATI, cioè quello di minimizzare la funzione obiettivo Quindi, sintetizzando, si può dire che la retta di regressione o la retta dei minimi quadrati è la retta di equazione per la quale è minima la quantità Matematicamente il problema si risolve considerando la funzione obiettivo come funzione delle due variabili a e b: E quindi ricercando il minimo della stessa funzione. Condizione necessaria affinché un punto (a,b) sia un minimo per F(a,b) è che le derivate parziali rispetto alle variabili indipendenti si annullino (matrice Jacobiana nulla): Bologna, 18 Febbraio 2013 21
  • 22. Note di Statistica e Calcolo della probabilità La retta passa per il punto Osserviamo che Inoltre si definisce la nuova quantità, rilevante nei problemi di correlazione, nota come covarianza di x e y La cui definizione di base è: Infatti – Riformuliamo quindi le espressioni per i coefficienti della retta di regressione: (9) Le condizioni espresse nella (9) garantiscono anche che la matrice hessiana sia definita positiva, cioè che il punto critico individuato sia un punto di minimo, Bologna, 18 Febbraio 2013 22
  • 23. Note di Statistica e Calcolo della probabilità Lo studio autonomo della covarianza fornisce alcune informazioni che vanno oltre la caratterizzazione della retta d’interpolazione, ovvero consente di classificare il tipo di correlazione. Infatti: Se la retta di regressione è orizzontale (il coefficiente angolare della retta è nullo) e in un certo senso i valori di y non dipendono da quelli di x, cioè le grandezze non sono correlate. Questo accadrebbe, come esempio, se x e y fossero l’esito del lancio di due dadi. y xy  0 x Questa situazione può nascondere però una altra situazione, ovvero che la dipendenza tra le due grandezze non sia considerabile lineare. La figura di seguito indica una chiara correlazione quadratica, ma la covarianza risulta ugualmente nulla. y xy  0 x Se allora anche il coefficiente angolare della retta è positivo e quindi la funzione è crescente. In questo caso la correlazione si dice diretta o positiva (es. peso vs altezza) y xy > 0 x Bologna, 18 Febbraio 2013 23
  • 24. Note di Statistica e Calcolo della probabilità Se allora anche il coefficiente angolare della retta è negativo e quindi la funzione è decrescente. In questo caso la correlazione si dice inversa o negativa (es. vs altezza) y xy < 0 x Un altro parametro significativo nei problemi d’interpolazione di grandezze è il coefficiente di correlazione dei caratteri x e y Poiché in generale Quindi Se allora si ha scarsa correlazione tra i caratteri Se allora si ha una ottima correlazione (antagonista) tra i caratteri Se allora si ha una ottima correlazione (all’unisono) dei caratteri L’uso del coefficiente di correlazione è diffuso proprio perché fornisce un indice immediato della bontà della correlazione (lineare). Se il suo valore senza segno è molto vicino a 1 indica una alta probabilità dell’effettivo legame lineare tra le grandezze. Inoltre il coefficiente di correlazione è insensibile ad eventuali cambiamenti della scale di misura della x e/o della y, a differenza della covarianza. Bologna, 18 Febbraio 2013 24
  • 25. Note di Statistica e Calcolo della probabilità ESEMPIO 10 Ad una persona mentre cammina vengono misurate la velocità del movimento e la quantità di ossigeno consumata. C’è una correlazione tra le due grandezze ? I dati (velocità in km/h e quantità di ossigeno in litri/h)  Velocità Ossigeno (km/h) (litri/h) 0 19 1 20 2 20.5 3 21.5 4 22 5 23 6 23 7 23.5 8 24 x y Proviamo a correlare le grandezze in modo lineare, costruendo la seguente tabella che racchiude tutti i valori necessari xi yi xi yi xi2 yi2 0 19 0 0 361 1 20 20 1 400 2 20.5 41 4 420.25 3 21.5 64.5 9 462.25 4 22 88 16 484 5 23 115 25 529 6 23 138 36 529 7 23.5 164.5 49 552.25 8 24 192 64 576 Somma 36 196.5 823 204 4313.75 Da cui; media campionaria della grandezza x  media campionaria della grandezza y     = 91.444   Bologna, 18 Febbraio 2013 25
  • 26. Note di Statistica e Calcolo della probabilità Varianza campionaria della grandezza x  Deviazione standard della grandezza x  Varianza campionaria della grandezza y  Deviazione standard della grandezza y  Covarianza  I coefficienti della retta di regressione sono ora calcolabili come Pertanto la retta di regressione è Il coefficiente di correlazione relativo è: La correlazione è buona! 25 24 23 Consumo ossigeno (litri/h) 22 21 y = 0,6167x + 19,367 20 R² = 0,9709 19 18 17 16 15 0 1 2 3 4 5 6 7 8 9 Velocità (km/h) Bologna, 18 Febbraio 2013 26
  • 27. Note di Statistica e Calcolo della probabilità Regressione polinomiale e metodi di linearizzazione Lo stesso principio dei minimi quadrati si può applicare per stimare i coefficienti di una interpolazione tramite un polinomio di grado n. Consideriamo, come esempio, il caso di una dipendenza quadratica: Legame funzionale  Funzione obiettivo da minimizzare  Sistema lineare da risolvere (matrice Jacobiana nulla)  Se la legge funzionale ipotizzata non è polinomiale ma ti tipo potenza si può procedere alla linearizzazione e quindi applicare i suddetti metodi di interpolazione. In particolare, la linearizzazione è effettuata utilizzando il logaritmo naturale: Legame funzionale  Trasformazione della legge d’interpolazione  Rinominando le variabili e i parametri si ottiene la relazione lineare . Bologna, 18 Febbraio 2013 27
  • 28. Note di Statistica e Calcolo della probabilità Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione iniziale Se la legge funzionale è di tipo esponenziale si procede analogamente: Legame funzionale  Trasformazione della legge d’interpolazione  Rinominando le variabili e i parametri si ottiene la relazione lineare . Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione iniziale Altri casi d’interesse: ▪ ▪ ▪ ▪ ▪ ▪ Bologna, 18 Febbraio 2013 28
  • 29. Note di Statistica e Calcolo della probabilità Obiettivi dell’incontro Ulteriori indici di posizione Indici di dispersione o di variabilità Varianza e deviazione standard Intervallo interquartile Indici di forma e simmetria Correlazione lineare tra grandezze Covarianza e coefficiente di correlazione Interpolazione polinomiale e linearizzazione APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassi Bologna, 18 Febbraio 2013 29