SlideShare a Scribd company logo
1 of 172
Download to read offline
Dispensa di Analisi dei Dati

          S B




         V 
        Versione non definitiva.




            Licenza Creative commons

Indice

   Introduzione all'analisi dei dati                                                                                       
    . Analisi dei dati: a cosa serve? . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    
         .. Un esempio: twier e la borsa .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    
    . La ricerca . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Aeggiamento critico . . . . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
    . Validità . . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Tipi di validità . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
    . L'analisi dei dati . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Statistica esplorativa . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Statistica descriiva univariata .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Statistie esplorative bivariate .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
    . Statistica inferenziale . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Gli errori . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Campionamento . . . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Intervalli di confidenza . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Testare un'ipotesi . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Scegliere la statistica appropriata     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
    . Esercizi . . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   

   L'approccio simulativo                                                                                                 
    . Gli errori di campionamento . . . . . . . . . . .                  .   .   .   .   .   .   .   .   .   .   .   .   
         .. Distribuzione degli errori . . . . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   
    . Introduzione all'approccio simulativo . . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   
         .. Generare popolazione e campioni . . . .                     .   .   .   .   .   .   .   .   .   .   .   .   
         .. Campioni di numerosità  . . . . . . . .                   .   .   .   .   .   .   .   .   .   .   .   .   
    . Intervallo di confidenza . . . . . . . . . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   
    . Bootstrapping . . . . . . . . . . . . . . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   
         .. Generare molti campioni da un campione                      .   .   .   .   .   .   .   .   .   .   .   .   
         .. Confronto fra le distribuzioni . . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   
         .. Usare l'approccio parametrico . . . . . .                   .   .   .   .   .   .   .   .   .   .   .   .   

                                            
                                                                                                                     INDICE

   Intervallo di confidenza, calcolo parametrico                                                                          
    . L'intervallo di confidenza . . . . . . . . . . . .             .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. La simulazione . . . . . . . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Dalla simulazione alla stima . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. La distribuzione t di Student . . . . . .              .   .   .   .   .   .   .   .   .   .   .   .   .   
    . Confronto fra un campione ed una popolazione                  .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Il p-value . . . . . . . . . . . . . . . . .           .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Primo esempio . . . . . . . . . . . . . .              .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Secondo esempio . . . . . . . . . . . .                .   .   .   .   .   .   .   .   .   .   .   .   .   

   Confronto fra variabili categoriali: χ2                                                                               
    . Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                      
    . Confronto di una distribuzione campionaria con una distribuzione teorica                                          
         .. Un esempio: distribuzione occupati . . . . . . . . . . . . . . .                                           
    . Stima dell'errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                     
    . La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                      
    . La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                       
         .. La funzione isq.test . . . . . . . . . . . . . . . . . . . . . . .                                        
    . Confronto fra due variabili nominali . . . . . . . . . . . . . . . . . . .                                        
         .. Calcolare le frequenze aese . . . . . . . . . . . . . . . . . . .                                         

   T test: confronto fra medie di due campioni                                                                           
    . Introduzione . . . . . . . . . . . . . . . . . . . . . .                  .   .   .   .   .   .   .   .   .   .   
    . Calcolo non parametrico . . . . . . . . . . . . . . . .                   .   .   .   .   .   .   .   .   .   .   
          .. La simulazione . . . . . . . . . . . . . . . .                    .   .   .   .   .   .   .   .   .   .   
          .. La distribuzione U Mann-Whitney-Wilcoxon                          .   .   .   .   .   .   .   .   .   .   
    . Approccio parametrico . . . . . . . . . . . . . . . . .                   .   .   .   .   .   .   .   .   .   .   
          .. Assunzioni . . . . . . . . . . . . . . . . . . .                  .   .   .   .   .   .   .   .   .   .   
          .. R: p-value usando la distribuzione . . . . . .                    .   .   .   .   .   .   .   .   .   .   
          .. Uso della funzione t.test . . . . . . . . . .                     .   .   .   .   .   .   .   .   .   .   
          .. Conclusioni . . . . . . . . . . . . . . . . . .                   .   .   .   .   .   .   .   .   .   .   

   Correlazione e regressione lineare                                                                                    
    . Introduzione . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. La rea di regressione . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
    . Analisi inferenziale . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Correlazione e causazione . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Modelli Lineari Generalizzati . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
    . Approccio intuitivo . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. La simulazione . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Alcuni esempi . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Uso della distribuzione teorica .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
    . Regressione lineare . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Regressione lineare: il modello .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. Assunti della regressione lineare      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
         .. R: la funzione lm () . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
INDICE                                                                                                                              

          .. Varianza dei residui, R2 .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    
    .   Violazione degli assunti . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    
    .   Coefficiente di Spearman . . . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    
          .. arto esempio, sigmoide           .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    
    .   Conclusioni . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   

   Analisi della Varianza                                                                                                        
    . Introduzione . . . . . . . . . . . . . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
         .. Confronto a coppie . . . . . . . . . . . . . .                             .   .   .   .   .   .   .   .   .   .   
    . Varianze . . . . . . . . . . . . . . . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
         .. Varianza spiegata e previsioni . . . . . . . .                             .   .   .   .   .   .   .   .   .   .   
         .. Un esempio: gli affii in una cià . . . . . .                               .   .   .   .   .   .   .   .   .   .   
    . Inferenza e previsioni . . . . . . . . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
         .. L'analisi della Varianza . . . . . . . . . . . .                           .   .   .   .   .   .   .   .   .   .   
    . Distribuzione dell'errore, inferenza . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
         .. La distribuzione Fisher-Snedecor . . . . . . .                             .   .   .   .   .   .   .   .   .   .   
         .. R: uso di aov . . . . . . . . . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
    . Anova a due vie . . . . . . . . . . . . . . . . . . . .                           .   .   .   .   .   .   .   .   .   .   
         .. Due variabili indipendenti . . . . . . . . . .                             .   .   .   .   .   .   .   .   .   .   
         .. Un esempio: antidepressivi e aività aerobica                              .   .   .   .   .   .   .   .   .   .   
         .. Il calcolo . . . . . . . . . . . . . . . . . . . .                         .   .   .   .   .   .   .   .   .   .   
         .. Modello lineare . . . . . . . . . . . . . . . .                            .   .   .   .   .   .   .   .   .   .   
         .. L'esempio dei traamenti per la depressione .                              .   .   .   .   .   .   .   .   .   .   
    . Confronti multipli . . . . . . . . . . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
         .. La correzione di Bonferroni . . . . . . . . . .                            .   .   .   .   .   .   .   .   .   .   
         .. Il test di Tukey . . . . . . . . . . . . . . . . .                         .   .   .   .   .   .   .   .   .   .   
         .. Analisi della Varianza: assunti . . . . . . . .                            .   .   .   .   .   .   .   .   .   .   
    . Test non parametrico . . . . . . . . . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
         .. Il test di Kruskal-Wallis . . . . . . . . . . . .                          .   .   .   .   .   .   .   .   .   .   
    . Conclusioni . . . . . . . . . . . . . . . . . . . . . . .                         .   .   .   .   .   .   .   .   .   .   

   Casi di studio                                                                                                                
    . Il framing effect nella scelta di un paceo                   turistico: un esperimento
         on line . . . . . . . . . . . . . . . . . . . .              . . . . . . . . . . . . . . .                               
         .. Introduzione . . . . . . . . . . . . .                 . . . . . . . . . . . . . . .                               
         .. Metodo . . . . . . . . . . . . . . . .                 . . . . . . . . . . . . . . .                               
         .. Conclusioni . . . . . . . . . . . . .                  . . . . . . . . . . . . . . .                               
    . Depressione . . . . . . . . . . . . . . . . . .               . . . . . . . . . . . . . . .                               
    . Confronto fra  variabili ad intervalli . . . .               . . . . . . . . . . . . . . .                               
         .. Disegno i grafici delle  variabili . .                 . . . . . . . . . . . . . . .                               
         .. Correlazione . . . . . . . . . . . . .                 . . . . . . . . . . . . . . .                               
         .. Conclusioni . . . . . . . . . . . . .                  . . . . . . . . . . . . . . .                               
    . Differenza fra masi e femmine . . . . . .                     . . . . . . . . . . . . . . .                               
         .. Test non parametrico . . . . . . . .                   . . . . . . . . . . . . . . .                               
    . estionario parole-non parole . . . . . . .                   . . . . . . . . . . . . . . .                               
         .. Filtro i dati . . . . . . . . . . . . . .              . . . . . . . . . . . . . . .                               
                                                                                                                              INDICE

          .. Rapporto fra scolarità e media di risposte corree .                                   .   .   .   .   .   .   .   
          .. Confronto per genere . . . . . . . . . . . . . . . .                                   .   .   .   .   .   .   .   
    .   Il problema della violazione degli assunti . . . . . . . . . .                               .   .   .   .   .   .   .   
          .. Possibili soluzioni . . . . . . . . . . . . . . . . . .                                .   .   .   .   .   .   .   
    .   Calcolo su dati artificiali . . . . . . . . . . . . . . . . . . .                             .   .   .   .   .   .   .   
          .. Correlazione . . . . . . . . . . . . . . . . . . . . .                                 .   .   .   .   .   .   .   
          .. Analisi della varianza a due vie . . . . . . . . . .                                   .   .   .   .   .   .   .   

A Primi passi con R                                                                                                                
  A. Scaricare e avviare R . . . . . . . . . .            .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Scaricare R . . . . . . . . . . .             .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Usare R come una calcolatrice                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Operazioni booleane . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
  A. Help . . . . . . . . . . . . . . . . . . .           .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
  A. Funzioni . . . . . . . . . . . . . . . .             .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Creare e manipolare matrici .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Filtri . . . . . . . . . . . . . .            .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Data frames . . . . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Liste . . . . . . . . . . . . . .             .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
  A. Le distribuzioni teorie . . . . . . . .             .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. La distribuzione normale . . .                .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       A.. Altre distribuzioni . . . . . . .             .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   

B R: analisi descrittiva                                                                                                           
  B. Analisi descriive . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       B.. Leggere un file di dati . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       B.. Visualizzare il sommario          .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       B.. Variabili nominali . . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
       B.. Variabili a rapporti . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   
Capitolo 

Introduzione all'analisi dei dati

Indice
         .   Analisi dei dati: a cosa serve? . . . . .    .   .   .   .   .   .   .   .   .    .    .    .    . .    
               .. Un esempio: twier e la borsa . .      .   .   .   .   .   .   .   .   .   .    .    .    . .     
         .   La ricerca . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .    .    .    .    . .   
               .. Aeggiamento critico . . . . . .       .   .   .   .   .   .   .   .   .   .    .    .    . .    
         .   Validità . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .    .    .    .    . .   
               .. Tipi di validità . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .    .    .    . .    
         .   L'analisi dei dati . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .    .    .    .    . .   
               .. Statistica esplorativa . . . . . . .   .   .   .   .   .   .   .   .   .   .    .    .    . .    
               .. Statistica descriiva univariata .     .   .   .   .   .   .   .   .   .   .    .    .    . .    
               .. Statistie esplorative bivariate .     .   .   .   .   .   .   .   .   .   .    .    .    . .    
         .   Statistica inferenziale . . . . . . . . .    .   .   .   .   .   .   .   .   .    .    .    .    . .   
               .. Gli errori . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .    .    .    . .    
               .. Campionamento . . . . . . . . .        .   .   .   .   .   .   .   .   .   .    .    .    . .    
               .. Intervalli di confidenza . . . . .      .   .   .   .   .   .   .   .   .   .    .    .    . .    
               .. Testare un'ipotesi . . . . . . . . .   .   .   .   .   .   .   .   .   .   .    .    .    . .    
               .. Scegliere la statistica appropriata    .   .   .   .   .   .   .   .   .   .    .    .    . .    
         .   Esercizi . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .    .    .    .    . .   



. Analisi dei dati: a cosa serve?
      ``I keep saying that the sexy job in the next  years will be statisticians.
      And I'm not kidding.'' Hal Varian, ief economist at Google

La citazione è traa da un articolo apparso sul New York Times nell'agosto . Con lo
svilupparsi di internet e delle nuove tecnologie, sostiene l'articolo, vivremo in un mondo
dove tuo può essere misurato, dove il numero di informazioni di tipo quantitativo è
destinato a crescere di anno in anno. Il problema, notano, è e affiné questi dati ab-
biano un senso, è necessario trasformarli in informazioni e conoscenza. Per fare questo,
i dati vanno analizzati. La statistica e l'analisi dei dati sono fra gli strumenti necessari
per meere in ao questa trasformazione. Dati, informazioni, conoscenza.

                                              
                               CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

    L'analisi dei dati, dunque, può essere utilizzata per trasformare i dati raccolti da
osservazioni empirie in informazioni e, all'interno di un contesto conoscitivo, ac-
crescono la conoscenza degli individui e delle organizzazioni.
    L'articolo del New York Times enfatizza principalmente la conoscenza applicativa,
finalizzata ad oenere risultati pratici. L'analisi dei dati può essere utilizzata ane per
fare delle previsioni.

.. Un esempio: twitter e la borsa
Recentemente, è stato pubblicato un articolo (Bollen et al., ) in cui dei ricercatori
hanno analizzato il flusso di status su twier, hanno analizzato la frequenza di alcuni
termini lessicali legati al tono dell'umore e allo stato emozionale. Ebbene, la ricerca ha
evidenziato e:

    X questo tipo di analisi riesce a misurare il tono dell'umore degli utenti twier;

    X questa misura ha una capacità significativa di prevedere, di due o tre giorni, l'an-
      damento della borsa di New York.

esto lavoro è un esempio interessante non solo dell'importanza dell'analisi dei dati, ma
ane di alcuni aspei metodologici. I ricercatori, infai, si sono posti alcune domande:

    X gli utenti twier tendono ad esprimere, nei loro post, ane il loro umore?

    X è possibile analizzare l'umore di un tweet verificando la presenza di determinati
      termini lessicali?

    X è possibile correlare questi termini con dei costrui psicologici?

    X è ipotizzabile e esista, oltre allo stato dell'umore individuale, ane uno sta-
      to dell'umore colleivo? Ovvero, è possibile e, in un determinato giorno o in
      un determinato periodo, una popolazione di individui tenda a provare le stesse
      emozioni?

    X è possibile e -- ammesso e esista -- questo umore colleivo abbia un'influen-
      za su alcuni comportamenti o su alcuni indici economici? Ad esempio, l'umore
      colleivo ha una relazione con l'andamento della borsa?

    Per rispondere a queste domande, Bollen et al. () hanno adoato un approccio
empirico. In primo luogo, hanno studiato la leeratura. Il loro articolo riporta alcune
ricere e indicano come l'analisi testuale dei blog sia capace di fare delle previsioni sul
successo dei film nelle sale cinematografie, e dall'analisi delle at si possa prevedere
l'andamento della vendita di libri. Inoltre, citano un lavoro e dimostra come il public
sentiment, l'opinione colleiva degli utenti dei social network relativi ad un film sia
capace di prevederne il successo commerciale.
    In secondo luogo vengono citati una serie di lavori e di teorie socio-cognitive e
dimostrano come le emozioni hanno un'influenza sui processi decisionali. Citano dei
lavori e mostrano come le emozioni abbiano un ruolo ane nell'ambito economico-
finanziario.
.. ANALISI DEI DATI: A COSA SERVE?                                                          

    Gli autori fanno dunque un'ipotesi: è ragionevole assumere, dicono, e le emozioni e
l'umore del pubblico possano avere un'influenza sui valori del mercato azionario. Citano
una ricerca e ha indagato proprio questo aspeo, arrivando a conclusioni a supporto
di quest'ipotesi.
    Il loro lavoro, dunque, si basa su alcune ipotesi verosimili, supportate da una serie di
ricere fae da altri ricercatori, e ne confermano la plausibilità. I ricercatori esprimo-
no degli interessi, potremmo dire delle curiosità. Si pongono delle domande: esiste un
umore colleivo? esto umore colleivo può avere un impao su aspei importanti
della vita delle persone e delle organizzazioni? È possibile misurare questo umore?
    La leeratura sull'argomento sembra rispondere positivamente a queste domande.
L'umore colleivo è misurabile, ed è un indicatore interessante. Misurarlo con strumenti
tradizionali (ad esempio con i questionari e i sondaggi nazionali) è però molto costoso,
osservano. Esiste il modo di misurare quel parametro in maniera altreando efficace ma
meno costosa?
    Un modo alternativo per misurare il parametro, osservano, è quello di utilizzare
internet e le moderne tecnologie per raccogliere l'enorme mole di dati pubblicati dagli
utenti internet sui social network, identificare degli indicatori capaci di cogliere quella
misura, e araverso opportune analisi trasformare questi indicatori in una misura capace
di stimare il parametro.
    Gli autori, dunque, fanno una seconda ipotesi: sebbene un tweet sia lungo al mas-
simo  caraeri, l'analisi di milioni di questi tweet può offrire una rappresentazione
accurata dell'umore colleivo. Ane in questo caso, l'ipotesi è supportata da alcuni
lavori sperimentali, e vengono citati.
    Bollen et al. () esprimono l'ipotesi centrale del loro lavoro:

      In this paper we investigate whether public sentiment, as expressed in large-
      scale collections of daily Twier posts, can be used to predict the sto
      market.

    I ricercatori hanno fao un'indagine empirica (sebbene non sperimentale) per valu-
tare la loro ipotesi. Hanno raccolto quasi  milioni di tweet, di circa .. utenti.
Araverso degli strumenti di analisi testuale, hanno calcolato la presenza o meno di
termini generalmente utilizzati, nella lingua inglese, per esprimere il proprio umore.
Ane in questo caso, hanno utilizzato degli indicatori noti in leeratura, sebbene da
loro modificati per meglio adaarsi alla loro ricerca.
    Partendo da questo lavoro di data-mining (di estrazione di informazioni) Bollen et al.
() hanno oenuto alcuni indicatori. Uno, relativo al tono dell'umore (positivo vs.
negativo). Altri sei indicatori, correlati ai costrui psicologici di calma, allerta, sicurezza,
vitalità, gentilezza e felicità. Araverso opportune trasformazioni, hanno calcolato, per
ognuna di queste dimensioni, l'andamento giornaliero del sentimento pubblico.
    Per verificare e questi indici misurassero davvero i costrui e nominalmente rap-
presentano, hanno identificato due momenti e, si suppone, potevano avere un forte im-
pao emotivo: l'elezione del presidente Obama e il giorno del ringraziamento. Ebbene,
in concomitanza con questi due eventi, i sismografi
    Utilizzando le API di twier, hanno raccolto
    ----------
                              CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

. La ricerca
La ricerca scientifica è una aività struurata, finalizzata ad accrescere la conoscenza,
teorica e applicativa, araverso un aeggiamento empirico. All'interno del processo
di ricerca vi sono aività di acquisizione, analisi ed interpretazione dei dati. L'acqui-
sizione è finalizzata a raccogliere i dati, l'analisi è finalizzata a trasformare i dati in
informazioni, l'interpretazione a trasformare l'informazione in conoscenza.
    La ricerca usa procedure, metodi e tecnie coerenti con una specifica scelta episte-
mologica e metodologica. Tali procedure, metodi e tecnie sono scelti in base alla loro
validità e affidabilità. Infine, l'aeggiamento scientifico dovrebbe rispeare dei crite-
ri di obieività, ed evitare ogni forma di manipolazione finalizzata a piegare i risultati
alle ipotesi del ricercatore. Uno dei fini dell'utilizzo di procedure, metodi e tecnie
standardizzate è proprio quello di rispeare dei ragionevoli criteri di obieività.
    La ricerca scientifica, dunque, dovrebbe essere -- nel limite del possibile -- una
aività controllata, rigorosa, sistematica, valida, verificabile, empirica, e critica.


Attività controllata Una delle finalità del metodo sperimentale è quella di misurare
la relazione fra due variabili, minimizzando gli effei di faori estranei. Il criterio della
controllabilità è più facile da oenere quando l'aività di ricerca avviene in un contesto
il più possibile controllato, quale il laboratorio sperimentale.


Ricerca qualitativa Lo svantaggio della ricerca in laboratorio, soprauo nell'ambito
delle scienze sociali e psicologie, è e la controllabilità implica la semplificazione del
seing. Per questo motivo, ad un approccio streamente sperimentale e quantitativo, è
spesso necessario affiancare delle aività di ricerca di tipo più qualitativo e, sebbene
meno solide dal punto di vista inferenziale, possono permeere alla comunità scientifi-
ca di avere una più completa visione d'insieme, e possono permeere di meglio conte-
stualizzare ane i risultati, più particolari, delle ricere sperimentali più streamente
controllate e quantitative.
    In termini epistemologici, questo aeggiamento viene definito pluralismo metodo-
logico, mentre l'idea e un solo tipo di approccio empirico e conoscitivo sia possibile è
definito monismo metodologico.


Rigorosità Il conceo di rigorosità si riferisce ad un aeggiamento epistemologico
finalizzato ad identificare misure, strumenti e metodi e siano rilevanti, appropriati e
giustificati (teoricamente ed empiricamente).


Sistematicità Indica e la procedura adoata segue una iara sequenza logica.


.. Atteggiamento critico
L'idea di aeggiamento critico, di sano sceicismo da parte del ricercatore, è la quin-
tessenza del pensiero epistemologico di Popper. Secondo Popper la ricerca scientifica
.. LA RICERCA                                                                           

dovrebbe vivere di due momenti: a formulazione di ipotesi; b processo di falsificazio-
ne delle ipotesi. In questa prospeiva, è il ricercatore stesso e, araverso il metodo
sperimentale, cerca di falsificare le proprie ipotesi e le proprie teorie.
    In realtà, un simile aeggiamento autocritico è difficile da mantenere, ane peré,
per un ricercatore, è molto più gratificante confermare la validità delle proprie ipotesi e
falsificarle. Ciononostante, questo approccio critico è considerato talmente importante
e vi sono due meccanismi metodologici, fortemente consolidati, finalizzati proprio a
rafforzare questo aeggiamento.

    Il peer reviewing Uno dei due meccanismi finalizzato a mantenere l'aeggiamen-
to critico è il meccanismo del peer reviewing: prima e un lavoro scientifico venga
acceato (e dunque pubblicato su di una rivista scientifica), deve passare al vaglio di
altri ricercatori. esto esame fra colleghi avviene in forma anonima, ed è finalizzato
proprio a garantire e, prima di venir pubblicato, il lavoro sia analizzato aentamente e
con ocio critico per valutarne sia il rispeo dei principi epistemologici e metodologici,
di validità e la rilevanza scientifica.

     Falsificazione e ipotesi nulla In secondo luogo, l'approccio falsificazionista sta
alla base della statistica inferenziale. Come vedremo nei prossimi paragrafi e nel corso
dell'intera dispensa, la statistica inferenziale è finalizzata a valutare quanto le misure
oenute siano aribuibili al caso. Nel confronto fra due (o più) variabili, ad esempio,
si cerca di capire se fra le variabili vi è una relazione. Per fare questo, si identifica una
statistica, ovvero una procedura di calcolo araverso cui si oiene un valore numerico.
Il fine del processo inferenziale è stabilire se quel valore numerico va aribuito al caso
(all'errore di campionamento) o alla relazione fra le variabili.
     Per fare questo, si formulano due ipotesi: l'ipotesi nulla (H0 ) assume e il valore
numerico misurato sia aribuibile al caso, e e dunque, dall'analisi faa, non si possa
dedurre e vi sia una relazione. L'ipotesi alternativa (HA ) assume invece e il valore
numerico non sia aribuibile al caso, e dunque si possa inferire e la relazione esiste.
     Ebbene, il processo inferenziale si basa sul rifiuto (ovvero, sulla falsificazione) del-
l'ipotesi nulla. Se il valore numerico calcolato è superiore (o inferiore, a seconda dei
casi) ad un valore critico, si rifiuta l'ipotesi nulla, ovvero si falsifica l'ipotesi e non vi
sia relazione fra le variabili. In caso contrario, l'ipotesi nulla non viene rifiutata, ma si
rifiuta l'ipotesi alternativa.

           In God we trust, all others bring data. -- William Edwards Deming

Principi
Come abbiamo visto, la ricerca scientifica si basa su di una serie di principi epistemologici
e metodologici.

    X empiricismo (guardare ai dati);

    X determinismo (assumere la presenza di relazioni causa - effeo);

    X parsimonia (le spiegazioni semplici sono meglio di quelle complicate);
                                CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

     X preferenza per un approccio scientifico - sperimentale;

     X un sano sceicismo;

     X amore per la precisione;

     X indagine basata su teorie e ipotesi;

     X rispeo per i paradigmi teorici;

     X disponibilità a cambiare opinione (e ad ammeere di avere, talvolta, torto);

     X fedeltà alla realtà, ovvero alle osservazioni empirie;

     X aversione per la superstizione, e preferenza per le spiegazioni scientifie;

     X sete di conoscenza, o più banalmente sana curiosità e voglia di sapere;

     X capacità di sospensione del giudizio;

     X consapevolezza delle proprie assunzioni, e dei limiti (teorici, metodologici, di mi-
       surazione);

     X capacità di separare le cose importanti da quelle irrilevanti;

     X rispeo - e aitudine positiva - verso i metodi quantitativi;

     X conoscenza delle basi della statistica e della teoria della probabilità;

     X consapevolezza e la conoscenza è sempre imperfea e in quale modo impre-
       cisa.

Metodo scientifico
Sebbene non esista una ricea preconfezionata, possiamo semplificare l'approccio scien-
tifico come qualcosa e assomiglia al processo seguente:

     . osserva un aspeo del mondo

     . formula un'ipotesi su quell'aspeo

     . usa la teoria per fare delle previsioni

     . testa le tue previsioni, araverso delle osservazioni o, meglio, degli esperimenti

     . modifica la teoria alla luce dei risultati

     . ricomincia dal punto .
.. LA RICERCA                                                                         

Analisi della letteratura

           A month in the laboratory can oen save an hour in the library.
      -- F. H. Westheimer

Per trovare una risposta scientificamente plausibile ad un problema:

   X studiare la leeratura: molto probabilmente il problema è già stato affrontato,
     sono state sviluppate delle teorie, sono stati pubblicati degli esperimenti. Prima
     di immaginare di iniziare una ricerca, è fondamentale analizzare la leeratura.

   X se dalla leeratura emergono risposte iare, il processo può fermarsi: abbiamo la
     risposta e cercavamo.

Contribuire alla ricerca Se dall'analisi della leeratura non emerge una risposta ia-
ra alle domande e ci siamo posti, può aver senso cercare di dare una risposta empirica,
adoando il metodo scientifico.

   X partire da ciò e è emerso dallo studio della leeratura;

   X se opportuno, iniziare una fase di osservazione, o una raccolta dati più aperta,
     meno quantitativa e più qualitativa, per meglio definire il problema;

   X formulare un'ipotesi, plausibilmente all'interno di una teoria;

   X formulare una previsione, basata sull'ipotesi;

   X procedere ad uno studio empirico, possibilmente quantitativo, possibilmente con
     un disegno di tipo sperimentale;

   X analizzare i dati, possibilmente con l'utilizzo ane di statistie inferenziali;

   X trarre delle conclusioni.

Tipologie di ricere empirie Abbiamo già accennato e l'approccio empirico
può essere più rigoroso, quantitativo, oppure privilegiare un aspeo più qualitativo.
Semplificando, possiamo elencare le seguenti tipologie di ricerca:

   X osservazione non sistematica: si traa di osservare un fenomeno, prenderne nota;
     è utile in una fase iniziale della ricerca, per iniziare ad avere un'idea del fenomeno
     studiato e formulare le prime ipotesi;

   X osservazione sistematica: il fenomeno non viene solo osservato, ma ane misu-
     rato; le dimensioni rilevanti vengono decise in anticipo;
     event sampling: viene registrato un dato ogni volta e ha luogo un evento; time
     sampling; viene faa una osservazione ad ogni intervallo di tempo;
     l'osservazione, in quanto tale, tende a non modificare né interferire con quello e
     osserva;
                              CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

     X esperimento: finalizzato a verificare o falsificare un'ipotesi; implica la manipola-
       zione direa di una o più variabili (indipendenti), la misura di uno o più variabili
       dipendenti, e l'analisi dei dati araverso delle statistie inferenziali;
     X si definisce quasi-esperimento una situazione empirica in cui le variabili indipen-
       denti non possono essere manipolate dallo sperimentatore.
     X le simulazioni usano modelli fisici o matematici per riprodurre le condizioni di
       una situazione o di un processo.


. Validità
Il metodo scientifico, e più in particolare l'approccio sperimentale, si basa sull'assunzione
e vi sia un legame esplicativo fra ciò e succede nel contesto sperimentale e quello
e si intende spiegare.
    L'esperimento, in quanto tale, tende a replicare in un seing controllato alcuni aspei
di ciò e avviene nel mondo esterno, per poter verificare se vi è una relazione causale
fra due o più variabili.
    Per fare questo bisogna ricreare la situazione nel seing, testare la relazione causale,
e riportare la relazione all'ambiente originale.

Presupposti di validità I presupposti sono:
     X e alcuni aspei di un fenomeno si possano misurare, se non su tua la popola-
       zione, almeno su di un campione;
     X e, a partire da queste misurazioni, si possano fare delle analisi statistie per far
       emergere delle relazioni o delle differenze;
     X e questi risultati abbiano una significatività statistica;
     X e ciò e si è misurato e e i dati oenuti abbiano un legame con il fenomeno
       in questione;
     X e i risultati oenuti sul campione, nel contesto sperimentale, possano essere
       generalizzati.
Una ricerca è valida se rispea questi assunti.

.. Tipi di validità
In leeratura si trovano diversi tipi di validità. Ne eleniamo i più importanti.

La validità di costrutto Si preoccupa di valutare se una scala (o una variabile) misura
- o correla - con il costruo scientifico teorizzato. La validità di costruo può essere
supportata dalla validità convergente, e ha luogo quando la misura correla statistica-
mente con misure correlate teoricamente, e dalla validità discriminante, e ha luogo
quando vi è una mancata correlazione statistica con misure e la teoria suppone non
siano correlate.
.. L'ANALISI DEI DATI                                                                  

La validità di contenuto Si preoccupa e l'esperimento (o le variabili misurate) co-
prano adeguatamente il soggeo di studio, ed è fortemente legata al design sperimentale.

La validità statistica È legata alla possibilità di trarre delle inferenze dall'analisi sta-
tistica, ovvero se le differenze o le associazioni e misuriamo sono statisticamente
significative.

La validità interna Vi è validità interna se possiamo assumere e vi sia una rela-
zione causale fra le variabili studiate, ovvero se una correlazione osservata può essere
considerata una relazione causale. Può essere assunta solo all'interno di un disegno
sperimentale.

La validità esterna Si preoccupa di verificare se le conclusioni valide nel seing spe-
rimentale possono essere generalizzate, alla popolazione o a contesti diversi.

Validità e statistica
    X L'analisi dei dati è uno degli strumenti e ci permee di valutare alcuni degli
      aspei della validità di un esperimento.

    X L'analisi descriiva ed esplorativa ci permeono di verificare l'esistenza di una
      relazione fra variabili.

    X L'analisi inferenziale ci permee di verificare la validità statistica propriamente
      dea.

    X Le tecnie di campionamento sono finalizzate a massimizzare la validità esterna.

    X Il design sperimentale ha il fine di preservare la validità interna

Affidabilità
L'affidabilità si riferisce alla qualità del processo di misurazione delle variabili. È legato
agli aspei della ripetibilità della misura e di accuratezza della stessa.


. L'analisi dei dati
Scopi
L'analisi dei dati è finalizzata a molteplici scopi:

    X descrivere -- numericamente e graficamente -- una misura relativa ad un campio-
      ne;

    X fare delle stime -- puntuali e ad intervallo -- relative a dei parametri della popo-
      lazione;
                                CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

     X calcolare delle relazioni fra due o più variabili, misurate sul campione, e fare delle
       inferenze in merito alla popolazione di riferimento;

     X fare delle previsioni in merito al valore di una osservazione, non nota, a partire
       da delle osservazioni note.

   Possiamo dunque distinguere fra statistie descriive-esplorative e statistie infe-
renziali.

.. Statistica esplorativa
Finalità Le statistie descriive sono finalizzate a:

     X avere una prima visione, qualitativa, delle variabili raccolte;

     X controllare la presenza di errori, ad esempio di data-entry;

     X far emergere outliers e anomalie;

     X valutare qualitativamente ipotesi e assunti, determinare qualitativamente le rela-
       zioni fra le variabili;

     X identificare l'entità e la direzione delle relazioni fra le variabili;

     X selezionare i modelli statistici appropriati;

    Le statistie esplorative propriamente dee (Exploratory Data Analysis, EDA) han-
no ane altre funzioni:

     X scoprire paern e struure implicite;

     X estrarre variabili latenti, o far emergere variabili importanti;

     X sviluppare modelli parsimoniosi (riduzione dello spazio delle variabili);

     X determinare opportuni parametri per ulteriori analisi (es n' di faori, n' di clusters)

Tipologie di statistica esplorativa La statistica esplorativa può essere univariata o
multivariata. Inoltre, può utilizzare metodi grafici e metodi non grafici.
    Spesso, in leeratura, si tende ad usare sia il termine descriiva e esplorativa,
ane se forse ha più senso parlare di statistica esplorativa quando valuta la relazione
fra due o più variabili, e descriiva la statistica non inferenziale univariata.
    Mentre l'analisi inferenziale segue la definizione dell'ipotesi di ricerca, l'analisi esplo-
rativa spesso ha luogo prima della definizione del modello teorico e dell'ipotesi di ricerca.
Semplificando, nell'analisi inferenziale, la sequenza teorica è problema → definizione di
un modello (ipotesi) → raccolta dei dati → analisi → eventuali conclusioni
    Nell'analisi esplorativa, la sequenza è
problema → raccolta dei dati → analisi esplorativa → definizione di un modello (ipotesi)
→ eventuali conclusioni
.. L'ANALISI DEI DATI                                                                 

.. Statistica descrittiva univariata
Nella statistica descriiva univariata (non grafica), si valutano prevalentemente tre aspet-
ti (Waltenburg and McLaulan, ):

   X le tendenze centrali della distribuzione

   X la dispersione della distribuzione

   X la forma della distribuzione

Gli strumenti e le misure della statistica descriiva univariata dipendono dalla tipologia
della variabile: categoriale-ordinale versus numerica (intervalli, rapporti).

Distribuzione
La distribuzione sintetizza la frequenza dei valori o di intervalli di valori di una varia-
bile. La frequenza può essere assoluta (il numero di osservazioni e cadono in quella
categoria o e rientrano in quel valore o intervallo) o in termini percentuali.
     La distribuzione può essere rappresentata in forma tabellare, oppure con un grafico
(tipicamente, un istogramma). Nella forma tabellare, rappresenta una distribuzione di
frequenza. Possiamo distinguere

   X frequenze assolute: si contano il numero di volte e un particolare valore è
     oenuto nel campione;

   X frequenze relative, proporzioni: frequenze assolute divise per il numero di osser-
     vazioni;

   X frequenze percentuali: proporzioni moltiplicate per .

Le frequenze sono rappresentate in tabelle di contingenza.

Tendenze centrali
La tendenza centrale di una distribuzione è una stima del centro di una distribuzione di
valori.
    Vi sono tre principali tipologie di stima della tendenza centrale:

   X la moda: il valore (o la categoria) più frequente. Per calcolare la moda, è sufficiente
     ordinare i punteggi in base alla frequenza, e selezionare il primo.

   X la mediana: il valore e sta a metà quando le osservazioni sono ordinate in base
     alla variabile. Se il numero di osservazioni è dispari, si calcola la media fra i due
     valori centrali.

   X la media aritmetica, si calcola sommando i valori e dividendo la somma per il
     numero di osservazioni.
                               CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

Indici di dispersione
La dispersione si riferisce alla diffusione dei valori intorno alla tendenza centrale. Le
due misure più importanti sono

     X il range, ovvero la distanza fra il valore massimo ed il minimo.

     X la deviazione standard misura la variabilità aorno alla media.

     X la distanza interquartilica: corrisponde al range fra il primo e il terzo quartile.
       Meno soggeo agli outliers.

    Non tui questi indici possono essere applicati a tue le variabili, e dunque il primo
passaggio nella statistica descriiva è dunque quello di definire le tipologie di variabili
studiate.

Tipologie di variabili
Possiamo distinguere  tipologie di variabili:

     X nominali

     X ordinali

     X ad intervalli

     X a rapporti

Nel definire le tipologie di statistie applicabili, la distinzione più importante è fra
variabili categoriali e quantitative (intervalli, rapporti).

Scale nominali Le variabili nominali creano delle categorie, e permeono di classifi-
care le osservazioni all'interno di quelle categorie.
    Alle varie categorie non può essere aribuito un ordine, e tantomeno è possibile fare
delle operazioni matematie sulle variabili nominali.
    Una variabile dicotomica è un caso speciale di variabile nominale, in cui vi sono
soltanto due categorie.
    A partire da una variabile nominale è possibile calcolare la frequenza (ovvero il
numero di osservazioni classificate in ogni gruppo) e la moda (ovvero il gruppo più
numeroso).

Scale ordinali Le variabili ordinali permeono di stabilire un ordine fra gli elementi.
      Soo certi aspei, costituiscono una estensione delle variabili nominali. Essendo
possibile stabilire un ordine, permeono di identificare la posizione di un elemento nel
rapporto con gli altri elementi.
      Data una variabile ordinale, oltre alla moda, è possibile calcolare i percentili, i quar-
tili, la mediana.
.. L'ANALISI DEI DATI                                                                    

Scale ad intervalli Le variabili ad intervalli non solo possono essere ordinate, ma è
possibile fare delle assunzioni in merito alla distanza fra i valori, in quanto la distanza
fra ogni valore intero è costante.
    È possibile misurare non soltanto la moda e la mediana, ma ane la media aritme-
tica fra le tendenze centrali; fra le misure di dispersione, possiamo misurare il range, la
distanza interquartilica e la deviazione standard.
    Le scale a rapporto sono variabili ad intervalli; la loro particolarità è dovuta al fao
e il valore e corrisponde allo zero non è arbitrario, ma assoluto. Ciononostante,
generalmente si applicano alle variabili a rapporto le stesse statistie delle variabili ad
intervalli.

Variabili e statistie
Statistica descrittiva univariata categoriale Nel caso di variabile categoriale, la rap-
presentazione non grafica più appropriata è in forma tabellare: si costruisce una tabella,
con tante colonne quanti i livelli della variabile. I valori delle celle rappresentano la fre-
quenza delle osservazioni per ogni livello. La frequenza può essere assoluta (il numero
di osservazioni) o relativa. Per oenere la tabella della frequenza relativa si dividono le
osservazioni di ogni livello per il numero di osservazioni totale.
    L'unica misura della tendenza centrale appropriata per le scale nominali è la moda,
ovvero il livello con frequenza più alta.
    Graficamente, una variabile categoriale può essere rappresentata araverso un gra-
fico a barre.
    Se il numero di livelli è basso, può essere utile ane la rappresentazione del grafico
a torta.

Statistica descrittiva univariata, variabili ordinali Nel caso di variabili ordinali,
oltre alla moda e al numero di livelli, possiamo calcolare:

    X l'indice di centralità della mediana;

    X indici di dispersione quali il range e i percentili; di particolare interesse i quartili
      e la distanza interquartilica.

    X ane nel caso di variabili ordinali, se il numero di livelli è relativamente basso,
      può essere utile creare la tabella delle frequenze, assolute o relative.

    X La rappresentazione grafica più appropriata è il grafico a barre, a pao e l'ordine
      degli elementi grafici rispei l'ordine delle categorie.

Statistica descrittiva univariata, variabili numerie

    X nelle variabili ad intervalli (o a rapporti), oltre alla moda e alla mediana si calcola
      l'indice di centralità della media.

    X oltre al range, ai percentili ed ai quartili, si calcola l'indice di dispersione della
      varianza (e della deviazione standard).
                              CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

     X nell'analisi della forma della distribuzione, l'aspeo più importante consiste nel
       valutare se la distribuzione osservata approssima una distribuzione teorica, tipi-
       camente la distribuzione normale. Nel caso, è possibile calcolare la simmetria e la
       kurtosi della curva di distribuzione.

Statistica grafica univariata, variabili numerie

     X per rappresentare graficamente la distribuzione, si utilizzano l'istogramma e il
       grafico della distribuzione oenuto araverso il metodo del kernel.

     X araverso il boxplot è possibile rappresentare la mediana, i quartili ed il range di
       una distribuzione numerica. È possibile inoltre valutare la presenza di outliers,
       ovvero di osservazioni collocate ai margini della distribuzione osservata.

     X usando il grafico qqnorm (o qqplot) e la funzione qqline è possibile confrontare la
       distribuzione osservata con la distribuzione teorica normale.

Valutazione della normalità, trasformazioni
Test di normalità Poié le statistie inferenziali parametrie assumono una distri-
buzione delle osservazioni di tipo normale, è generalmente opportuno valutare la distri-
buzione osservata di una variabile non soltanto araverso metodi grafici e descriivi,
ma ane araverso dei test di normalità. In questa dispensa, utilizzeremo due di questi
test:

     X Il test di Kolmogorov-Smirnov permee di confrontare due distribuzioni arbitrarie,
       e può essere usato per il confronto fra la distribuzione osservata e la distribuzione
       normale;

     X Il test di normalità Shapiro-Wilk è finalizzato a valutare la normalità della distri-
       buzione osservata.

    Le due misure possono dare risultati differenti. Risulta pertanto necessario un pro-
cesso di valutazione e tenga conto sia dei risultati dei test e dell'analisi grafica della
distribuzione.
    esta regola pratica vale in ogni ambito della ricerca e dell'analisi dei dati: la me-
todologia ci indica delle procedure e è opportuno seguire, per minimizzare il risio
di errori e meano a repentaglio affidabilità e validità della ricerca.
    Le procedure, però, non vanno seguite pedissequamente. Conoscere i princˆ e gliipi
assunti dell'analisi dei dati ci permee di fare delle inferenze ragionevolmente robuste
ane nei casi, e sono molti, in cui non è possibile una applicazione meccanica della
procedura.

.. Statistie esplorative bivariate
Le statistie esplorative multivariate hanno la finalità di meere in relazione due o più
variabili.
.. STATISTICA INFERENZIALE                                                               

     Le statistie grafie tendono a limitarsi prevalentemente al confronto di due varia-
bili alla volta, in quanto questi confronti sono più facili da rappresentare e più immediati
da leggere.

Variabili numerie: grafico di dispersione Nel caso di confronto fra due variabili
numerie, la rappresentazione grafica più appropriata è il grafico di dispersione, e
mappa le osservazioni delle due variabili sulle due dimensioni x e y.
    La linea di regressione, inoltre, ci permee di visualizzare il modello di regressione
lineare.

Variabili categoriali: mosaic plot Araverso il mosaic plot è possibile rappresentare
graficamente la relazione fra due variabili di tipo categoriale, nominale o ordinale.
     Per rappresentare numericamente il rapporto fra due variabili categoriali si usa in-
vece la tabella delle frequenze (assolute o relative). La tabella, di dimensioni r ∗ c, dove
r è il numero di livelli di una variabile, c il numero di livelli dell'altra.

Variabile categoriale vs variabile numerica Nel caso si debbano confrontare grafi-
camente una variabile numerica su di una variabile categoriale, è possibile utilizzare
nuovamente il boxplot, disegnando tanti boxplot quanti sono i gruppi della variabile
categoriale.
     Una seconda possibilità è quella di un grafico a barre, dove ogni barra rappresenta
la media di ogni gruppo. Un'alternativa grafica consiste nel sostituire le barre con delle
linee e congiungono i punti e rappresentano le medie.
     este rappresentazioni possono essere utilizzate ane quando le variabili catego-
riali (indipendenti) sono due.


. Statistica inferenziale
Finalità
Il fine dell'analisi inferenziale è quello -- banalmente -- di fare delle inferenze su di una
popolazione a partire dalle osservazioni di un campione.
    Il fine dell'analisi inferenziale univariata, è quello di stimare il valore di un parametro
della popolazione a partire da una statistica calcolata sul campione.
    Il fine dell'analisi inferenziale bivariata è quello di stimare la significatività di una
relazione fra due variabili. Le analisi multivariate sono sostanzialmente un'estensione
dell'analisi bivariata.
    Nel confronto fra le variabili, possiamo determinare
    X correlazioni fra variabili
    X differenze fra gruppi
    X determinazione di relazioni
    X stima di effei
    X predizioni basate su analisi della regressione.
                               CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

Analisi inferenziale univariata La finalità è quella di stimare il parametro di una
popolazione a partire dalla statistica corrispondente, calcolata sul campione. General-
mente, il parametro stimato è la media della popolazione, ma si usa ane per stimarne
la varianza o la mediana.
    Poié queste statistie sono soggee all'errore di campionamento, nell'analisi in-
ferenziale si calcola ane l'intervallo di confidenza, ovvero la forbice entro cui si stima
e il parametro oggeo di indagine si colloi.

Analisi inferenziale bivariata Lo scopo di questo tipo di analisi è quello di verificare
e vi sia una relazione statisticamente significativa fra le due variabili.
    L'approccio comune alle analisi bivariate è quello di identificare una statistica capace
di misurare la relazione, applicare la statistica sulle variabili in oggeo, e confrontare il
valore con la distribuzione dell'errore di quella statistica.
    Se il valore numerico della statistica cade all'interno della distribuzione di errore, si
assume e quella relazione non sia statisticamente significativa.

.. Gli errori
Il fine dell'analisi inferenziale è quello di trarre delle conclusioni in merito a dei parametri
di una o più popolazioni. Per fare questo, si potrebbe voler misurare i parametri della
popolazione di interesse, calcolarne le statistie appropriate, e trarne le debite inferenze.
     Testare l'intera popolazione è però generalmente impossibile, per due ordini di mo-
tivi.

     X Il motivo più ovvio è di tipo pratico: se la popolazione è molto numerosa, testarla
       completamente diventa eccessivamente costoso.

     X Vi è inoltre un secondo motivo: a volte, la popolazione di riferimento è teorica.
       Ad esempio, potremmo voler fare delle inferenze sulla depressione post partum; in
       questo caso, la popolazione di riferimento sono tue le donne e hanno partorito
       da meno di ,  mesi. Ma ane se riuscissimo a testare tue le partorienti d'Italia
       per un intero anno solare, vorremmo e i risultati ci permeessero di fare delle
       inferenze ane sulle donne e partoriranno fra due anni. La popolazione reale
       di quest'anno, dunque, è un sooinsieme della popolazione teorica e include le
       donne e partoriranno nei prossimi anni.

    Appare dunque iaro e, tranne alcune eccezioni, testare l'intera popolazione è
generalmente impossibile. A questo punto, diventa necessario testare soltanto un sot-
toinsieme della popolazione, ovvero un campione (sample, in inglese).
    Semplificando, la logica soostante l'analisi dei dati è sostanzialmente la seguente:

     X si identifica un problema

     X si identifica una popolazione

     X si identifica una dimensione pertinente

     X si estrae un campione
.. STATISTICA INFERENZIALE                                                               

    X si misura la dimensione sul campione

    X a partire dalla statistica sul campione, si traggono inferenze sul parametro di
      popolazione

    X si traggono delle inferenze sui risultati

    Vi è, dunque, un passaggio logico: popolazione - campione, misura sul campione -
generalizzazione alla popolazione. Abbiamo visto e, affiné questi passaggi portino
a risultati acceabili, è necessario preservare dei criteri di validità. Più in particolare, è
necessario minimizzare e gestire alcuni errori e possono influire sull'analisi.


Tipi di errore

L'analisi inferenziale si basa sulla consapevolezza e i processi di campionamento, mi-
surazione ed analisi sono soggei ad errori. Il fine della metodologia è quello di minimiz-
zare e, quando possibile, escludere gli errori. Il fine dell'inferenza è quello di misurare
gli errori, valutare se i risultati oenuti sono da aribuire o meno agli errori, e stimare
il risio e il processo decisionale dell'inferenza sia scorreo.
     Conoscere le tipologie di errori e i metodi per minimizzarli ed evitarli è dunque di
centrale importanza nella metodologia e nell'analisi.
     Sono numerosi gli errori e possono influire sul processo inferenziale. Ricordiamo-
ne alcuni.

    X Errore di campionamento: il campione non produrrà esaamente gli stessi valori
      e si osserverebbero misurando l'intera popolazione.

    X In un esperimento, errore di assegnamento: le differenze misurate fra i gruppi
      sperimentali (e di controllo) potrebbero essere dovute non alla condizione speri-
      mentale, ma a differenze pre-esistenti fra i gruppi creati

    X Errore di misurazione (affidabilità): la misurazione della variabile può essere non
      accurata, e dunque può produrre risultati parzialmente non correi.

    Più in generale, si definisce errore la differenza fra una misura di un parametro ed
il valore reale del parametro stesso. esta differenza può essere casuale o sistematica.
Per capire la differenza, è necessario pensare a numerose misure, e dunque al ripetersi
dell'errore. Se l'errore è casuale, la media degli errori (ovvero la media delle differenze)
tende ad essere pari a zero. Viceversa, l'errore è sistematico se la media tende ad un
valore diverso da zero.
    Gli errori sistematici sono i più pericolosi, in quanto possono indurre il ricercatore a
conclusioni errate e sono difficili da far emergere e da correggere araverso gli strumenti
statistici. Gli errori sistematici possono essere minimizzati soltanto araverso un design
rigoroso ed una raccolta ed elaborazione dei dati scrupolosa.
    Il problema del campionamento è e, se fao in maniera scorrea, può indurre ad
errori sistematici.
                             CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

.. Campionamento
Viene definito campionamento il processo di selezione del sooinsieme di unità della
popolazione da studiare, per misurarne le caraeristie di interesse.
    La notizia positiva è e, se il campionamento viene effeuato in maniera correa,
le caraeristie misurate sul campione tendono ad assomigliare alle caraeristie (pa-
rametri) della popolazione.
La notizia negativa è e, nonostante la somiglianza, le statistie sul campione sono in
quale modo diverse dai parametri della popolazione. esta differenza va aribuita
alla variabilità campionaria: se noi selezioniamo due campioni distinti da una stessa po-
polazione, oeniamo statistie diverse. este differenze sono definite ane errore di
campionamento.

Campionamento rappresentativo Per evitare errori sistematici dovuti al campione,
è necessario e il campione sia rappresentativo della popolazione.
    La tipologia di campionamento e meglio garantisce la rappresentatività della popo-
lazione è il campionamento casuale: le unità del campione vengono scelte casualmente
dalla popolazione. In alcuni casi si utilizza una forma di campionamento stratificata,
nelle circostanze in cui si voglia garantire la rappresentatività di piccoli soogruppi di
popolazione.
    Viceversa, metodi di campionamento non casuali (come i campionamenti di conve-
nienza) risiano di introdurre degli errori sistematici nella statistica Akritas ().

Missing Un problema di non facile soluzione emerge quando una parte non trascurabi-
le del campione selezionato non si presta alla misurazione. Se i missing si distribuiscono
in maniera uniforme fra il campione, l'impao di questi dati mancanti risulta abbastanza
circoscrio.
    Se, al contrario, i missing sono più frequenti in alcuni strati della popolazione piut-
tosto e in altri, è forte il risio di incorrere in un errore sistematico.

Errori casuali Una parte di errore, però, non può essere evitata. Se questi errori non
sono sistematici, ma distribuiti casualmente, i metodi statistici ci permeono di misu-
rarli, di valutarne l'impao, e di calcolare la probabilità e i risultati da noi oenuti
siano o meno aribuibili al caso.
    La funzione della statistica inferenziale è di fare delle stime, relative ai parametri
della popolazione, partendo dalle statistie dei campioni, e tengano conto della va-
riabilità campionaria. L'analisi inferenziale offre una serie di strumenti e permeano
di:

     X fare delle stime sui parametri di una popolazione

     X determinare se i parametri di due o più popolazioni sono significativamente diversi

     X valutare se due o più parametri relativi ad una popolazione sono fra loro legati

     X fare delle previsioni
.. STATISTICA INFERENZIALE                                                                

L'analisi inferenziale fa delle stime, di tipo puntuale e intervallare, su determinati para-
metri della popolazione, testa delle ipotesi, valuta l'accuratezza delle proprie previsioni
e determina il risio e le stime, le ipotesi acceate e le previsioni risultino errate.


.. Intervalli di confidenza
Un correo campionamento minimizza l'incidenza degli errori sistematici, ma non eli-
mina l'errore casuale.
     Il valore della statistica sul campione, infai, è una approssimazione del valore del
parametro della popolazione. Più precisamente, la media del campione costituisce una
stima puntuale della media della popolazione. Sappiamo, però, e questa stima sarà --
quasi sicuramente -- leggermente sbagliata. Conoscendo soltanto la stima puntuale, non
sappiamo quanto questa stima sia affidabile, e quale sia il probabile range di errore.
     Il calcolo dell'intervallo di confidenza è finalizzato proprio a calcolare il range entro
cui il valore del parametro di popolazione dovrebbe cadere.
     Un intervallo di confidenza si basa su una percentuale - prestabilita - di confidenza.
Generalmente, si considera acceabile una percentuale del %.
     Per meglio capire la percentuale dell'intervallo di confidenza, partiamo da una osser-
vazione. Se estraiamo  campioni diversi dalla stessa popolazione, e misuriamo la stessa
variabile sui due campioni, oerremo valori (più o meno) diversi.
     Immaginiamo ora di estrarre  campioni dalla popolazione. Usiamo il primo cam-
pione per misurare il parametro della popolazione, e l'intervallo di confidenza. Un in-
tervallo di confidenza del % significa e, se misuriamo la stessa statistica sugli altri
 campioni, ci aspeiamo e -- approssimativamente --  di loro cadano entro
l'intervallo di confidenza.
     Più streo l'intervallo di confidenza, più alta la precisione.
Un intervallo di confidenza molto largo lascia intendere e le dimensioni del campione
sono inadeguate. L'intervallo di confidenza verrà descrio più deagliatamente nella
sezione .


.. Testare un'ipotesi
Nel test di ipotesi, si identificano un'ipotesi nulla e un'ipotesi alternativa; si fanno delle
misurazioni e si calcola una statistica; se la statistica cade all'interno della regione di
acceazione (basata sulla distribuzione dell'errore campionario), l'ipotesi nulla non viene
rifiutata. In caso contrario, l'ipotesi nulla viene rifiutata, e si accea l'ipotesi alternativa.
    Il test di ipotesi si pone la questione: ``i risultati e abbiamo oenuto possono essere
aribuiti al caso?'' Il primo passo, è quello di tradurre il problema scientifico e ci siamo
posti nei termini delle due ipotesi: l'ipotesi nulla e l'ipotesi alternativa.

    X L'ipotesi nulla, H0 , assume e il risultato non sia significativo, ovvero e sia da
      aribuire al caso.

    X L'ipotesi alternativa H1 o HA , sostiene e il risultato della statistica non pos-
      sa essere aribuito al caso, ma e sia da aribuire ad una relazione inerente la
      popolazione, sia questa una differenza o una relazione.
                              CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

     Il secondo passo, è identificare una statistica e sia capace di misurare la differenza
(o la relazione) all'interno del campione, ed applicarla ai dati raccolti.
     Il terzo passo è confrontare il valore della statistica con la corrispondente distribu-
zione di errore. Informalmente, possiamo dire e più il valore della statistica si colloca
ai margini della distribuzione di errore, meno è probabile e la differenza (o la relazio-
ne) misurata siano aribuibili al caso. esta probabilità può essere stimata in base alla
distribuzione dell'errore, e costituisce il p-value, valore su cui si basa la decisione fina-
le: se il p-value risulta inferiore ad un livello di soglia acceabile, definito α, si rifiuta
l'ipotesi nulla, e si accea l'ipotesi alternativa. In caso contrario, non si rifiuta l'ipotesi
nulla.

L'ipotesi nulla
Poié i concei di ipotesi nulla, ipotesi alternativa e p-value sono molto importanti nella
statistica inferenziale ma sono spesso difficili da comprendere, ci soffermiamo ancora su
questi concei.
    L'ipotesi nulla e l'ipotesi alternativa sono alla base del test di ipotesi, e costituisce
il fine della statistica inferenziale, e si propone di capire (e di decidere) se i risultati
oenuti siano da aribuire, o meno, al caso.
    L'esempio più tipico è il disegno sperimentale dove i partecipanti sono assegnati
casualmente a due gruppi, il gruppo sperimentale e quello di controllo. Al gruppo spe-
rimentale viene somministrato un traamento, al gruppo di controllo no (oppure, viene
somministrato il placebo). Viene definita una misura, capace di valutare l'outcome, il ri-
sultato del traamento. Si calcola l'appropriata statistica (ad esempio la media) dei due
gruppi sperimentali, e si calcola la differenza fra le due medie.
    Se la metodologia sperimentale è stata seguita correamente, la differenza fra le due
medie può essere aribuita soltanto a due possibili cause: il traamento, o il caso.
L'ipotesi nulla assume e la statistica misurata (in questo caso, la differenza) sia ari-
buibile al caso, ovvero e la vera differenza fra la media dei due gruppi sia pari a zero.
L'ipotesi alternativa assume e la differenza non possa essere aribuita al caso e, per
esclusione, sia aribuibile al traamento.
    L'ipotesi nulla viene rifiutata se la differenza fra le medie dei due gruppi è tale da non
poter essere aribuita al caso, ovvero se si discosta significativamente dalla distribuzione
dell'errore di campionamento.
    Formalmente, si parla di rifiuto e non rifiuto dell'ipotesi nulla. Non è formalmente
correo parlare di acceazione dell'ipotesi nulla. Ceriamo di capire il peré.
L'ipotesi nulla assume e il valore della statistica sia da aribuire al caso. Se il valore
è esterno alla regione di acceazione non possiamo aribuire il risultato al caso, e dun-
que dobbiamo rifiutare l'ipotesi nulla, ed acceare l'ipotesi alternativa (il risultato non è
aribuibile al caso).
    Se il valore della statistica cade all'interno della regione di acceazione, non pos-
siamo escludere e il risultato sia aribuibile al caso. esto però non dimostra e
la vera misura sia pari a zero. Per quanto ne sappiamo, la vera misura potrebbe essere
comunque differente da zero. Poié, però, la differenza misurata potrebbe essere ari-
buita al caso, tuo quello e possiamo dire è e non si può escludere e la differenza
sia dovuta al caso. L'ipotesi nulla non è falsificata (e dunque non viene rifiutata) ma
.. STATISTICA INFERENZIALE                                                                

nemmeno verificata (in quanto non sappiamo se la vera differenza sia davvero pari a
zero.
    Il test di ipotesi, dunque, si basa su quell'aeggiamento di tipo falsificazionista in-
trodoo quale paragrafo sopra.

Il p-value
Il p-value è la risposta alla domanda ``assumendo e l'ipotesi nulla sia vera, qual'è la
probabilità di osservare un valore altreanto o più estremo di quello oenuto?''
     Il p-value è una misura dell'evidenza contraria all'ipotesi nulla: più basso il p-value,
maggiore l'evidenza contraria all'ipotesi nulla. Un p-value basso indica una maggiore
sicurezza nel rigeare l'ipotesi nulla.
     Il p-value è la probabilità e l'errore campionario possa assumere un valore superio-
re al valore osservato. Deo in altri termini, il p-value ci dice la probabilità di compiere
un errore di tipo I rifiutando l'ipotesi nulla.
     Coerentemente con l'aeggiamento falsificazionista, il p-value può essere usato solo
come evidenza contro l'ipotesi nulla, non a favore di un'ipotesi. Un p-value alto non ci
permee di trarre alcuna conclusione: Absence of evidence is not the evidence of absence.
     In ambito applicativo, non è deo e una significatività statistica abbia reali impli-
cazioni pratie. In clinica, ad esempio, una differenza statisticamente significativa può
non essere clinicamente significativa. Inoltre, il p-value non dice nulla sull'entità della
differenza (o dell'effeo)

P-value e α La decisione sul rifiuto o meno dell'ipotesi nulla si basa sul confronto fra
il p-value e la soglia α: se p < α si rifiuta l'ipotesi nulla, altrimenti no.
     α è ane il livello di significatività del test. Generalmente, i valori più comunemente
utilizzati sono α = . e α = ..

L'ipotesi alternativa L'ipotesi alternativa può essere ad una o a due code (mono- o
bidirezionale). Nell'ipotesi a due code assume l'esistenza di un effeo o una differenza,
ma senza specificare la direzione.
Nell'ipotesi ad una coda, viene specificata ane la direzione aesa della differenza.

Processo decisionale
Possiamo dunque riassumere il processo decisionale del test d'ipotesi.

    X Si parte, conceualmente, dall'ipotesi nulla;

    X si definisce l'ipotesi alternativa -- generalmente, l'ipotesi a supporto della teoria;

    X si definisce e si calcola la statistica test opportuna sulla variabile, misurata sul
      campione;

    X si definisce l'errore di tipo I e si ritiene acceabile (ovvero, il valore α);

    X si calcola la regione di rifiuto dell'ipotesi nulla o, alternativamente, il p-value;
                                CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI

     X la decisione finale si basa valutando se la misura della statistica cade all'interno o
       all'esterno della regione di acceazione dell'ipotesi; se all'esterno, si rifiuta l'ipotesi
       nulla, e si accea l'ipotesi alternativa; se all'interno, non si rifiuta l'ipotesi nulla,
       ma quella alternativa;

     X lo stesso risultato può essere oenuto confrontando il p-value con α: se p < α si
       rifiuta l'ipotesi nulla, altrimenti no.

.. Scegliere la statistica appropriata
Per decidere quale tipo di statistica può essere applicata, è necessario definire:

     X il numero di variabili in gioco (una, due, più di due)

     X la tipologia delle variabili (nominale o numerica)

     X il tipo di ipotesi testata: ceriamo una relazione, una differenza, una previsione

Numero di variabili

     X Statistie uni-variate

     X Statistie bi-variate

     X Statistie multi-variate

Tipi di variabili e statistica La tipologia di statistica inferenziale da applicare si ba-
sa sulla tipologia di variabili. Come abbiamo visto, possiamo distinguere fra variabili
categoriali, ordinali, ad intervalli e a rapporti.
     este quaro tipologie possono essere raggruppate in variabili nominali (catego-
riali e, generalmente, ordinali) e variabili numerie (a intervalli, a rapporti).
     La tipologia di statistica e può essere applicata si basa sulla tipologia delle variabili
indipendenti e dipendenti.

Statistie bivariate
                         dipendente numerica                dipendente categoriale
     indipendente        correlazione, regressione          analisi discriminante, regres-
     numerica                                               sione logistica
     indipendente        t-test, ANOVA                      i quadro
     categoriale

. Esercizi
Genere e retribuzione Domanda: vi è una differenza di retribuzione fra masi e
femmine?

     X qual'è la variabile indipendente? Di e tipo è?
.. ESERCIZI                                                                        

   X qual'è la variabile dipendente? Di e tipo è?
   X e tipo di statistica si applica?

Spettatori e pubblicità Domanda: C'è relazione fra il numero di persone e vanno a
vedere un film ed i soldi spesi per pubblicizzare la pellicola?

   X qual'è la variabile indipendente? Di e tipo è?
   X qual'è la variabile dipendente? Di e tipo è?

   X e tipo di statistica si applica?

Antidepressivi e stato depressivo Domanda: La somministrazione di un antidepres-
sivo è efficace nel curare la depressione?
   X qual'è la variabile indipendente? Di e tipo è?

   X qual'è la variabile dipendente? Di e tipo è?
   X e tipo di statistica si applica?

Genere e facoltà Domanda: c'è un rapporto fra la scelta di un tipo di facoltà (umani-
stica, scientifica) di uno studente ed il suo genere?

   X qual'è la variabile indipendente? Di e tipo è?
   X qual'è la variabile dipendente? Di e tipo è?

   X e tipo di statistica si applica?

Nazionalità e caffè Domanda: c'è un rapporto fra la nazionalità delle persone ed il
loro consumo di caffè?

   X qual'è la variabile indipendente? Di e tipo è?
   X qual'è la variabile dipendente? Di e tipo è?

   X e tipo di statistica si applica?

Stato civile e genitorialità Domanda: c'è un rapporto fra lo stato civile di una persona
ed il fao e abbia o non abbia figli?
   X qual'è la variabile indipendente? Di e tipo è?

   X qual'è la variabile dipendente? Di e tipo è?
   X e tipo di statistica si applica?
   CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
Capitolo 

L'approccio simulativo

Indice
          .   Gli errori di campionamento . . . . . . . . . . .     .   .   .   .    .    .    .    . .   
                .. Distribuzione degli errori . . . . . . . . .    .   .   .   .   .    .    .    . .    
          .   Introduzione all'approccio simulativo . . . . . .     .   .   .   .    .    .    .    . .   
                .. Generare popolazione e campioni . . . . .       .   .   .   .   .    .    .    . .    
                .. Campioni di numerosità  . . . . . . . .       .   .   .   .   .    .    .    . .    
          .   Intervallo di confidenza . . . . . . . . . . . . .     .   .   .   .    .    .    .    . .   
          .   Bootstrapping . . . . . . . . . . . . . . . . . . .   .   .   .   .    .    .    .    . .   
                .. Generare molti campioni da un campione          .   .   .   .   .    .    .    . .    
                .. Confronto fra le distribuzioni . . . . . . .    .   .   .   .   .    .    .    . .    
                .. Usare l'approccio parametrico . . . . . . .     .   .   .   .   .    .    .    . .    



. Gli errori di campionamento
L'analisi dei dati deve confrontarsi con la gestione degli errori. Se una buona metodo-
logia ed un correo campionamento possono minimizzare l'impao degli errori siste-
matici, gli errori casuali non possono essere eliminati. L'analisi inferenziale permee al
ricercatore di stimare l'entità di questi errori, e di capire quanto le misure e le relazioni
emerse siano da imputare a tali errori.
    L'analisi si basa sul calcolo di alcune statistie. Nell'analisi univariata si calcola-
no gli indici di centralità e di dispersione, nelle statistie bivariate si calcolano delle
statistie capaci di misurare le relazioni fra variabili.
    Sia le statistie uni e bivariate devono tener conto dell'errore di campionamento.
Facciamo alcuni esempi.
    La media del campione costituisce la migliore stima della media della popolazione (la
media è una stima unbiased); se dalla stessa popolazione, però, estraggo dieci campioni
diversi, oerrò dieci stime differenti.
    Un tipico disegno sperimentale consiste nel dividere il campione in  gruppi, som-
ministrare un traamento ad un gruppo (sperimentale), somministrare un diverso trat-

                                              
                                             CAPITOLO . L'APPROCCIO SIMULATIVO

tamento (o un placebo) all'altro gruppo, e misurare l'effeo araverso una variabile nu-
merica; per valutare l'effeo del traamento, si misura la differenza fra le medie dei due
gruppi. Di nuovo: questa differenza va aribuita al traamento, o al caso (alla variabili-
tà campionaria)? Infai, in maniera del tuo paragonabile all'esempio precedente, cosa
succederebbe se applicassimo lo stesso traamento (o nessun traamento) ai due grup-
pi? Ci aspeiamo e le medie dei due gruppi siano perfeamente uguali? La risposta è
naturalmente no: le medie saranno probabilmente simili, ma non uguali.
    Facciamo un terzo esempio: immaginiamo di voler capire se vi è una relazione fra
due variabili numerie. Decidiamo di adoare la statistica della correlazione di Pear-
son, una misura e si muove nel range −1 < r < +1 e dove  significa assenza
di correlazione. Ane in questo caso, però, nella circostanza di due variabili fra loro
indipendenti, non possiamo aspearci una correlazione esaamente pari a .

.. Distribuzione degli errori
Approccio parametrico
Fortunatamente, gli errori dovuti al caso (e alla varianza campionaria) sono soggei a
delle distribuzioni note (quantomeno per quanto riguarda le statistie più comuni). La
cosiddea statistica parametrica si basa proprio sul fao e, se alcuni assunti sono ri-
speati, la distribuzione dell'errore delle statistie usate approssima, previo opportuna
trasformazione, delle distribuzioni teorie. Il processo inferenziale utilizza questa pro-
prietà; si calcola la statistica, si opera la trasformazione, e si confronta il risultato con la
distribuzione teorica.

Statistie non parametrie
Lo svantaggio dell'approccio parametrico è e fa delle assunzioni sulle variabili; vi so-
no delle circostanze in cui queste assunzioni non vengono rispeate. In questi casi, le
statistie parametrie possono essere inaffidabili; a questo punto, diventa opportuno
affidarsi a delle famiglie di statistie non parametrie, il cui vantaggio è quello di fare
un minore numero di assunzioni.
    Generalmente, l'approccio delle statistie non parametrie consiste nel trasformare
la variabile dipendente, numerica, in una variabile ordinale. La trasformazione consiste
nel calcolare il rank, ovvero il valore ordinale della misura.

Approccio simulativo (resampling)
Esiste poi un'altra possibilità: utilizzare il calcolatore per generare la distribuzione del-
l'errore, e basare il processo inferenziale non sulla distribuzione teorica, ma sulla distri-
buzione generata.
     esto approccio è relativamente recente, in quanto è computazionalmente oneroso,
e dunque può essere applicato soltanto con degli strumenti di calcolo potenti. Oggi, però,
possono essere applicati agevolmente ane con i comuni computer, e dunque stanno
guadagnando crescente popolarità.
     L'approccio simulativo ha alcuni vantaggi, il principale dei quali è e fa poissime
assunzioni, e dunque può essere applicato ane nel caso, ad esempio, di distribuzioni
.. INTRODUZIONE ALL'APPROCCIO SIMULATIVO                                               

e non possono essere ricondoe alle distribuzioni teorie.
Un secondo vantaggio è e l'approccio simulativo è e può essere applicato ane a
statistie non comuni, per le quali non esiste -- o non è nota -- una distribuzione teorica.
    L'approccio simulativo ha infine il vantaggio di essere particolarmente intuitivo, in
quanto permee di mostrare l'errore di campionamento, la sua distribuzione, e i ri-
speivi parametri. esta caraeristica rende l'approccio simulativo particolarmente
indicato ai fini didaici, in quanto è possibile simulare la varianza di campionamento,
generare la distribuzione campionaria, e confrontarla con la distribuzione teorica. L'ap-
proccio computazionale è inoltre un oimo modo per giocare con strumenti come R,
prendere confidenza con il linguaggio, e capire cosa succede dietro alle quinte quando
si utilizzano le funzioni di testing -- parametrici e non parametrici.


. Introduzione all'approccio simulativo
Per introdurre l'approccio simulativo, utilizziamo R per fare delle simulazioni e ci
permeano di riprodurre, in laboratorio, l'errore di campionamento.
    Araverso la simulazione possiamo creare delle circostanze difficilmente riprodu-
cibili nella realtà: possiamo generare una popolazione, generare un numero molto al-
to di campioni, e valutare qualitativamente (graficamente) e quantitativamente l'errore
stocastico di campionamento¹.


.. Generare popolazione e campioni
Generare la popolazione Nel contesto della simulazione, generare una popolazione
significa generare un veore di valori casuali. Se si assume e la distribuzione della
popolazione sia normale, è possibile utilizzare la funzione rnorm per generare un veore
di numeri distribuiti normalmente intorno ad una media e con una deviazione standard
predefinita.
    La lunghezza del veore corrisponde alla numerosità della nostra popolazione vir-
tuale.
    Nel nostro esempio, genereremo una popolazione con media teorica  e deviazione
standard teorica  (la scelta di media e deviazione standard è arbitraria).


Generare dei campioni A partire dal veore popolazione, è possibile estrarre un vet-
tore campione (di numerosità m < n). Per fare questo, R mee a disposizione la fun-
zione sample(x,m,replace=FALSE), dove x è la popolazione e m è la numerosità del
campione.
    In realtà, potremmo oenere lo stesso risultato generando un campione di m os-
servazioni con rnorm. Però, per un effeo più realistico, usiamo il sampling della
popolazione.
    Per visualizzare la distribuzione dell'errore di campionamento, utilizzeremo una po-
polazione di  valori, e genereremo  campioni di numerosità .

   ¹Un approccio simile è adoato in Molenaar and Kiers () e in Vasishth ()
                                         CAPITOLO . L'APPROCCIO SIMULATIVO

    Dunque n =  (numerosità della popolazione simulata), k =  (numero di cam-
pioni), m =  (osservazioni per campione). Poi, genereremo ane una serie di campioni
da  osservazioni.

Analisi descrittiva Una volta generati questi dati, possiamo utilizzare alcune tecnie
di analisi univariata per fare delle misurazioni.
     In primo luogo possiamo calcolare la media e la deviazione standard della popola-
zione. Ci aspeeremo e la prima sia prossima a  e la seconda a . Poi, possiamo
visualizzare un istogramma con la distribuzione della popolazione, e ci aspeiamo sia
di tipo normale. Per verificarlo, possiamo usare le funzioni qqnorm e qqline.

>    n <- 10000
>    m50 <- 50
>    K <- 200
>    media_teorica <- 20
>    sd_teorica <- 2
>    popolazione <- rnorm(n, media_teorica, sd_teorica)
>    mean(popolazione)

[1] 20.00628

> sd(popolazione)

[1] 2.015178

> hist(popolazione)

     Utilizzando qqnorm, valutiamo la normalità della distribuzione
> qqnorm(popolazione)
> qqline(popolazione, col = 2)
    Ora, creiamo una matrice *. Ogni riga rappresenta un campione di  osser-
vazioni. Popoliamo le righe con la funzione sample, e campiona  osservazioni dalla
popolazione.

Media e deviazione standard della distribuzione campionaria
Con medie campioni50 <- apply(campioni50, 1, mean), calcoliamo la media
di ogni campione e la salviamo nel veore (di lunghezza ) medie campioni. Su
questo veore calcoliamo la media e la deviazione standard (e rappresentano la media
delle medie e la deviazione standard delle medie, ovvero l'errore standard.

>    campioni50 <- matrix(nrow = K, ncol = m50)
>    for (k in 1:K) {
+        campioni50[k, ] <- sample(popolazione, m50)
+    }
>    medie_campioni50 <- apply(campioni50, 1, mean)
>    mean(medie_campioni50)
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati
Dispensa di analisi dei dati

More Related Content

What's hot

La gestion des comptes d’une agence bancaire
La gestion des comptes d’une agence bancaireLa gestion des comptes d’une agence bancaire
La gestion des comptes d’une agence bancaireWalid Aitisha
 
Vensim chapter 6 v1
Vensim chapter 6 v1Vensim chapter 6 v1
Vensim chapter 6 v1Diana Lim
 
11 system development models
11 system development models11 system development models
11 system development modelsmeenakshi24
 
Le Plan de Reprise d'Activité pour les PME
Le Plan de Reprise d'Activité pour les PMELe Plan de Reprise d'Activité pour les PME
Le Plan de Reprise d'Activité pour les PMEAvignon Delta Numérique
 
Databases to improve business performance and decision making Client-server a...
Databases to improve business performance and decision making Client-server a...Databases to improve business performance and decision making Client-server a...
Databases to improve business performance and decision making Client-server a...Naveen Raj
 
Cycles de vie d'un logiciel
Cycles de vie d'un logicielCycles de vie d'un logiciel
Cycles de vie d'un logicielRabia AZIZA
 
Conception et réalisation d'une application web et mobile de e-commerce
Conception et réalisation d'une application web et mobile de e-commerceConception et réalisation d'une application web et mobile de e-commerce
Conception et réalisation d'une application web et mobile de e-commerceAHMEDBELGHITH4
 
Etat de l art business intelligence
Etat de l art business intelligenceEtat de l art business intelligence
Etat de l art business intelligenceOCTO Technology
 

What's hot (11)

La gestion des comptes d’une agence bancaire
La gestion des comptes d’une agence bancaireLa gestion des comptes d’une agence bancaire
La gestion des comptes d’une agence bancaire
 
Vensim chapter 6 v1
Vensim chapter 6 v1Vensim chapter 6 v1
Vensim chapter 6 v1
 
11 system development models
11 system development models11 system development models
11 system development models
 
Le Plan de Reprise d'Activité pour les PME
Le Plan de Reprise d'Activité pour les PMELe Plan de Reprise d'Activité pour les PME
Le Plan de Reprise d'Activité pour les PME
 
Software Development Techniques
Software Development TechniquesSoftware Development Techniques
Software Development Techniques
 
Speech Recognition API
Speech Recognition APISpeech Recognition API
Speech Recognition API
 
Databases to improve business performance and decision making Client-server a...
Databases to improve business performance and decision making Client-server a...Databases to improve business performance and decision making Client-server a...
Databases to improve business performance and decision making Client-server a...
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
Cycles de vie d'un logiciel
Cycles de vie d'un logicielCycles de vie d'un logiciel
Cycles de vie d'un logiciel
 
Conception et réalisation d'une application web et mobile de e-commerce
Conception et réalisation d'une application web et mobile de e-commerceConception et réalisation d'une application web et mobile de e-commerce
Conception et réalisation d'une application web et mobile de e-commerce
 
Etat de l art business intelligence
Etat de l art business intelligenceEtat de l art business intelligence
Etat de l art business intelligence
 

Viewers also liked

Dispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaDispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaStefano Bussolon
 
progettazione dei servizi
progettazione dei serviziprogettazione dei servizi
progettazione dei serviziRolando 2012
 
Marcatori di linea seminario 2010
Marcatori di linea seminario  2010Marcatori di linea seminario  2010
Marcatori di linea seminario 2010tanny88
 
Abstract ricerca "Italia 2.0" 2/2010
Abstract ricerca "Italia 2.0" 2/2010Abstract ricerca "Italia 2.0" 2/2010
Abstract ricerca "Italia 2.0" 2/2010duepuntozeroresearch
 
La statistica e l’arricchimento qualitativo
La statistica e l’arricchimento qualitativoLa statistica e l’arricchimento qualitativo
La statistica e l’arricchimento qualitativoduepuntozeroresearch
 
La vita è altrove
La vita è altroveLa vita è altrove
La vita è altrovedario betti
 
Model view controller: un pattern per l’interaction design
Model view controller: un pattern per l’interaction designModel view controller: un pattern per l’interaction design
Model view controller: un pattern per l’interaction designStefano Bussolon
 
Applicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineareApplicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineareLoredana Liverani
 
Progettare artefatti cognitivi
Progettare artefatti cognitiviProgettare artefatti cognitivi
Progettare artefatti cognitiviStefano Bussolon
 
I rapporti statistici
I rapporti statisticiI rapporti statistici
I rapporti statisticiVispo Srl
 
Funzioni e modelli matematici
Funzioni e modelli matematiciFunzioni e modelli matematici
Funzioni e modelli matematiciSalvatore Menniti
 
Probabilità a priori informative - Statistica bayesiana
Probabilità a priori informative - Statistica bayesianaProbabilità a priori informative - Statistica bayesiana
Probabilità a priori informative - Statistica bayesianaCarla Gua
 
Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014Cristina Rigutto
 
The X factor - defining the concept of Experience
The X factor - defining the concept of ExperienceThe X factor - defining the concept of Experience
The X factor - defining the concept of ExperienceStefano Bussolon
 

Viewers also liked (20)

Dispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaDispensa Interazione Uomo Macchina
Dispensa Interazione Uomo Macchina
 
progettazione dei servizi
progettazione dei serviziprogettazione dei servizi
progettazione dei servizi
 
Marcatori di linea seminario 2010
Marcatori di linea seminario  2010Marcatori di linea seminario  2010
Marcatori di linea seminario 2010
 
Abstract ricerca "Italia 2.0" 2/2010
Abstract ricerca "Italia 2.0" 2/2010Abstract ricerca "Italia 2.0" 2/2010
Abstract ricerca "Italia 2.0" 2/2010
 
La statistica e l’arricchimento qualitativo
La statistica e l’arricchimento qualitativoLa statistica e l’arricchimento qualitativo
La statistica e l’arricchimento qualitativo
 
La vita è altrove
La vita è altroveLa vita è altrove
La vita è altrove
 
Model view controller: un pattern per l’interaction design
Model view controller: un pattern per l’interaction designModel view controller: un pattern per l’interaction design
Model view controller: un pattern per l’interaction design
 
Applicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineareApplicazione su “RStudio” del modello di regressione lineare
Applicazione su “RStudio” del modello di regressione lineare
 
Produzione software
Produzione softwareProduzione software
Produzione software
 
Progettare artefatti cognitivi
Progettare artefatti cognitiviProgettare artefatti cognitivi
Progettare artefatti cognitivi
 
tesi_completa.2
tesi_completa.2tesi_completa.2
tesi_completa.2
 
Punto z
Punto zPunto z
Punto z
 
I rapporti statistici
I rapporti statisticiI rapporti statistici
I rapporti statistici
 
Funzioni e modelli matematici
Funzioni e modelli matematiciFunzioni e modelli matematici
Funzioni e modelli matematici
 
Probabilità a priori informative - Statistica bayesiana
Probabilità a priori informative - Statistica bayesianaProbabilità a priori informative - Statistica bayesiana
Probabilità a priori informative - Statistica bayesiana
 
Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014Corso analisi e comunicazione dei dati 2014
Corso analisi e comunicazione dei dati 2014
 
The X factor - defining the concept of Experience
The X factor - defining the concept of ExperienceThe X factor - defining the concept of Experience
The X factor - defining the concept of Experience
 
data commentary
data  commentarydata  commentary
data commentary
 
Cristina Rigutto Resumè
Cristina Rigutto ResumèCristina Rigutto Resumè
Cristina Rigutto Resumè
 
Social networks
Social networks Social networks
Social networks
 

Similar to Dispensa di analisi dei dati

Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)Fulvio Corno
 
Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D
Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D
Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D Andrea Bidinost
 
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...Francesco De Giorgi
 
Pattern Recognition Lecture Notes
Pattern Recognition Lecture NotesPattern Recognition Lecture Notes
Pattern Recognition Lecture NotesRobertoMelfi
 
Stampa Digitale Capitolo Uno - Estratto
Stampa Digitale Capitolo Uno - EstrattoStampa Digitale Capitolo Uno - Estratto
Stampa Digitale Capitolo Uno - EstrattoMassimo Cremagnani
 
Monitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di MarkovMonitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di Markovrkjp
 
Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...
Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...
Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...Andrea Bidinost
 
mastertesi
mastertesimastertesi
mastertesiReply
 
Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...
Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...
Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...danielenicassio
 
Modellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDAModellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDAkylanee
 
Indice del libro "Come vendere con il Blog Aziendale" di Alessio Beltrami
Indice del libro "Come vendere con il Blog Aziendale" di Alessio BeltramiIndice del libro "Come vendere con il Blog Aziendale" di Alessio Beltrami
Indice del libro "Come vendere con il Blog Aziendale" di Alessio BeltramiEnrico Flaccovio
 
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...maaske
 
Validation and analysis of mobility models
Validation and analysis of mobility modelsValidation and analysis of mobility models
Validation and analysis of mobility modelsUmberto Griffo
 
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARYMARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARYvantasso
 
Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084
Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084
Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084suku dim
 
Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...
Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...
Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...Antonio Sanfelice
 
5° Rapporto Assoconsult Osservatorio Management Consulting 2014
5° Rapporto Assoconsult Osservatorio Management Consulting 20145° Rapporto Assoconsult Osservatorio Management Consulting 2014
5° Rapporto Assoconsult Osservatorio Management Consulting 2014Andrea Di Schiavi
 
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEMTesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEMDavide Ciambelli
 
Il tutorial di Python
Il tutorial di PythonIl tutorial di Python
Il tutorial di PythonAmmLibera AL
 

Similar to Dispensa di analisi dei dati (20)

Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)Esercizi di programmazione in C (v. 2.01)
Esercizi di programmazione in C (v. 2.01)
 
Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D
Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D
Sviluppo e confronto di tecniche di stima della traiettoria di sensori 3D
 
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
Valutazione sperimentale di tecnologie per la gestione dei dati per workflow ...
 
Pattern Recognition Lecture Notes
Pattern Recognition Lecture NotesPattern Recognition Lecture Notes
Pattern Recognition Lecture Notes
 
Stampa Digitale Capitolo Uno - Estratto
Stampa Digitale Capitolo Uno - EstrattoStampa Digitale Capitolo Uno - Estratto
Stampa Digitale Capitolo Uno - Estratto
 
Monitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di MarkovMonitoraggio di applicazioni software mediante modelli di Markov
Monitoraggio di applicazioni software mediante modelli di Markov
 
Tesi
TesiTesi
Tesi
 
Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...
Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...
Sviluppo e studio di un algoritmo genetico per la ricerca di un intervallo di...
 
mastertesi
mastertesimastertesi
mastertesi
 
Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...
Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...
Progetto e Realizzazione di un Software per la Rilevazione Automatica di Codi...
 
Modellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDAModellazione della dinamica di un liquido bifase mediante GPU CUDA
Modellazione della dinamica di un liquido bifase mediante GPU CUDA
 
Indice del libro "Come vendere con il Blog Aziendale" di Alessio Beltrami
Indice del libro "Come vendere con il Blog Aziendale" di Alessio BeltramiIndice del libro "Come vendere con il Blog Aziendale" di Alessio Beltrami
Indice del libro "Come vendere con il Blog Aziendale" di Alessio Beltrami
 
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
24546913 progettazione-e-implementazione-del-sistema-di-controllo-per-un-pend...
 
Validation and analysis of mobility models
Validation and analysis of mobility modelsValidation and analysis of mobility models
Validation and analysis of mobility models
 
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARYMARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
MARKETING ED ECOMMERCE NELL’EDITORIA: IL CASO TRADING LIBRARY
 
Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084
Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084
Vdohnovenie123 ef7bb245 819c-439d-819a-97ac014c0084
 
Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...
Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...
Sviluppo di una libreria orientata agli oggetti per il calcolo di NURBS con a...
 
5° Rapporto Assoconsult Osservatorio Management Consulting 2014
5° Rapporto Assoconsult Osservatorio Management Consulting 20145° Rapporto Assoconsult Osservatorio Management Consulting 2014
5° Rapporto Assoconsult Osservatorio Management Consulting 2014
 
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEMTesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
Tesi Triennale - Grid Credit System: un portale per la sostenibilità di COMPCHEM
 
Il tutorial di Python
Il tutorial di PythonIl tutorial di Python
Il tutorial di Python
 

More from Stefano Bussolon

The experiential utility: how behavioural economics can help hci to define qu...
The experiential utility: how behavioural economics can help hci to define qu...The experiential utility: how behavioural economics can help hci to define qu...
The experiential utility: how behavioural economics can help hci to define qu...Stefano Bussolon
 
La grammatica della user experience
La grammatica della user experienceLa grammatica della user experience
La grammatica della user experienceStefano Bussolon
 
The pop-out effect: how to improve choice through information architecture
The pop-out effect: how to improve choice through information architectureThe pop-out effect: how to improve choice through information architecture
The pop-out effect: how to improve choice through information architectureStefano Bussolon
 
The Grammar of User Experience
The Grammar of User ExperienceThe Grammar of User Experience
The Grammar of User ExperienceStefano Bussolon
 
Bussolon, Betti: Conceptualize once, design anywhere
Bussolon, Betti: Conceptualize once, design anywhereBussolon, Betti: Conceptualize once, design anywhere
Bussolon, Betti: Conceptualize once, design anywhereStefano Bussolon
 
From Clouds to Trees: Clustering Delicious Tags
From Clouds to Trees: Clustering Delicious TagsFrom Clouds to Trees: Clustering Delicious Tags
From Clouds to Trees: Clustering Delicious TagsStefano Bussolon
 

More from Stefano Bussolon (7)

The experiential utility: how behavioural economics can help hci to define qu...
The experiential utility: how behavioural economics can help hci to define qu...The experiential utility: how behavioural economics can help hci to define qu...
The experiential utility: how behavioural economics can help hci to define qu...
 
La grammatica della user experience
La grammatica della user experienceLa grammatica della user experience
La grammatica della user experience
 
The pop-out effect: how to improve choice through information architecture
The pop-out effect: how to improve choice through information architectureThe pop-out effect: how to improve choice through information architecture
The pop-out effect: how to improve choice through information architecture
 
The Grammar of User Experience
The Grammar of User ExperienceThe Grammar of User Experience
The Grammar of User Experience
 
Bussolon, Betti: Conceptualize once, design anywhere
Bussolon, Betti: Conceptualize once, design anywhereBussolon, Betti: Conceptualize once, design anywhere
Bussolon, Betti: Conceptualize once, design anywhere
 
From Clouds to Trees: Clustering Delicious Tags
From Clouds to Trees: Clustering Delicious TagsFrom Clouds to Trees: Clustering Delicious Tags
From Clouds to Trees: Clustering Delicious Tags
 
Jenseits des Lustprinzip
Jenseits des LustprinzipJenseits des Lustprinzip
Jenseits des Lustprinzip
 

Dispensa di analisi dei dati

  • 1. Dispensa di Analisi dei Dati S B V  Versione non definitiva. Licenza Creative commons
  • 2.
  • 3. Indice  Introduzione all'analisi dei dati  . Analisi dei dati: a cosa serve? . . . . . . . . . . . . . . . . . . . . . . .  .. Un esempio: twier e la borsa . . . . . . . . . . . . . . . . . .  . La ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Aeggiamento critico . . . . . . . . . . . . . . . . . . . . . . .  . Validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Tipi di validità . . . . . . . . . . . . . . . . . . . . . . . . . . .  . L'analisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica esplorativa . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica descriiva univariata . . . . . . . . . . . . . . . . . .  .. Statistie esplorative bivariate . . . . . . . . . . . . . . . . . .  . Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Gli errori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . .  .. Testare un'ipotesi . . . . . . . . . . . . . . . . . . . . . . . . .  .. Scegliere la statistica appropriata . . . . . . . . . . . . . . . . .  . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   L'approccio simulativo  . Gli errori di campionamento . . . . . . . . . . . . . . . . . . . . . . .  .. Distribuzione degli errori . . . . . . . . . . . . . . . . . . . . .  . Introduzione all'approccio simulativo . . . . . . . . . . . . . . . . . . .  .. Generare popolazione e campioni . . . . . . . . . . . . . . . .  .. Campioni di numerosità  . . . . . . . . . . . . . . . . . . . .  . Intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . .  . Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Generare molti campioni da un campione . . . . . . . . . . . .  .. Confronto fra le distribuzioni . . . . . . . . . . . . . . . . . . .  .. Usare l'approccio parametrico . . . . . . . . . . . . . . . . . .  
  • 4. INDICE  Intervallo di confidenza, calcolo parametrico  . L'intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Dalla simulazione alla stima . . . . . . . . . . . . . . . . . . .  .. La distribuzione t di Student . . . . . . . . . . . . . . . . . . .  . Confronto fra un campione ed una popolazione . . . . . . . . . . . . .  .. Il p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Primo esempio . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Secondo esempio . . . . . . . . . . . . . . . . . . . . . . . . .   Confronto fra variabili categoriali: χ2  . Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Confronto di una distribuzione campionaria con una distribuzione teorica  .. Un esempio: distribuzione occupati . . . . . . . . . . . . . . .  . Stima dell'errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La funzione isq.test . . . . . . . . . . . . . . . . . . . . . . .  . Confronto fra due variabili nominali . . . . . . . . . . . . . . . . . . .  .. Calcolare le frequenze aese . . . . . . . . . . . . . . . . . . .   T test: confronto fra medie di due campioni  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Calcolo non parametrico . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La distribuzione U Mann-Whitney-Wilcoxon . . . . . . . . . .  . Approccio parametrico . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Assunzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. R: p-value usando la distribuzione . . . . . . . . . . . . . . . .  .. Uso della funzione t.test . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .   Correlazione e regressione lineare  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La rea di regressione . . . . . . . . . . . . . . . . . . . . . . .  . Analisi inferenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Correlazione e causazione . . . . . . . . . . . . . . . . . . . .  .. Modelli Lineari Generalizzati . . . . . . . . . . . . . . . . . . .  . Approccio intuitivo . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La simulazione . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Uso della distribuzione teorica . . . . . . . . . . . . . . . . . .  . Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Regressione lineare: il modello . . . . . . . . . . . . . . . . . .  .. Assunti della regressione lineare . . . . . . . . . . . . . . . . .  .. R: la funzione lm () . . . . . . . . . . . . . . . . . . . . . . . 
  • 5. INDICE  .. Varianza dei residui, R2 . . . . . . . . . . . . . . . . . . . . .  . Violazione degli assunti . . . . . . . . . . . . . . . . . . . . . . . . . .  . Coefficiente di Spearman . . . . . . . . . . . . . . . . . . . . . . . . .  .. arto esempio, sigmoide . . . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   Analisi della Varianza  . Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Confronto a coppie . . . . . . . . . . . . . . . . . . . . . . . .  . Varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Varianza spiegata e previsioni . . . . . . . . . . . . . . . . . .  .. Un esempio: gli affii in una cià . . . . . . . . . . . . . . . .  . Inferenza e previsioni . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. L'analisi della Varianza . . . . . . . . . . . . . . . . . . . . . .  . Distribuzione dell'errore, inferenza . . . . . . . . . . . . . . . . . . . .  .. La distribuzione Fisher-Snedecor . . . . . . . . . . . . . . . . .  .. R: uso di aov . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Anova a due vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Due variabili indipendenti . . . . . . . . . . . . . . . . . . . .  .. Un esempio: antidepressivi e aività aerobica . . . . . . . . . .  .. Il calcolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . .  .. L'esempio dei traamenti per la depressione . . . . . . . . . . .  . Confronti multipli . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. La correzione di Bonferroni . . . . . . . . . . . . . . . . . . . .  .. Il test di Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Analisi della Varianza: assunti . . . . . . . . . . . . . . . . . .  . Test non parametrico . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Il test di Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . .  . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   Casi di studio  . Il framing effect nella scelta di un paceo turistico: un esperimento on line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Metodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Depressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Confronto fra  variabili ad intervalli . . . . . . . . . . . . . . . . . . .  .. Disegno i grafici delle  variabili . . . . . . . . . . . . . . . . .  .. Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Differenza fra masi e femmine . . . . . . . . . . . . . . . . . . . . .  .. Test non parametrico . . . . . . . . . . . . . . . . . . . . . . .  . estionario parole-non parole . . . . . . . . . . . . . . . . . . . . . .  .. Filtro i dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
  • 6. INDICE .. Rapporto fra scolarità e media di risposte corree . . . . . . . .  .. Confronto per genere . . . . . . . . . . . . . . . . . . . . . . .  . Il problema della violazione degli assunti . . . . . . . . . . . . . . . . .  .. Possibili soluzioni . . . . . . . . . . . . . . . . . . . . . . . . .  . Calcolo su dati artificiali . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Analisi della varianza a due vie . . . . . . . . . . . . . . . . .  A Primi passi con R  A. Scaricare e avviare R . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Scaricare R . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Usare R come una calcolatrice . . . . . . . . . . . . . . . . . .  A.. Operazioni booleane . . . . . . . . . . . . . . . . . . . . . . .  A. Help . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A. Funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Creare e manipolare matrici . . . . . . . . . . . . . . . . . . .  A.. Filtri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Data frames . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. Liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  A. Le distribuzioni teorie . . . . . . . . . . . . . . . . . . . . . . . . . .  A.. La distribuzione normale . . . . . . . . . . . . . . . . . . . . .  A.. Altre distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . .  B R: analisi descrittiva  B. Analisi descriive . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  B.. Leggere un file di dati . . . . . . . . . . . . . . . . . . . . . . .  B.. Visualizzare il sommario . . . . . . . . . . . . . . . . . . . . .  B.. Variabili nominali . . . . . . . . . . . . . . . . . . . . . . . . .  B.. Variabili a rapporti . . . . . . . . . . . . . . . . . . . . . . . . 
  • 7. Capitolo  Introduzione all'analisi dei dati Indice . Analisi dei dati: a cosa serve? . . . . . . . . . . . . . . . . . . .  .. Un esempio: twier e la borsa . . . . . . . . . . . . . . . .  . La ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Aeggiamento critico . . . . . . . . . . . . . . . . . . . .  . Validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Tipi di validità . . . . . . . . . . . . . . . . . . . . . . . .  . L'analisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Statistica esplorativa . . . . . . . . . . . . . . . . . . . . .  .. Statistica descriiva univariata . . . . . . . . . . . . . . .  .. Statistie esplorative bivariate . . . . . . . . . . . . . . .  . Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . .  .. Gli errori . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Campionamento . . . . . . . . . . . . . . . . . . . . . . .  .. Intervalli di confidenza . . . . . . . . . . . . . . . . . . .  .. Testare un'ipotesi . . . . . . . . . . . . . . . . . . . . . . .  .. Scegliere la statistica appropriata . . . . . . . . . . . . . .  . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  . Analisi dei dati: a cosa serve? ``I keep saying that the sexy job in the next  years will be statisticians. And I'm not kidding.'' Hal Varian, ief economist at Google La citazione è traa da un articolo apparso sul New York Times nell'agosto . Con lo svilupparsi di internet e delle nuove tecnologie, sostiene l'articolo, vivremo in un mondo dove tuo può essere misurato, dove il numero di informazioni di tipo quantitativo è destinato a crescere di anno in anno. Il problema, notano, è e affiné questi dati ab- biano un senso, è necessario trasformarli in informazioni e conoscenza. Per fare questo, i dati vanno analizzati. La statistica e l'analisi dei dati sono fra gli strumenti necessari per meere in ao questa trasformazione. Dati, informazioni, conoscenza. 
  • 8. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI L'analisi dei dati, dunque, può essere utilizzata per trasformare i dati raccolti da osservazioni empirie in informazioni e, all'interno di un contesto conoscitivo, ac- crescono la conoscenza degli individui e delle organizzazioni. L'articolo del New York Times enfatizza principalmente la conoscenza applicativa, finalizzata ad oenere risultati pratici. L'analisi dei dati può essere utilizzata ane per fare delle previsioni. .. Un esempio: twitter e la borsa Recentemente, è stato pubblicato un articolo (Bollen et al., ) in cui dei ricercatori hanno analizzato il flusso di status su twier, hanno analizzato la frequenza di alcuni termini lessicali legati al tono dell'umore e allo stato emozionale. Ebbene, la ricerca ha evidenziato e: X questo tipo di analisi riesce a misurare il tono dell'umore degli utenti twier; X questa misura ha una capacità significativa di prevedere, di due o tre giorni, l'an- damento della borsa di New York. esto lavoro è un esempio interessante non solo dell'importanza dell'analisi dei dati, ma ane di alcuni aspei metodologici. I ricercatori, infai, si sono posti alcune domande: X gli utenti twier tendono ad esprimere, nei loro post, ane il loro umore? X è possibile analizzare l'umore di un tweet verificando la presenza di determinati termini lessicali? X è possibile correlare questi termini con dei costrui psicologici? X è ipotizzabile e esista, oltre allo stato dell'umore individuale, ane uno sta- to dell'umore colleivo? Ovvero, è possibile e, in un determinato giorno o in un determinato periodo, una popolazione di individui tenda a provare le stesse emozioni? X è possibile e -- ammesso e esista -- questo umore colleivo abbia un'influen- za su alcuni comportamenti o su alcuni indici economici? Ad esempio, l'umore colleivo ha una relazione con l'andamento della borsa? Per rispondere a queste domande, Bollen et al. () hanno adoato un approccio empirico. In primo luogo, hanno studiato la leeratura. Il loro articolo riporta alcune ricere e indicano come l'analisi testuale dei blog sia capace di fare delle previsioni sul successo dei film nelle sale cinematografie, e dall'analisi delle at si possa prevedere l'andamento della vendita di libri. Inoltre, citano un lavoro e dimostra come il public sentiment, l'opinione colleiva degli utenti dei social network relativi ad un film sia capace di prevederne il successo commerciale. In secondo luogo vengono citati una serie di lavori e di teorie socio-cognitive e dimostrano come le emozioni hanno un'influenza sui processi decisionali. Citano dei lavori e mostrano come le emozioni abbiano un ruolo ane nell'ambito economico- finanziario.
  • 9. .. ANALISI DEI DATI: A COSA SERVE?  Gli autori fanno dunque un'ipotesi: è ragionevole assumere, dicono, e le emozioni e l'umore del pubblico possano avere un'influenza sui valori del mercato azionario. Citano una ricerca e ha indagato proprio questo aspeo, arrivando a conclusioni a supporto di quest'ipotesi. Il loro lavoro, dunque, si basa su alcune ipotesi verosimili, supportate da una serie di ricere fae da altri ricercatori, e ne confermano la plausibilità. I ricercatori esprimo- no degli interessi, potremmo dire delle curiosità. Si pongono delle domande: esiste un umore colleivo? esto umore colleivo può avere un impao su aspei importanti della vita delle persone e delle organizzazioni? È possibile misurare questo umore? La leeratura sull'argomento sembra rispondere positivamente a queste domande. L'umore colleivo è misurabile, ed è un indicatore interessante. Misurarlo con strumenti tradizionali (ad esempio con i questionari e i sondaggi nazionali) è però molto costoso, osservano. Esiste il modo di misurare quel parametro in maniera altreando efficace ma meno costosa? Un modo alternativo per misurare il parametro, osservano, è quello di utilizzare internet e le moderne tecnologie per raccogliere l'enorme mole di dati pubblicati dagli utenti internet sui social network, identificare degli indicatori capaci di cogliere quella misura, e araverso opportune analisi trasformare questi indicatori in una misura capace di stimare il parametro. Gli autori, dunque, fanno una seconda ipotesi: sebbene un tweet sia lungo al mas- simo  caraeri, l'analisi di milioni di questi tweet può offrire una rappresentazione accurata dell'umore colleivo. Ane in questo caso, l'ipotesi è supportata da alcuni lavori sperimentali, e vengono citati. Bollen et al. () esprimono l'ipotesi centrale del loro lavoro: In this paper we investigate whether public sentiment, as expressed in large- scale collections of daily Twier posts, can be used to predict the sto market. I ricercatori hanno fao un'indagine empirica (sebbene non sperimentale) per valu- tare la loro ipotesi. Hanno raccolto quasi  milioni di tweet, di circa .. utenti. Araverso degli strumenti di analisi testuale, hanno calcolato la presenza o meno di termini generalmente utilizzati, nella lingua inglese, per esprimere il proprio umore. Ane in questo caso, hanno utilizzato degli indicatori noti in leeratura, sebbene da loro modificati per meglio adaarsi alla loro ricerca. Partendo da questo lavoro di data-mining (di estrazione di informazioni) Bollen et al. () hanno oenuto alcuni indicatori. Uno, relativo al tono dell'umore (positivo vs. negativo). Altri sei indicatori, correlati ai costrui psicologici di calma, allerta, sicurezza, vitalità, gentilezza e felicità. Araverso opportune trasformazioni, hanno calcolato, per ognuna di queste dimensioni, l'andamento giornaliero del sentimento pubblico. Per verificare e questi indici misurassero davvero i costrui e nominalmente rap- presentano, hanno identificato due momenti e, si suppone, potevano avere un forte im- pao emotivo: l'elezione del presidente Obama e il giorno del ringraziamento. Ebbene, in concomitanza con questi due eventi, i sismografi Utilizzando le API di twier, hanno raccolto ----------
  • 10.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI . La ricerca La ricerca scientifica è una aività struurata, finalizzata ad accrescere la conoscenza, teorica e applicativa, araverso un aeggiamento empirico. All'interno del processo di ricerca vi sono aività di acquisizione, analisi ed interpretazione dei dati. L'acqui- sizione è finalizzata a raccogliere i dati, l'analisi è finalizzata a trasformare i dati in informazioni, l'interpretazione a trasformare l'informazione in conoscenza. La ricerca usa procedure, metodi e tecnie coerenti con una specifica scelta episte- mologica e metodologica. Tali procedure, metodi e tecnie sono scelti in base alla loro validità e affidabilità. Infine, l'aeggiamento scientifico dovrebbe rispeare dei crite- ri di obieività, ed evitare ogni forma di manipolazione finalizzata a piegare i risultati alle ipotesi del ricercatore. Uno dei fini dell'utilizzo di procedure, metodi e tecnie standardizzate è proprio quello di rispeare dei ragionevoli criteri di obieività. La ricerca scientifica, dunque, dovrebbe essere -- nel limite del possibile -- una aività controllata, rigorosa, sistematica, valida, verificabile, empirica, e critica. Attività controllata Una delle finalità del metodo sperimentale è quella di misurare la relazione fra due variabili, minimizzando gli effei di faori estranei. Il criterio della controllabilità è più facile da oenere quando l'aività di ricerca avviene in un contesto il più possibile controllato, quale il laboratorio sperimentale. Ricerca qualitativa Lo svantaggio della ricerca in laboratorio, soprauo nell'ambito delle scienze sociali e psicologie, è e la controllabilità implica la semplificazione del seing. Per questo motivo, ad un approccio streamente sperimentale e quantitativo, è spesso necessario affiancare delle aività di ricerca di tipo più qualitativo e, sebbene meno solide dal punto di vista inferenziale, possono permeere alla comunità scientifi- ca di avere una più completa visione d'insieme, e possono permeere di meglio conte- stualizzare ane i risultati, più particolari, delle ricere sperimentali più streamente controllate e quantitative. In termini epistemologici, questo aeggiamento viene definito pluralismo metodo- logico, mentre l'idea e un solo tipo di approccio empirico e conoscitivo sia possibile è definito monismo metodologico. Rigorosità Il conceo di rigorosità si riferisce ad un aeggiamento epistemologico finalizzato ad identificare misure, strumenti e metodi e siano rilevanti, appropriati e giustificati (teoricamente ed empiricamente). Sistematicità Indica e la procedura adoata segue una iara sequenza logica. .. Atteggiamento critico L'idea di aeggiamento critico, di sano sceicismo da parte del ricercatore, è la quin- tessenza del pensiero epistemologico di Popper. Secondo Popper la ricerca scientifica
  • 11. .. LA RICERCA  dovrebbe vivere di due momenti: a formulazione di ipotesi; b processo di falsificazio- ne delle ipotesi. In questa prospeiva, è il ricercatore stesso e, araverso il metodo sperimentale, cerca di falsificare le proprie ipotesi e le proprie teorie. In realtà, un simile aeggiamento autocritico è difficile da mantenere, ane peré, per un ricercatore, è molto più gratificante confermare la validità delle proprie ipotesi e falsificarle. Ciononostante, questo approccio critico è considerato talmente importante e vi sono due meccanismi metodologici, fortemente consolidati, finalizzati proprio a rafforzare questo aeggiamento. Il peer reviewing Uno dei due meccanismi finalizzato a mantenere l'aeggiamen- to critico è il meccanismo del peer reviewing: prima e un lavoro scientifico venga acceato (e dunque pubblicato su di una rivista scientifica), deve passare al vaglio di altri ricercatori. esto esame fra colleghi avviene in forma anonima, ed è finalizzato proprio a garantire e, prima di venir pubblicato, il lavoro sia analizzato aentamente e con ocio critico per valutarne sia il rispeo dei principi epistemologici e metodologici, di validità e la rilevanza scientifica. Falsificazione e ipotesi nulla In secondo luogo, l'approccio falsificazionista sta alla base della statistica inferenziale. Come vedremo nei prossimi paragrafi e nel corso dell'intera dispensa, la statistica inferenziale è finalizzata a valutare quanto le misure oenute siano aribuibili al caso. Nel confronto fra due (o più) variabili, ad esempio, si cerca di capire se fra le variabili vi è una relazione. Per fare questo, si identifica una statistica, ovvero una procedura di calcolo araverso cui si oiene un valore numerico. Il fine del processo inferenziale è stabilire se quel valore numerico va aribuito al caso (all'errore di campionamento) o alla relazione fra le variabili. Per fare questo, si formulano due ipotesi: l'ipotesi nulla (H0 ) assume e il valore numerico misurato sia aribuibile al caso, e e dunque, dall'analisi faa, non si possa dedurre e vi sia una relazione. L'ipotesi alternativa (HA ) assume invece e il valore numerico non sia aribuibile al caso, e dunque si possa inferire e la relazione esiste. Ebbene, il processo inferenziale si basa sul rifiuto (ovvero, sulla falsificazione) del- l'ipotesi nulla. Se il valore numerico calcolato è superiore (o inferiore, a seconda dei casi) ad un valore critico, si rifiuta l'ipotesi nulla, ovvero si falsifica l'ipotesi e non vi sia relazione fra le variabili. In caso contrario, l'ipotesi nulla non viene rifiutata, ma si rifiuta l'ipotesi alternativa. In God we trust, all others bring data. -- William Edwards Deming Principi Come abbiamo visto, la ricerca scientifica si basa su di una serie di principi epistemologici e metodologici. X empiricismo (guardare ai dati); X determinismo (assumere la presenza di relazioni causa - effeo); X parsimonia (le spiegazioni semplici sono meglio di quelle complicate);
  • 12.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI X preferenza per un approccio scientifico - sperimentale; X un sano sceicismo; X amore per la precisione; X indagine basata su teorie e ipotesi; X rispeo per i paradigmi teorici; X disponibilità a cambiare opinione (e ad ammeere di avere, talvolta, torto); X fedeltà alla realtà, ovvero alle osservazioni empirie; X aversione per la superstizione, e preferenza per le spiegazioni scientifie; X sete di conoscenza, o più banalmente sana curiosità e voglia di sapere; X capacità di sospensione del giudizio; X consapevolezza delle proprie assunzioni, e dei limiti (teorici, metodologici, di mi- surazione); X capacità di separare le cose importanti da quelle irrilevanti; X rispeo - e aitudine positiva - verso i metodi quantitativi; X conoscenza delle basi della statistica e della teoria della probabilità; X consapevolezza e la conoscenza è sempre imperfea e in quale modo impre- cisa. Metodo scientifico Sebbene non esista una ricea preconfezionata, possiamo semplificare l'approccio scien- tifico come qualcosa e assomiglia al processo seguente: . osserva un aspeo del mondo . formula un'ipotesi su quell'aspeo . usa la teoria per fare delle previsioni . testa le tue previsioni, araverso delle osservazioni o, meglio, degli esperimenti . modifica la teoria alla luce dei risultati . ricomincia dal punto .
  • 13. .. LA RICERCA  Analisi della letteratura A month in the laboratory can oen save an hour in the library. -- F. H. Westheimer Per trovare una risposta scientificamente plausibile ad un problema: X studiare la leeratura: molto probabilmente il problema è già stato affrontato, sono state sviluppate delle teorie, sono stati pubblicati degli esperimenti. Prima di immaginare di iniziare una ricerca, è fondamentale analizzare la leeratura. X se dalla leeratura emergono risposte iare, il processo può fermarsi: abbiamo la risposta e cercavamo. Contribuire alla ricerca Se dall'analisi della leeratura non emerge una risposta ia- ra alle domande e ci siamo posti, può aver senso cercare di dare una risposta empirica, adoando il metodo scientifico. X partire da ciò e è emerso dallo studio della leeratura; X se opportuno, iniziare una fase di osservazione, o una raccolta dati più aperta, meno quantitativa e più qualitativa, per meglio definire il problema; X formulare un'ipotesi, plausibilmente all'interno di una teoria; X formulare una previsione, basata sull'ipotesi; X procedere ad uno studio empirico, possibilmente quantitativo, possibilmente con un disegno di tipo sperimentale; X analizzare i dati, possibilmente con l'utilizzo ane di statistie inferenziali; X trarre delle conclusioni. Tipologie di ricere empirie Abbiamo già accennato e l'approccio empirico può essere più rigoroso, quantitativo, oppure privilegiare un aspeo più qualitativo. Semplificando, possiamo elencare le seguenti tipologie di ricerca: X osservazione non sistematica: si traa di osservare un fenomeno, prenderne nota; è utile in una fase iniziale della ricerca, per iniziare ad avere un'idea del fenomeno studiato e formulare le prime ipotesi; X osservazione sistematica: il fenomeno non viene solo osservato, ma ane misu- rato; le dimensioni rilevanti vengono decise in anticipo; event sampling: viene registrato un dato ogni volta e ha luogo un evento; time sampling; viene faa una osservazione ad ogni intervallo di tempo; l'osservazione, in quanto tale, tende a non modificare né interferire con quello e osserva;
  • 14.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI X esperimento: finalizzato a verificare o falsificare un'ipotesi; implica la manipola- zione direa di una o più variabili (indipendenti), la misura di uno o più variabili dipendenti, e l'analisi dei dati araverso delle statistie inferenziali; X si definisce quasi-esperimento una situazione empirica in cui le variabili indipen- denti non possono essere manipolate dallo sperimentatore. X le simulazioni usano modelli fisici o matematici per riprodurre le condizioni di una situazione o di un processo. . Validità Il metodo scientifico, e più in particolare l'approccio sperimentale, si basa sull'assunzione e vi sia un legame esplicativo fra ciò e succede nel contesto sperimentale e quello e si intende spiegare. L'esperimento, in quanto tale, tende a replicare in un seing controllato alcuni aspei di ciò e avviene nel mondo esterno, per poter verificare se vi è una relazione causale fra due o più variabili. Per fare questo bisogna ricreare la situazione nel seing, testare la relazione causale, e riportare la relazione all'ambiente originale. Presupposti di validità I presupposti sono: X e alcuni aspei di un fenomeno si possano misurare, se non su tua la popola- zione, almeno su di un campione; X e, a partire da queste misurazioni, si possano fare delle analisi statistie per far emergere delle relazioni o delle differenze; X e questi risultati abbiano una significatività statistica; X e ciò e si è misurato e e i dati oenuti abbiano un legame con il fenomeno in questione; X e i risultati oenuti sul campione, nel contesto sperimentale, possano essere generalizzati. Una ricerca è valida se rispea questi assunti. .. Tipi di validità In leeratura si trovano diversi tipi di validità. Ne eleniamo i più importanti. La validità di costrutto Si preoccupa di valutare se una scala (o una variabile) misura - o correla - con il costruo scientifico teorizzato. La validità di costruo può essere supportata dalla validità convergente, e ha luogo quando la misura correla statistica- mente con misure correlate teoricamente, e dalla validità discriminante, e ha luogo quando vi è una mancata correlazione statistica con misure e la teoria suppone non siano correlate.
  • 15. .. L'ANALISI DEI DATI  La validità di contenuto Si preoccupa e l'esperimento (o le variabili misurate) co- prano adeguatamente il soggeo di studio, ed è fortemente legata al design sperimentale. La validità statistica È legata alla possibilità di trarre delle inferenze dall'analisi sta- tistica, ovvero se le differenze o le associazioni e misuriamo sono statisticamente significative. La validità interna Vi è validità interna se possiamo assumere e vi sia una rela- zione causale fra le variabili studiate, ovvero se una correlazione osservata può essere considerata una relazione causale. Può essere assunta solo all'interno di un disegno sperimentale. La validità esterna Si preoccupa di verificare se le conclusioni valide nel seing spe- rimentale possono essere generalizzate, alla popolazione o a contesti diversi. Validità e statistica X L'analisi dei dati è uno degli strumenti e ci permee di valutare alcuni degli aspei della validità di un esperimento. X L'analisi descriiva ed esplorativa ci permeono di verificare l'esistenza di una relazione fra variabili. X L'analisi inferenziale ci permee di verificare la validità statistica propriamente dea. X Le tecnie di campionamento sono finalizzate a massimizzare la validità esterna. X Il design sperimentale ha il fine di preservare la validità interna Affidabilità L'affidabilità si riferisce alla qualità del processo di misurazione delle variabili. È legato agli aspei della ripetibilità della misura e di accuratezza della stessa. . L'analisi dei dati Scopi L'analisi dei dati è finalizzata a molteplici scopi: X descrivere -- numericamente e graficamente -- una misura relativa ad un campio- ne; X fare delle stime -- puntuali e ad intervallo -- relative a dei parametri della popo- lazione;
  • 16.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI X calcolare delle relazioni fra due o più variabili, misurate sul campione, e fare delle inferenze in merito alla popolazione di riferimento; X fare delle previsioni in merito al valore di una osservazione, non nota, a partire da delle osservazioni note. Possiamo dunque distinguere fra statistie descriive-esplorative e statistie infe- renziali. .. Statistica esplorativa Finalità Le statistie descriive sono finalizzate a: X avere una prima visione, qualitativa, delle variabili raccolte; X controllare la presenza di errori, ad esempio di data-entry; X far emergere outliers e anomalie; X valutare qualitativamente ipotesi e assunti, determinare qualitativamente le rela- zioni fra le variabili; X identificare l'entità e la direzione delle relazioni fra le variabili; X selezionare i modelli statistici appropriati; Le statistie esplorative propriamente dee (Exploratory Data Analysis, EDA) han- no ane altre funzioni: X scoprire paern e struure implicite; X estrarre variabili latenti, o far emergere variabili importanti; X sviluppare modelli parsimoniosi (riduzione dello spazio delle variabili); X determinare opportuni parametri per ulteriori analisi (es n' di faori, n' di clusters) Tipologie di statistica esplorativa La statistica esplorativa può essere univariata o multivariata. Inoltre, può utilizzare metodi grafici e metodi non grafici. Spesso, in leeratura, si tende ad usare sia il termine descriiva e esplorativa, ane se forse ha più senso parlare di statistica esplorativa quando valuta la relazione fra due o più variabili, e descriiva la statistica non inferenziale univariata. Mentre l'analisi inferenziale segue la definizione dell'ipotesi di ricerca, l'analisi esplo- rativa spesso ha luogo prima della definizione del modello teorico e dell'ipotesi di ricerca. Semplificando, nell'analisi inferenziale, la sequenza teorica è problema → definizione di un modello (ipotesi) → raccolta dei dati → analisi → eventuali conclusioni Nell'analisi esplorativa, la sequenza è problema → raccolta dei dati → analisi esplorativa → definizione di un modello (ipotesi) → eventuali conclusioni
  • 17. .. L'ANALISI DEI DATI  .. Statistica descrittiva univariata Nella statistica descriiva univariata (non grafica), si valutano prevalentemente tre aspet- ti (Waltenburg and McLaulan, ): X le tendenze centrali della distribuzione X la dispersione della distribuzione X la forma della distribuzione Gli strumenti e le misure della statistica descriiva univariata dipendono dalla tipologia della variabile: categoriale-ordinale versus numerica (intervalli, rapporti). Distribuzione La distribuzione sintetizza la frequenza dei valori o di intervalli di valori di una varia- bile. La frequenza può essere assoluta (il numero di osservazioni e cadono in quella categoria o e rientrano in quel valore o intervallo) o in termini percentuali. La distribuzione può essere rappresentata in forma tabellare, oppure con un grafico (tipicamente, un istogramma). Nella forma tabellare, rappresenta una distribuzione di frequenza. Possiamo distinguere X frequenze assolute: si contano il numero di volte e un particolare valore è oenuto nel campione; X frequenze relative, proporzioni: frequenze assolute divise per il numero di osser- vazioni; X frequenze percentuali: proporzioni moltiplicate per . Le frequenze sono rappresentate in tabelle di contingenza. Tendenze centrali La tendenza centrale di una distribuzione è una stima del centro di una distribuzione di valori. Vi sono tre principali tipologie di stima della tendenza centrale: X la moda: il valore (o la categoria) più frequente. Per calcolare la moda, è sufficiente ordinare i punteggi in base alla frequenza, e selezionare il primo. X la mediana: il valore e sta a metà quando le osservazioni sono ordinate in base alla variabile. Se il numero di osservazioni è dispari, si calcola la media fra i due valori centrali. X la media aritmetica, si calcola sommando i valori e dividendo la somma per il numero di osservazioni.
  • 18.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI Indici di dispersione La dispersione si riferisce alla diffusione dei valori intorno alla tendenza centrale. Le due misure più importanti sono X il range, ovvero la distanza fra il valore massimo ed il minimo. X la deviazione standard misura la variabilità aorno alla media. X la distanza interquartilica: corrisponde al range fra il primo e il terzo quartile. Meno soggeo agli outliers. Non tui questi indici possono essere applicati a tue le variabili, e dunque il primo passaggio nella statistica descriiva è dunque quello di definire le tipologie di variabili studiate. Tipologie di variabili Possiamo distinguere  tipologie di variabili: X nominali X ordinali X ad intervalli X a rapporti Nel definire le tipologie di statistie applicabili, la distinzione più importante è fra variabili categoriali e quantitative (intervalli, rapporti). Scale nominali Le variabili nominali creano delle categorie, e permeono di classifi- care le osservazioni all'interno di quelle categorie. Alle varie categorie non può essere aribuito un ordine, e tantomeno è possibile fare delle operazioni matematie sulle variabili nominali. Una variabile dicotomica è un caso speciale di variabile nominale, in cui vi sono soltanto due categorie. A partire da una variabile nominale è possibile calcolare la frequenza (ovvero il numero di osservazioni classificate in ogni gruppo) e la moda (ovvero il gruppo più numeroso). Scale ordinali Le variabili ordinali permeono di stabilire un ordine fra gli elementi. Soo certi aspei, costituiscono una estensione delle variabili nominali. Essendo possibile stabilire un ordine, permeono di identificare la posizione di un elemento nel rapporto con gli altri elementi. Data una variabile ordinale, oltre alla moda, è possibile calcolare i percentili, i quar- tili, la mediana.
  • 19. .. L'ANALISI DEI DATI  Scale ad intervalli Le variabili ad intervalli non solo possono essere ordinate, ma è possibile fare delle assunzioni in merito alla distanza fra i valori, in quanto la distanza fra ogni valore intero è costante. È possibile misurare non soltanto la moda e la mediana, ma ane la media aritme- tica fra le tendenze centrali; fra le misure di dispersione, possiamo misurare il range, la distanza interquartilica e la deviazione standard. Le scale a rapporto sono variabili ad intervalli; la loro particolarità è dovuta al fao e il valore e corrisponde allo zero non è arbitrario, ma assoluto. Ciononostante, generalmente si applicano alle variabili a rapporto le stesse statistie delle variabili ad intervalli. Variabili e statistie Statistica descrittiva univariata categoriale Nel caso di variabile categoriale, la rap- presentazione non grafica più appropriata è in forma tabellare: si costruisce una tabella, con tante colonne quanti i livelli della variabile. I valori delle celle rappresentano la fre- quenza delle osservazioni per ogni livello. La frequenza può essere assoluta (il numero di osservazioni) o relativa. Per oenere la tabella della frequenza relativa si dividono le osservazioni di ogni livello per il numero di osservazioni totale. L'unica misura della tendenza centrale appropriata per le scale nominali è la moda, ovvero il livello con frequenza più alta. Graficamente, una variabile categoriale può essere rappresentata araverso un gra- fico a barre. Se il numero di livelli è basso, può essere utile ane la rappresentazione del grafico a torta. Statistica descrittiva univariata, variabili ordinali Nel caso di variabili ordinali, oltre alla moda e al numero di livelli, possiamo calcolare: X l'indice di centralità della mediana; X indici di dispersione quali il range e i percentili; di particolare interesse i quartili e la distanza interquartilica. X ane nel caso di variabili ordinali, se il numero di livelli è relativamente basso, può essere utile creare la tabella delle frequenze, assolute o relative. X La rappresentazione grafica più appropriata è il grafico a barre, a pao e l'ordine degli elementi grafici rispei l'ordine delle categorie. Statistica descrittiva univariata, variabili numerie X nelle variabili ad intervalli (o a rapporti), oltre alla moda e alla mediana si calcola l'indice di centralità della media. X oltre al range, ai percentili ed ai quartili, si calcola l'indice di dispersione della varianza (e della deviazione standard).
  • 20.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI X nell'analisi della forma della distribuzione, l'aspeo più importante consiste nel valutare se la distribuzione osservata approssima una distribuzione teorica, tipi- camente la distribuzione normale. Nel caso, è possibile calcolare la simmetria e la kurtosi della curva di distribuzione. Statistica grafica univariata, variabili numerie X per rappresentare graficamente la distribuzione, si utilizzano l'istogramma e il grafico della distribuzione oenuto araverso il metodo del kernel. X araverso il boxplot è possibile rappresentare la mediana, i quartili ed il range di una distribuzione numerica. È possibile inoltre valutare la presenza di outliers, ovvero di osservazioni collocate ai margini della distribuzione osservata. X usando il grafico qqnorm (o qqplot) e la funzione qqline è possibile confrontare la distribuzione osservata con la distribuzione teorica normale. Valutazione della normalità, trasformazioni Test di normalità Poié le statistie inferenziali parametrie assumono una distri- buzione delle osservazioni di tipo normale, è generalmente opportuno valutare la distri- buzione osservata di una variabile non soltanto araverso metodi grafici e descriivi, ma ane araverso dei test di normalità. In questa dispensa, utilizzeremo due di questi test: X Il test di Kolmogorov-Smirnov permee di confrontare due distribuzioni arbitrarie, e può essere usato per il confronto fra la distribuzione osservata e la distribuzione normale; X Il test di normalità Shapiro-Wilk è finalizzato a valutare la normalità della distri- buzione osservata. Le due misure possono dare risultati differenti. Risulta pertanto necessario un pro- cesso di valutazione e tenga conto sia dei risultati dei test e dell'analisi grafica della distribuzione. esta regola pratica vale in ogni ambito della ricerca e dell'analisi dei dati: la me- todologia ci indica delle procedure e è opportuno seguire, per minimizzare il risio di errori e meano a repentaglio affidabilità e validità della ricerca. Le procedure, però, non vanno seguite pedissequamente. Conoscere i princˆ e gliipi assunti dell'analisi dei dati ci permee di fare delle inferenze ragionevolmente robuste ane nei casi, e sono molti, in cui non è possibile una applicazione meccanica della procedura. .. Statistie esplorative bivariate Le statistie esplorative multivariate hanno la finalità di meere in relazione due o più variabili.
  • 21. .. STATISTICA INFERENZIALE  Le statistie grafie tendono a limitarsi prevalentemente al confronto di due varia- bili alla volta, in quanto questi confronti sono più facili da rappresentare e più immediati da leggere. Variabili numerie: grafico di dispersione Nel caso di confronto fra due variabili numerie, la rappresentazione grafica più appropriata è il grafico di dispersione, e mappa le osservazioni delle due variabili sulle due dimensioni x e y. La linea di regressione, inoltre, ci permee di visualizzare il modello di regressione lineare. Variabili categoriali: mosaic plot Araverso il mosaic plot è possibile rappresentare graficamente la relazione fra due variabili di tipo categoriale, nominale o ordinale. Per rappresentare numericamente il rapporto fra due variabili categoriali si usa in- vece la tabella delle frequenze (assolute o relative). La tabella, di dimensioni r ∗ c, dove r è il numero di livelli di una variabile, c il numero di livelli dell'altra. Variabile categoriale vs variabile numerica Nel caso si debbano confrontare grafi- camente una variabile numerica su di una variabile categoriale, è possibile utilizzare nuovamente il boxplot, disegnando tanti boxplot quanti sono i gruppi della variabile categoriale. Una seconda possibilità è quella di un grafico a barre, dove ogni barra rappresenta la media di ogni gruppo. Un'alternativa grafica consiste nel sostituire le barre con delle linee e congiungono i punti e rappresentano le medie. este rappresentazioni possono essere utilizzate ane quando le variabili catego- riali (indipendenti) sono due. . Statistica inferenziale Finalità Il fine dell'analisi inferenziale è quello -- banalmente -- di fare delle inferenze su di una popolazione a partire dalle osservazioni di un campione. Il fine dell'analisi inferenziale univariata, è quello di stimare il valore di un parametro della popolazione a partire da una statistica calcolata sul campione. Il fine dell'analisi inferenziale bivariata è quello di stimare la significatività di una relazione fra due variabili. Le analisi multivariate sono sostanzialmente un'estensione dell'analisi bivariata. Nel confronto fra le variabili, possiamo determinare X correlazioni fra variabili X differenze fra gruppi X determinazione di relazioni X stima di effei X predizioni basate su analisi della regressione.
  • 22.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI Analisi inferenziale univariata La finalità è quella di stimare il parametro di una popolazione a partire dalla statistica corrispondente, calcolata sul campione. General- mente, il parametro stimato è la media della popolazione, ma si usa ane per stimarne la varianza o la mediana. Poié queste statistie sono soggee all'errore di campionamento, nell'analisi in- ferenziale si calcola ane l'intervallo di confidenza, ovvero la forbice entro cui si stima e il parametro oggeo di indagine si colloi. Analisi inferenziale bivariata Lo scopo di questo tipo di analisi è quello di verificare e vi sia una relazione statisticamente significativa fra le due variabili. L'approccio comune alle analisi bivariate è quello di identificare una statistica capace di misurare la relazione, applicare la statistica sulle variabili in oggeo, e confrontare il valore con la distribuzione dell'errore di quella statistica. Se il valore numerico della statistica cade all'interno della distribuzione di errore, si assume e quella relazione non sia statisticamente significativa. .. Gli errori Il fine dell'analisi inferenziale è quello di trarre delle conclusioni in merito a dei parametri di una o più popolazioni. Per fare questo, si potrebbe voler misurare i parametri della popolazione di interesse, calcolarne le statistie appropriate, e trarne le debite inferenze. Testare l'intera popolazione è però generalmente impossibile, per due ordini di mo- tivi. X Il motivo più ovvio è di tipo pratico: se la popolazione è molto numerosa, testarla completamente diventa eccessivamente costoso. X Vi è inoltre un secondo motivo: a volte, la popolazione di riferimento è teorica. Ad esempio, potremmo voler fare delle inferenze sulla depressione post partum; in questo caso, la popolazione di riferimento sono tue le donne e hanno partorito da meno di ,  mesi. Ma ane se riuscissimo a testare tue le partorienti d'Italia per un intero anno solare, vorremmo e i risultati ci permeessero di fare delle inferenze ane sulle donne e partoriranno fra due anni. La popolazione reale di quest'anno, dunque, è un sooinsieme della popolazione teorica e include le donne e partoriranno nei prossimi anni. Appare dunque iaro e, tranne alcune eccezioni, testare l'intera popolazione è generalmente impossibile. A questo punto, diventa necessario testare soltanto un sot- toinsieme della popolazione, ovvero un campione (sample, in inglese). Semplificando, la logica soostante l'analisi dei dati è sostanzialmente la seguente: X si identifica un problema X si identifica una popolazione X si identifica una dimensione pertinente X si estrae un campione
  • 23. .. STATISTICA INFERENZIALE  X si misura la dimensione sul campione X a partire dalla statistica sul campione, si traggono inferenze sul parametro di popolazione X si traggono delle inferenze sui risultati Vi è, dunque, un passaggio logico: popolazione - campione, misura sul campione - generalizzazione alla popolazione. Abbiamo visto e, affiné questi passaggi portino a risultati acceabili, è necessario preservare dei criteri di validità. Più in particolare, è necessario minimizzare e gestire alcuni errori e possono influire sull'analisi. Tipi di errore L'analisi inferenziale si basa sulla consapevolezza e i processi di campionamento, mi- surazione ed analisi sono soggei ad errori. Il fine della metodologia è quello di minimiz- zare e, quando possibile, escludere gli errori. Il fine dell'inferenza è quello di misurare gli errori, valutare se i risultati oenuti sono da aribuire o meno agli errori, e stimare il risio e il processo decisionale dell'inferenza sia scorreo. Conoscere le tipologie di errori e i metodi per minimizzarli ed evitarli è dunque di centrale importanza nella metodologia e nell'analisi. Sono numerosi gli errori e possono influire sul processo inferenziale. Ricordiamo- ne alcuni. X Errore di campionamento: il campione non produrrà esaamente gli stessi valori e si osserverebbero misurando l'intera popolazione. X In un esperimento, errore di assegnamento: le differenze misurate fra i gruppi sperimentali (e di controllo) potrebbero essere dovute non alla condizione speri- mentale, ma a differenze pre-esistenti fra i gruppi creati X Errore di misurazione (affidabilità): la misurazione della variabile può essere non accurata, e dunque può produrre risultati parzialmente non correi. Più in generale, si definisce errore la differenza fra una misura di un parametro ed il valore reale del parametro stesso. esta differenza può essere casuale o sistematica. Per capire la differenza, è necessario pensare a numerose misure, e dunque al ripetersi dell'errore. Se l'errore è casuale, la media degli errori (ovvero la media delle differenze) tende ad essere pari a zero. Viceversa, l'errore è sistematico se la media tende ad un valore diverso da zero. Gli errori sistematici sono i più pericolosi, in quanto possono indurre il ricercatore a conclusioni errate e sono difficili da far emergere e da correggere araverso gli strumenti statistici. Gli errori sistematici possono essere minimizzati soltanto araverso un design rigoroso ed una raccolta ed elaborazione dei dati scrupolosa. Il problema del campionamento è e, se fao in maniera scorrea, può indurre ad errori sistematici.
  • 24.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI .. Campionamento Viene definito campionamento il processo di selezione del sooinsieme di unità della popolazione da studiare, per misurarne le caraeristie di interesse. La notizia positiva è e, se il campionamento viene effeuato in maniera correa, le caraeristie misurate sul campione tendono ad assomigliare alle caraeristie (pa- rametri) della popolazione. La notizia negativa è e, nonostante la somiglianza, le statistie sul campione sono in quale modo diverse dai parametri della popolazione. esta differenza va aribuita alla variabilità campionaria: se noi selezioniamo due campioni distinti da una stessa po- polazione, oeniamo statistie diverse. este differenze sono definite ane errore di campionamento. Campionamento rappresentativo Per evitare errori sistematici dovuti al campione, è necessario e il campione sia rappresentativo della popolazione. La tipologia di campionamento e meglio garantisce la rappresentatività della popo- lazione è il campionamento casuale: le unità del campione vengono scelte casualmente dalla popolazione. In alcuni casi si utilizza una forma di campionamento stratificata, nelle circostanze in cui si voglia garantire la rappresentatività di piccoli soogruppi di popolazione. Viceversa, metodi di campionamento non casuali (come i campionamenti di conve- nienza) risiano di introdurre degli errori sistematici nella statistica Akritas (). Missing Un problema di non facile soluzione emerge quando una parte non trascurabi- le del campione selezionato non si presta alla misurazione. Se i missing si distribuiscono in maniera uniforme fra il campione, l'impao di questi dati mancanti risulta abbastanza circoscrio. Se, al contrario, i missing sono più frequenti in alcuni strati della popolazione piut- tosto e in altri, è forte il risio di incorrere in un errore sistematico. Errori casuali Una parte di errore, però, non può essere evitata. Se questi errori non sono sistematici, ma distribuiti casualmente, i metodi statistici ci permeono di misu- rarli, di valutarne l'impao, e di calcolare la probabilità e i risultati da noi oenuti siano o meno aribuibili al caso. La funzione della statistica inferenziale è di fare delle stime, relative ai parametri della popolazione, partendo dalle statistie dei campioni, e tengano conto della va- riabilità campionaria. L'analisi inferenziale offre una serie di strumenti e permeano di: X fare delle stime sui parametri di una popolazione X determinare se i parametri di due o più popolazioni sono significativamente diversi X valutare se due o più parametri relativi ad una popolazione sono fra loro legati X fare delle previsioni
  • 25. .. STATISTICA INFERENZIALE  L'analisi inferenziale fa delle stime, di tipo puntuale e intervallare, su determinati para- metri della popolazione, testa delle ipotesi, valuta l'accuratezza delle proprie previsioni e determina il risio e le stime, le ipotesi acceate e le previsioni risultino errate. .. Intervalli di confidenza Un correo campionamento minimizza l'incidenza degli errori sistematici, ma non eli- mina l'errore casuale. Il valore della statistica sul campione, infai, è una approssimazione del valore del parametro della popolazione. Più precisamente, la media del campione costituisce una stima puntuale della media della popolazione. Sappiamo, però, e questa stima sarà -- quasi sicuramente -- leggermente sbagliata. Conoscendo soltanto la stima puntuale, non sappiamo quanto questa stima sia affidabile, e quale sia il probabile range di errore. Il calcolo dell'intervallo di confidenza è finalizzato proprio a calcolare il range entro cui il valore del parametro di popolazione dovrebbe cadere. Un intervallo di confidenza si basa su una percentuale - prestabilita - di confidenza. Generalmente, si considera acceabile una percentuale del %. Per meglio capire la percentuale dell'intervallo di confidenza, partiamo da una osser- vazione. Se estraiamo  campioni diversi dalla stessa popolazione, e misuriamo la stessa variabile sui due campioni, oerremo valori (più o meno) diversi. Immaginiamo ora di estrarre  campioni dalla popolazione. Usiamo il primo cam- pione per misurare il parametro della popolazione, e l'intervallo di confidenza. Un in- tervallo di confidenza del % significa e, se misuriamo la stessa statistica sugli altri  campioni, ci aspeiamo e -- approssimativamente --  di loro cadano entro l'intervallo di confidenza. Più streo l'intervallo di confidenza, più alta la precisione. Un intervallo di confidenza molto largo lascia intendere e le dimensioni del campione sono inadeguate. L'intervallo di confidenza verrà descrio più deagliatamente nella sezione . .. Testare un'ipotesi Nel test di ipotesi, si identificano un'ipotesi nulla e un'ipotesi alternativa; si fanno delle misurazioni e si calcola una statistica; se la statistica cade all'interno della regione di acceazione (basata sulla distribuzione dell'errore campionario), l'ipotesi nulla non viene rifiutata. In caso contrario, l'ipotesi nulla viene rifiutata, e si accea l'ipotesi alternativa. Il test di ipotesi si pone la questione: ``i risultati e abbiamo oenuto possono essere aribuiti al caso?'' Il primo passo, è quello di tradurre il problema scientifico e ci siamo posti nei termini delle due ipotesi: l'ipotesi nulla e l'ipotesi alternativa. X L'ipotesi nulla, H0 , assume e il risultato non sia significativo, ovvero e sia da aribuire al caso. X L'ipotesi alternativa H1 o HA , sostiene e il risultato della statistica non pos- sa essere aribuito al caso, ma e sia da aribuire ad una relazione inerente la popolazione, sia questa una differenza o una relazione.
  • 26.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI Il secondo passo, è identificare una statistica e sia capace di misurare la differenza (o la relazione) all'interno del campione, ed applicarla ai dati raccolti. Il terzo passo è confrontare il valore della statistica con la corrispondente distribu- zione di errore. Informalmente, possiamo dire e più il valore della statistica si colloca ai margini della distribuzione di errore, meno è probabile e la differenza (o la relazio- ne) misurata siano aribuibili al caso. esta probabilità può essere stimata in base alla distribuzione dell'errore, e costituisce il p-value, valore su cui si basa la decisione fina- le: se il p-value risulta inferiore ad un livello di soglia acceabile, definito α, si rifiuta l'ipotesi nulla, e si accea l'ipotesi alternativa. In caso contrario, non si rifiuta l'ipotesi nulla. L'ipotesi nulla Poié i concei di ipotesi nulla, ipotesi alternativa e p-value sono molto importanti nella statistica inferenziale ma sono spesso difficili da comprendere, ci soffermiamo ancora su questi concei. L'ipotesi nulla e l'ipotesi alternativa sono alla base del test di ipotesi, e costituisce il fine della statistica inferenziale, e si propone di capire (e di decidere) se i risultati oenuti siano da aribuire, o meno, al caso. L'esempio più tipico è il disegno sperimentale dove i partecipanti sono assegnati casualmente a due gruppi, il gruppo sperimentale e quello di controllo. Al gruppo spe- rimentale viene somministrato un traamento, al gruppo di controllo no (oppure, viene somministrato il placebo). Viene definita una misura, capace di valutare l'outcome, il ri- sultato del traamento. Si calcola l'appropriata statistica (ad esempio la media) dei due gruppi sperimentali, e si calcola la differenza fra le due medie. Se la metodologia sperimentale è stata seguita correamente, la differenza fra le due medie può essere aribuita soltanto a due possibili cause: il traamento, o il caso. L'ipotesi nulla assume e la statistica misurata (in questo caso, la differenza) sia ari- buibile al caso, ovvero e la vera differenza fra la media dei due gruppi sia pari a zero. L'ipotesi alternativa assume e la differenza non possa essere aribuita al caso e, per esclusione, sia aribuibile al traamento. L'ipotesi nulla viene rifiutata se la differenza fra le medie dei due gruppi è tale da non poter essere aribuita al caso, ovvero se si discosta significativamente dalla distribuzione dell'errore di campionamento. Formalmente, si parla di rifiuto e non rifiuto dell'ipotesi nulla. Non è formalmente correo parlare di acceazione dell'ipotesi nulla. Ceriamo di capire il peré. L'ipotesi nulla assume e il valore della statistica sia da aribuire al caso. Se il valore è esterno alla regione di acceazione non possiamo aribuire il risultato al caso, e dun- que dobbiamo rifiutare l'ipotesi nulla, ed acceare l'ipotesi alternativa (il risultato non è aribuibile al caso). Se il valore della statistica cade all'interno della regione di acceazione, non pos- siamo escludere e il risultato sia aribuibile al caso. esto però non dimostra e la vera misura sia pari a zero. Per quanto ne sappiamo, la vera misura potrebbe essere comunque differente da zero. Poié, però, la differenza misurata potrebbe essere ari- buita al caso, tuo quello e possiamo dire è e non si può escludere e la differenza sia dovuta al caso. L'ipotesi nulla non è falsificata (e dunque non viene rifiutata) ma
  • 27. .. STATISTICA INFERENZIALE  nemmeno verificata (in quanto non sappiamo se la vera differenza sia davvero pari a zero. Il test di ipotesi, dunque, si basa su quell'aeggiamento di tipo falsificazionista in- trodoo quale paragrafo sopra. Il p-value Il p-value è la risposta alla domanda ``assumendo e l'ipotesi nulla sia vera, qual'è la probabilità di osservare un valore altreanto o più estremo di quello oenuto?'' Il p-value è una misura dell'evidenza contraria all'ipotesi nulla: più basso il p-value, maggiore l'evidenza contraria all'ipotesi nulla. Un p-value basso indica una maggiore sicurezza nel rigeare l'ipotesi nulla. Il p-value è la probabilità e l'errore campionario possa assumere un valore superio- re al valore osservato. Deo in altri termini, il p-value ci dice la probabilità di compiere un errore di tipo I rifiutando l'ipotesi nulla. Coerentemente con l'aeggiamento falsificazionista, il p-value può essere usato solo come evidenza contro l'ipotesi nulla, non a favore di un'ipotesi. Un p-value alto non ci permee di trarre alcuna conclusione: Absence of evidence is not the evidence of absence. In ambito applicativo, non è deo e una significatività statistica abbia reali impli- cazioni pratie. In clinica, ad esempio, una differenza statisticamente significativa può non essere clinicamente significativa. Inoltre, il p-value non dice nulla sull'entità della differenza (o dell'effeo) P-value e α La decisione sul rifiuto o meno dell'ipotesi nulla si basa sul confronto fra il p-value e la soglia α: se p < α si rifiuta l'ipotesi nulla, altrimenti no. α è ane il livello di significatività del test. Generalmente, i valori più comunemente utilizzati sono α = . e α = .. L'ipotesi alternativa L'ipotesi alternativa può essere ad una o a due code (mono- o bidirezionale). Nell'ipotesi a due code assume l'esistenza di un effeo o una differenza, ma senza specificare la direzione. Nell'ipotesi ad una coda, viene specificata ane la direzione aesa della differenza. Processo decisionale Possiamo dunque riassumere il processo decisionale del test d'ipotesi. X Si parte, conceualmente, dall'ipotesi nulla; X si definisce l'ipotesi alternativa -- generalmente, l'ipotesi a supporto della teoria; X si definisce e si calcola la statistica test opportuna sulla variabile, misurata sul campione; X si definisce l'errore di tipo I e si ritiene acceabile (ovvero, il valore α); X si calcola la regione di rifiuto dell'ipotesi nulla o, alternativamente, il p-value;
  • 28.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI X la decisione finale si basa valutando se la misura della statistica cade all'interno o all'esterno della regione di acceazione dell'ipotesi; se all'esterno, si rifiuta l'ipotesi nulla, e si accea l'ipotesi alternativa; se all'interno, non si rifiuta l'ipotesi nulla, ma quella alternativa; X lo stesso risultato può essere oenuto confrontando il p-value con α: se p < α si rifiuta l'ipotesi nulla, altrimenti no. .. Scegliere la statistica appropriata Per decidere quale tipo di statistica può essere applicata, è necessario definire: X il numero di variabili in gioco (una, due, più di due) X la tipologia delle variabili (nominale o numerica) X il tipo di ipotesi testata: ceriamo una relazione, una differenza, una previsione Numero di variabili X Statistie uni-variate X Statistie bi-variate X Statistie multi-variate Tipi di variabili e statistica La tipologia di statistica inferenziale da applicare si ba- sa sulla tipologia di variabili. Come abbiamo visto, possiamo distinguere fra variabili categoriali, ordinali, ad intervalli e a rapporti. este quaro tipologie possono essere raggruppate in variabili nominali (catego- riali e, generalmente, ordinali) e variabili numerie (a intervalli, a rapporti). La tipologia di statistica e può essere applicata si basa sulla tipologia delle variabili indipendenti e dipendenti. Statistie bivariate dipendente numerica dipendente categoriale indipendente correlazione, regressione analisi discriminante, regres- numerica sione logistica indipendente t-test, ANOVA i quadro categoriale . Esercizi Genere e retribuzione Domanda: vi è una differenza di retribuzione fra masi e femmine? X qual'è la variabile indipendente? Di e tipo è?
  • 29. .. ESERCIZI  X qual'è la variabile dipendente? Di e tipo è? X e tipo di statistica si applica? Spettatori e pubblicità Domanda: C'è relazione fra il numero di persone e vanno a vedere un film ed i soldi spesi per pubblicizzare la pellicola? X qual'è la variabile indipendente? Di e tipo è? X qual'è la variabile dipendente? Di e tipo è? X e tipo di statistica si applica? Antidepressivi e stato depressivo Domanda: La somministrazione di un antidepres- sivo è efficace nel curare la depressione? X qual'è la variabile indipendente? Di e tipo è? X qual'è la variabile dipendente? Di e tipo è? X e tipo di statistica si applica? Genere e facoltà Domanda: c'è un rapporto fra la scelta di un tipo di facoltà (umani- stica, scientifica) di uno studente ed il suo genere? X qual'è la variabile indipendente? Di e tipo è? X qual'è la variabile dipendente? Di e tipo è? X e tipo di statistica si applica? Nazionalità e caffè Domanda: c'è un rapporto fra la nazionalità delle persone ed il loro consumo di caffè? X qual'è la variabile indipendente? Di e tipo è? X qual'è la variabile dipendente? Di e tipo è? X e tipo di statistica si applica? Stato civile e genitorialità Domanda: c'è un rapporto fra lo stato civile di una persona ed il fao e abbia o non abbia figli? X qual'è la variabile indipendente? Di e tipo è? X qual'è la variabile dipendente? Di e tipo è? X e tipo di statistica si applica?
  • 30.  CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
  • 31. Capitolo  L'approccio simulativo Indice . Gli errori di campionamento . . . . . . . . . . . . . . . . . . . .  .. Distribuzione degli errori . . . . . . . . . . . . . . . . . .  . Introduzione all'approccio simulativo . . . . . . . . . . . . . . .  .. Generare popolazione e campioni . . . . . . . . . . . . . .  .. Campioni di numerosità  . . . . . . . . . . . . . . . . .  . Intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . .  . Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .. Generare molti campioni da un campione . . . . . . . . .  .. Confronto fra le distribuzioni . . . . . . . . . . . . . . . .  .. Usare l'approccio parametrico . . . . . . . . . . . . . . . .  . Gli errori di campionamento L'analisi dei dati deve confrontarsi con la gestione degli errori. Se una buona metodo- logia ed un correo campionamento possono minimizzare l'impao degli errori siste- matici, gli errori casuali non possono essere eliminati. L'analisi inferenziale permee al ricercatore di stimare l'entità di questi errori, e di capire quanto le misure e le relazioni emerse siano da imputare a tali errori. L'analisi si basa sul calcolo di alcune statistie. Nell'analisi univariata si calcola- no gli indici di centralità e di dispersione, nelle statistie bivariate si calcolano delle statistie capaci di misurare le relazioni fra variabili. Sia le statistie uni e bivariate devono tener conto dell'errore di campionamento. Facciamo alcuni esempi. La media del campione costituisce la migliore stima della media della popolazione (la media è una stima unbiased); se dalla stessa popolazione, però, estraggo dieci campioni diversi, oerrò dieci stime differenti. Un tipico disegno sperimentale consiste nel dividere il campione in  gruppi, som- ministrare un traamento ad un gruppo (sperimentale), somministrare un diverso trat- 
  • 32.  CAPITOLO . L'APPROCCIO SIMULATIVO tamento (o un placebo) all'altro gruppo, e misurare l'effeo araverso una variabile nu- merica; per valutare l'effeo del traamento, si misura la differenza fra le medie dei due gruppi. Di nuovo: questa differenza va aribuita al traamento, o al caso (alla variabili- tà campionaria)? Infai, in maniera del tuo paragonabile all'esempio precedente, cosa succederebbe se applicassimo lo stesso traamento (o nessun traamento) ai due grup- pi? Ci aspeiamo e le medie dei due gruppi siano perfeamente uguali? La risposta è naturalmente no: le medie saranno probabilmente simili, ma non uguali. Facciamo un terzo esempio: immaginiamo di voler capire se vi è una relazione fra due variabili numerie. Decidiamo di adoare la statistica della correlazione di Pear- son, una misura e si muove nel range −1 < r < +1 e dove  significa assenza di correlazione. Ane in questo caso, però, nella circostanza di due variabili fra loro indipendenti, non possiamo aspearci una correlazione esaamente pari a . .. Distribuzione degli errori Approccio parametrico Fortunatamente, gli errori dovuti al caso (e alla varianza campionaria) sono soggei a delle distribuzioni note (quantomeno per quanto riguarda le statistie più comuni). La cosiddea statistica parametrica si basa proprio sul fao e, se alcuni assunti sono ri- speati, la distribuzione dell'errore delle statistie usate approssima, previo opportuna trasformazione, delle distribuzioni teorie. Il processo inferenziale utilizza questa pro- prietà; si calcola la statistica, si opera la trasformazione, e si confronta il risultato con la distribuzione teorica. Statistie non parametrie Lo svantaggio dell'approccio parametrico è e fa delle assunzioni sulle variabili; vi so- no delle circostanze in cui queste assunzioni non vengono rispeate. In questi casi, le statistie parametrie possono essere inaffidabili; a questo punto, diventa opportuno affidarsi a delle famiglie di statistie non parametrie, il cui vantaggio è quello di fare un minore numero di assunzioni. Generalmente, l'approccio delle statistie non parametrie consiste nel trasformare la variabile dipendente, numerica, in una variabile ordinale. La trasformazione consiste nel calcolare il rank, ovvero il valore ordinale della misura. Approccio simulativo (resampling) Esiste poi un'altra possibilità: utilizzare il calcolatore per generare la distribuzione del- l'errore, e basare il processo inferenziale non sulla distribuzione teorica, ma sulla distri- buzione generata. esto approccio è relativamente recente, in quanto è computazionalmente oneroso, e dunque può essere applicato soltanto con degli strumenti di calcolo potenti. Oggi, però, possono essere applicati agevolmente ane con i comuni computer, e dunque stanno guadagnando crescente popolarità. L'approccio simulativo ha alcuni vantaggi, il principale dei quali è e fa poissime assunzioni, e dunque può essere applicato ane nel caso, ad esempio, di distribuzioni
  • 33. .. INTRODUZIONE ALL'APPROCCIO SIMULATIVO  e non possono essere ricondoe alle distribuzioni teorie. Un secondo vantaggio è e l'approccio simulativo è e può essere applicato ane a statistie non comuni, per le quali non esiste -- o non è nota -- una distribuzione teorica. L'approccio simulativo ha infine il vantaggio di essere particolarmente intuitivo, in quanto permee di mostrare l'errore di campionamento, la sua distribuzione, e i ri- speivi parametri. esta caraeristica rende l'approccio simulativo particolarmente indicato ai fini didaici, in quanto è possibile simulare la varianza di campionamento, generare la distribuzione campionaria, e confrontarla con la distribuzione teorica. L'ap- proccio computazionale è inoltre un oimo modo per giocare con strumenti come R, prendere confidenza con il linguaggio, e capire cosa succede dietro alle quinte quando si utilizzano le funzioni di testing -- parametrici e non parametrici. . Introduzione all'approccio simulativo Per introdurre l'approccio simulativo, utilizziamo R per fare delle simulazioni e ci permeano di riprodurre, in laboratorio, l'errore di campionamento. Araverso la simulazione possiamo creare delle circostanze difficilmente riprodu- cibili nella realtà: possiamo generare una popolazione, generare un numero molto al- to di campioni, e valutare qualitativamente (graficamente) e quantitativamente l'errore stocastico di campionamento¹. .. Generare popolazione e campioni Generare la popolazione Nel contesto della simulazione, generare una popolazione significa generare un veore di valori casuali. Se si assume e la distribuzione della popolazione sia normale, è possibile utilizzare la funzione rnorm per generare un veore di numeri distribuiti normalmente intorno ad una media e con una deviazione standard predefinita. La lunghezza del veore corrisponde alla numerosità della nostra popolazione vir- tuale. Nel nostro esempio, genereremo una popolazione con media teorica  e deviazione standard teorica  (la scelta di media e deviazione standard è arbitraria). Generare dei campioni A partire dal veore popolazione, è possibile estrarre un vet- tore campione (di numerosità m < n). Per fare questo, R mee a disposizione la fun- zione sample(x,m,replace=FALSE), dove x è la popolazione e m è la numerosità del campione. In realtà, potremmo oenere lo stesso risultato generando un campione di m os- servazioni con rnorm. Però, per un effeo più realistico, usiamo il sampling della popolazione. Per visualizzare la distribuzione dell'errore di campionamento, utilizzeremo una po- polazione di  valori, e genereremo  campioni di numerosità . ¹Un approccio simile è adoato in Molenaar and Kiers () e in Vasishth ()
  • 34.  CAPITOLO . L'APPROCCIO SIMULATIVO Dunque n =  (numerosità della popolazione simulata), k =  (numero di cam- pioni), m =  (osservazioni per campione). Poi, genereremo ane una serie di campioni da  osservazioni. Analisi descrittiva Una volta generati questi dati, possiamo utilizzare alcune tecnie di analisi univariata per fare delle misurazioni. In primo luogo possiamo calcolare la media e la deviazione standard della popola- zione. Ci aspeeremo e la prima sia prossima a  e la seconda a . Poi, possiamo visualizzare un istogramma con la distribuzione della popolazione, e ci aspeiamo sia di tipo normale. Per verificarlo, possiamo usare le funzioni qqnorm e qqline. > n <- 10000 > m50 <- 50 > K <- 200 > media_teorica <- 20 > sd_teorica <- 2 > popolazione <- rnorm(n, media_teorica, sd_teorica) > mean(popolazione) [1] 20.00628 > sd(popolazione) [1] 2.015178 > hist(popolazione) Utilizzando qqnorm, valutiamo la normalità della distribuzione > qqnorm(popolazione) > qqline(popolazione, col = 2) Ora, creiamo una matrice *. Ogni riga rappresenta un campione di  osser- vazioni. Popoliamo le righe con la funzione sample, e campiona  osservazioni dalla popolazione. Media e deviazione standard della distribuzione campionaria Con medie campioni50 <- apply(campioni50, 1, mean), calcoliamo la media di ogni campione e la salviamo nel veore (di lunghezza ) medie campioni. Su questo veore calcoliamo la media e la deviazione standard (e rappresentano la media delle medie e la deviazione standard delle medie, ovvero l'errore standard. > campioni50 <- matrix(nrow = K, ncol = m50) > for (k in 1:K) { + campioni50[k, ] <- sample(popolazione, m50) + } > medie_campioni50 <- apply(campioni50, 1, mean) > mean(medie_campioni50)