7. Capitolo
Introduzione all'analisi dei dati
Indice
. Analisi dei dati: a cosa serve? . . . . . . . . . . . . . . . . . . .
.. Un esempio: twier e la borsa . . . . . . . . . . . . . . . .
. La ricerca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. Aeggiamento critico . . . . . . . . . . . . . . . . . . . .
. Validità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. Tipi di validità . . . . . . . . . . . . . . . . . . . . . . . .
. L'analisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . .
.. Statistica esplorativa . . . . . . . . . . . . . . . . . . . . .
.. Statistica descriiva univariata . . . . . . . . . . . . . . .
.. Statistie esplorative bivariate . . . . . . . . . . . . . . .
. Statistica inferenziale . . . . . . . . . . . . . . . . . . . . . . .
.. Gli errori . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. Campionamento . . . . . . . . . . . . . . . . . . . . . . .
.. Intervalli di confidenza . . . . . . . . . . . . . . . . . . .
.. Testare un'ipotesi . . . . . . . . . . . . . . . . . . . . . . .
.. Scegliere la statistica appropriata . . . . . . . . . . . . . .
. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. Analisi dei dati: a cosa serve?
``I keep saying that the sexy job in the next years will be statisticians.
And I'm not kidding.'' Hal Varian, ief economist at Google
La citazione è traa da un articolo apparso sul New York Times nell'agosto . Con lo
svilupparsi di internet e delle nuove tecnologie, sostiene l'articolo, vivremo in un mondo
dove tuo può essere misurato, dove il numero di informazioni di tipo quantitativo è
destinato a crescere di anno in anno. Il problema, notano, è e affiné questi dati ab-
biano un senso, è necessario trasformarli in informazioni e conoscenza. Per fare questo,
i dati vanno analizzati. La statistica e l'analisi dei dati sono fra gli strumenti necessari
per meere in ao questa trasformazione. Dati, informazioni, conoscenza.
8. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
L'analisi dei dati, dunque, può essere utilizzata per trasformare i dati raccolti da
osservazioni empirie in informazioni e, all'interno di un contesto conoscitivo, ac-
crescono la conoscenza degli individui e delle organizzazioni.
L'articolo del New York Times enfatizza principalmente la conoscenza applicativa,
finalizzata ad oenere risultati pratici. L'analisi dei dati può essere utilizzata ane per
fare delle previsioni.
.. Un esempio: twitter e la borsa
Recentemente, è stato pubblicato un articolo (Bollen et al., ) in cui dei ricercatori
hanno analizzato il flusso di status su twier, hanno analizzato la frequenza di alcuni
termini lessicali legati al tono dell'umore e allo stato emozionale. Ebbene, la ricerca ha
evidenziato e:
X questo tipo di analisi riesce a misurare il tono dell'umore degli utenti twier;
X questa misura ha una capacità significativa di prevedere, di due o tre giorni, l'an-
damento della borsa di New York.
esto lavoro è un esempio interessante non solo dell'importanza dell'analisi dei dati, ma
ane di alcuni aspei metodologici. I ricercatori, infai, si sono posti alcune domande:
X gli utenti twier tendono ad esprimere, nei loro post, ane il loro umore?
X è possibile analizzare l'umore di un tweet verificando la presenza di determinati
termini lessicali?
X è possibile correlare questi termini con dei costrui psicologici?
X è ipotizzabile e esista, oltre allo stato dell'umore individuale, ane uno sta-
to dell'umore colleivo? Ovvero, è possibile e, in un determinato giorno o in
un determinato periodo, una popolazione di individui tenda a provare le stesse
emozioni?
X è possibile e -- ammesso e esista -- questo umore colleivo abbia un'influen-
za su alcuni comportamenti o su alcuni indici economici? Ad esempio, l'umore
colleivo ha una relazione con l'andamento della borsa?
Per rispondere a queste domande, Bollen et al. () hanno adoato un approccio
empirico. In primo luogo, hanno studiato la leeratura. Il loro articolo riporta alcune
ricere e indicano come l'analisi testuale dei blog sia capace di fare delle previsioni sul
successo dei film nelle sale cinematografie, e dall'analisi delle at si possa prevedere
l'andamento della vendita di libri. Inoltre, citano un lavoro e dimostra come il public
sentiment, l'opinione colleiva degli utenti dei social network relativi ad un film sia
capace di prevederne il successo commerciale.
In secondo luogo vengono citati una serie di lavori e di teorie socio-cognitive e
dimostrano come le emozioni hanno un'influenza sui processi decisionali. Citano dei
lavori e mostrano come le emozioni abbiano un ruolo ane nell'ambito economico-
finanziario.
9. .. ANALISI DEI DATI: A COSA SERVE?
Gli autori fanno dunque un'ipotesi: è ragionevole assumere, dicono, e le emozioni e
l'umore del pubblico possano avere un'influenza sui valori del mercato azionario. Citano
una ricerca e ha indagato proprio questo aspeo, arrivando a conclusioni a supporto
di quest'ipotesi.
Il loro lavoro, dunque, si basa su alcune ipotesi verosimili, supportate da una serie di
ricere fae da altri ricercatori, e ne confermano la plausibilità. I ricercatori esprimo-
no degli interessi, potremmo dire delle curiosità. Si pongono delle domande: esiste un
umore colleivo? esto umore colleivo può avere un impao su aspei importanti
della vita delle persone e delle organizzazioni? È possibile misurare questo umore?
La leeratura sull'argomento sembra rispondere positivamente a queste domande.
L'umore colleivo è misurabile, ed è un indicatore interessante. Misurarlo con strumenti
tradizionali (ad esempio con i questionari e i sondaggi nazionali) è però molto costoso,
osservano. Esiste il modo di misurare quel parametro in maniera altreando efficace ma
meno costosa?
Un modo alternativo per misurare il parametro, osservano, è quello di utilizzare
internet e le moderne tecnologie per raccogliere l'enorme mole di dati pubblicati dagli
utenti internet sui social network, identificare degli indicatori capaci di cogliere quella
misura, e araverso opportune analisi trasformare questi indicatori in una misura capace
di stimare il parametro.
Gli autori, dunque, fanno una seconda ipotesi: sebbene un tweet sia lungo al mas-
simo caraeri, l'analisi di milioni di questi tweet può offrire una rappresentazione
accurata dell'umore colleivo. Ane in questo caso, l'ipotesi è supportata da alcuni
lavori sperimentali, e vengono citati.
Bollen et al. () esprimono l'ipotesi centrale del loro lavoro:
In this paper we investigate whether public sentiment, as expressed in large-
scale collections of daily Twier posts, can be used to predict the sto
market.
I ricercatori hanno fao un'indagine empirica (sebbene non sperimentale) per valu-
tare la loro ipotesi. Hanno raccolto quasi milioni di tweet, di circa .. utenti.
Araverso degli strumenti di analisi testuale, hanno calcolato la presenza o meno di
termini generalmente utilizzati, nella lingua inglese, per esprimere il proprio umore.
Ane in questo caso, hanno utilizzato degli indicatori noti in leeratura, sebbene da
loro modificati per meglio adaarsi alla loro ricerca.
Partendo da questo lavoro di data-mining (di estrazione di informazioni) Bollen et al.
() hanno oenuto alcuni indicatori. Uno, relativo al tono dell'umore (positivo vs.
negativo). Altri sei indicatori, correlati ai costrui psicologici di calma, allerta, sicurezza,
vitalità, gentilezza e felicità. Araverso opportune trasformazioni, hanno calcolato, per
ognuna di queste dimensioni, l'andamento giornaliero del sentimento pubblico.
Per verificare e questi indici misurassero davvero i costrui e nominalmente rap-
presentano, hanno identificato due momenti e, si suppone, potevano avere un forte im-
pao emotivo: l'elezione del presidente Obama e il giorno del ringraziamento. Ebbene,
in concomitanza con questi due eventi, i sismografi
Utilizzando le API di twier, hanno raccolto
----------
10. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
. La ricerca
La ricerca scientifica è una aività struurata, finalizzata ad accrescere la conoscenza,
teorica e applicativa, araverso un aeggiamento empirico. All'interno del processo
di ricerca vi sono aività di acquisizione, analisi ed interpretazione dei dati. L'acqui-
sizione è finalizzata a raccogliere i dati, l'analisi è finalizzata a trasformare i dati in
informazioni, l'interpretazione a trasformare l'informazione in conoscenza.
La ricerca usa procedure, metodi e tecnie coerenti con una specifica scelta episte-
mologica e metodologica. Tali procedure, metodi e tecnie sono scelti in base alla loro
validità e affidabilità. Infine, l'aeggiamento scientifico dovrebbe rispeare dei crite-
ri di obieività, ed evitare ogni forma di manipolazione finalizzata a piegare i risultati
alle ipotesi del ricercatore. Uno dei fini dell'utilizzo di procedure, metodi e tecnie
standardizzate è proprio quello di rispeare dei ragionevoli criteri di obieività.
La ricerca scientifica, dunque, dovrebbe essere -- nel limite del possibile -- una
aività controllata, rigorosa, sistematica, valida, verificabile, empirica, e critica.
Attività controllata Una delle finalità del metodo sperimentale è quella di misurare
la relazione fra due variabili, minimizzando gli effei di faori estranei. Il criterio della
controllabilità è più facile da oenere quando l'aività di ricerca avviene in un contesto
il più possibile controllato, quale il laboratorio sperimentale.
Ricerca qualitativa Lo svantaggio della ricerca in laboratorio, soprauo nell'ambito
delle scienze sociali e psicologie, è e la controllabilità implica la semplificazione del
seing. Per questo motivo, ad un approccio streamente sperimentale e quantitativo, è
spesso necessario affiancare delle aività di ricerca di tipo più qualitativo e, sebbene
meno solide dal punto di vista inferenziale, possono permeere alla comunità scientifi-
ca di avere una più completa visione d'insieme, e possono permeere di meglio conte-
stualizzare ane i risultati, più particolari, delle ricere sperimentali più streamente
controllate e quantitative.
In termini epistemologici, questo aeggiamento viene definito pluralismo metodo-
logico, mentre l'idea e un solo tipo di approccio empirico e conoscitivo sia possibile è
definito monismo metodologico.
Rigorosità Il conceo di rigorosità si riferisce ad un aeggiamento epistemologico
finalizzato ad identificare misure, strumenti e metodi e siano rilevanti, appropriati e
giustificati (teoricamente ed empiricamente).
Sistematicità Indica e la procedura adoata segue una iara sequenza logica.
.. Atteggiamento critico
L'idea di aeggiamento critico, di sano sceicismo da parte del ricercatore, è la quin-
tessenza del pensiero epistemologico di Popper. Secondo Popper la ricerca scientifica
11. .. LA RICERCA
dovrebbe vivere di due momenti: a formulazione di ipotesi; b processo di falsificazio-
ne delle ipotesi. In questa prospeiva, è il ricercatore stesso e, araverso il metodo
sperimentale, cerca di falsificare le proprie ipotesi e le proprie teorie.
In realtà, un simile aeggiamento autocritico è difficile da mantenere, ane peré,
per un ricercatore, è molto più gratificante confermare la validità delle proprie ipotesi e
falsificarle. Ciononostante, questo approccio critico è considerato talmente importante
e vi sono due meccanismi metodologici, fortemente consolidati, finalizzati proprio a
rafforzare questo aeggiamento.
Il peer reviewing Uno dei due meccanismi finalizzato a mantenere l'aeggiamen-
to critico è il meccanismo del peer reviewing: prima e un lavoro scientifico venga
acceato (e dunque pubblicato su di una rivista scientifica), deve passare al vaglio di
altri ricercatori. esto esame fra colleghi avviene in forma anonima, ed è finalizzato
proprio a garantire e, prima di venir pubblicato, il lavoro sia analizzato aentamente e
con ocio critico per valutarne sia il rispeo dei principi epistemologici e metodologici,
di validità e la rilevanza scientifica.
Falsificazione e ipotesi nulla In secondo luogo, l'approccio falsificazionista sta
alla base della statistica inferenziale. Come vedremo nei prossimi paragrafi e nel corso
dell'intera dispensa, la statistica inferenziale è finalizzata a valutare quanto le misure
oenute siano aribuibili al caso. Nel confronto fra due (o più) variabili, ad esempio,
si cerca di capire se fra le variabili vi è una relazione. Per fare questo, si identifica una
statistica, ovvero una procedura di calcolo araverso cui si oiene un valore numerico.
Il fine del processo inferenziale è stabilire se quel valore numerico va aribuito al caso
(all'errore di campionamento) o alla relazione fra le variabili.
Per fare questo, si formulano due ipotesi: l'ipotesi nulla (H0 ) assume e il valore
numerico misurato sia aribuibile al caso, e e dunque, dall'analisi faa, non si possa
dedurre e vi sia una relazione. L'ipotesi alternativa (HA ) assume invece e il valore
numerico non sia aribuibile al caso, e dunque si possa inferire e la relazione esiste.
Ebbene, il processo inferenziale si basa sul rifiuto (ovvero, sulla falsificazione) del-
l'ipotesi nulla. Se il valore numerico calcolato è superiore (o inferiore, a seconda dei
casi) ad un valore critico, si rifiuta l'ipotesi nulla, ovvero si falsifica l'ipotesi e non vi
sia relazione fra le variabili. In caso contrario, l'ipotesi nulla non viene rifiutata, ma si
rifiuta l'ipotesi alternativa.
In God we trust, all others bring data. -- William Edwards Deming
Principi
Come abbiamo visto, la ricerca scientifica si basa su di una serie di principi epistemologici
e metodologici.
X empiricismo (guardare ai dati);
X determinismo (assumere la presenza di relazioni causa - effeo);
X parsimonia (le spiegazioni semplici sono meglio di quelle complicate);
12. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
X preferenza per un approccio scientifico - sperimentale;
X un sano sceicismo;
X amore per la precisione;
X indagine basata su teorie e ipotesi;
X rispeo per i paradigmi teorici;
X disponibilità a cambiare opinione (e ad ammeere di avere, talvolta, torto);
X fedeltà alla realtà, ovvero alle osservazioni empirie;
X aversione per la superstizione, e preferenza per le spiegazioni scientifie;
X sete di conoscenza, o più banalmente sana curiosità e voglia di sapere;
X capacità di sospensione del giudizio;
X consapevolezza delle proprie assunzioni, e dei limiti (teorici, metodologici, di mi-
surazione);
X capacità di separare le cose importanti da quelle irrilevanti;
X rispeo - e aitudine positiva - verso i metodi quantitativi;
X conoscenza delle basi della statistica e della teoria della probabilità;
X consapevolezza e la conoscenza è sempre imperfea e in quale modo impre-
cisa.
Metodo scientifico
Sebbene non esista una ricea preconfezionata, possiamo semplificare l'approccio scien-
tifico come qualcosa e assomiglia al processo seguente:
. osserva un aspeo del mondo
. formula un'ipotesi su quell'aspeo
. usa la teoria per fare delle previsioni
. testa le tue previsioni, araverso delle osservazioni o, meglio, degli esperimenti
. modifica la teoria alla luce dei risultati
. ricomincia dal punto .
13. .. LA RICERCA
Analisi della letteratura
A month in the laboratory can oen save an hour in the library.
-- F. H. Westheimer
Per trovare una risposta scientificamente plausibile ad un problema:
X studiare la leeratura: molto probabilmente il problema è già stato affrontato,
sono state sviluppate delle teorie, sono stati pubblicati degli esperimenti. Prima
di immaginare di iniziare una ricerca, è fondamentale analizzare la leeratura.
X se dalla leeratura emergono risposte iare, il processo può fermarsi: abbiamo la
risposta e cercavamo.
Contribuire alla ricerca Se dall'analisi della leeratura non emerge una risposta ia-
ra alle domande e ci siamo posti, può aver senso cercare di dare una risposta empirica,
adoando il metodo scientifico.
X partire da ciò e è emerso dallo studio della leeratura;
X se opportuno, iniziare una fase di osservazione, o una raccolta dati più aperta,
meno quantitativa e più qualitativa, per meglio definire il problema;
X formulare un'ipotesi, plausibilmente all'interno di una teoria;
X formulare una previsione, basata sull'ipotesi;
X procedere ad uno studio empirico, possibilmente quantitativo, possibilmente con
un disegno di tipo sperimentale;
X analizzare i dati, possibilmente con l'utilizzo ane di statistie inferenziali;
X trarre delle conclusioni.
Tipologie di ricere empirie Abbiamo già accennato e l'approccio empirico
può essere più rigoroso, quantitativo, oppure privilegiare un aspeo più qualitativo.
Semplificando, possiamo elencare le seguenti tipologie di ricerca:
X osservazione non sistematica: si traa di osservare un fenomeno, prenderne nota;
è utile in una fase iniziale della ricerca, per iniziare ad avere un'idea del fenomeno
studiato e formulare le prime ipotesi;
X osservazione sistematica: il fenomeno non viene solo osservato, ma ane misu-
rato; le dimensioni rilevanti vengono decise in anticipo;
event sampling: viene registrato un dato ogni volta e ha luogo un evento; time
sampling; viene faa una osservazione ad ogni intervallo di tempo;
l'osservazione, in quanto tale, tende a non modificare né interferire con quello e
osserva;
14. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
X esperimento: finalizzato a verificare o falsificare un'ipotesi; implica la manipola-
zione direa di una o più variabili (indipendenti), la misura di uno o più variabili
dipendenti, e l'analisi dei dati araverso delle statistie inferenziali;
X si definisce quasi-esperimento una situazione empirica in cui le variabili indipen-
denti non possono essere manipolate dallo sperimentatore.
X le simulazioni usano modelli fisici o matematici per riprodurre le condizioni di
una situazione o di un processo.
. Validità
Il metodo scientifico, e più in particolare l'approccio sperimentale, si basa sull'assunzione
e vi sia un legame esplicativo fra ciò e succede nel contesto sperimentale e quello
e si intende spiegare.
L'esperimento, in quanto tale, tende a replicare in un seing controllato alcuni aspei
di ciò e avviene nel mondo esterno, per poter verificare se vi è una relazione causale
fra due o più variabili.
Per fare questo bisogna ricreare la situazione nel seing, testare la relazione causale,
e riportare la relazione all'ambiente originale.
Presupposti di validità I presupposti sono:
X e alcuni aspei di un fenomeno si possano misurare, se non su tua la popola-
zione, almeno su di un campione;
X e, a partire da queste misurazioni, si possano fare delle analisi statistie per far
emergere delle relazioni o delle differenze;
X e questi risultati abbiano una significatività statistica;
X e ciò e si è misurato e e i dati oenuti abbiano un legame con il fenomeno
in questione;
X e i risultati oenuti sul campione, nel contesto sperimentale, possano essere
generalizzati.
Una ricerca è valida se rispea questi assunti.
.. Tipi di validità
In leeratura si trovano diversi tipi di validità. Ne eleniamo i più importanti.
La validità di costrutto Si preoccupa di valutare se una scala (o una variabile) misura
- o correla - con il costruo scientifico teorizzato. La validità di costruo può essere
supportata dalla validità convergente, e ha luogo quando la misura correla statistica-
mente con misure correlate teoricamente, e dalla validità discriminante, e ha luogo
quando vi è una mancata correlazione statistica con misure e la teoria suppone non
siano correlate.
15. .. L'ANALISI DEI DATI
La validità di contenuto Si preoccupa e l'esperimento (o le variabili misurate) co-
prano adeguatamente il soggeo di studio, ed è fortemente legata al design sperimentale.
La validità statistica È legata alla possibilità di trarre delle inferenze dall'analisi sta-
tistica, ovvero se le differenze o le associazioni e misuriamo sono statisticamente
significative.
La validità interna Vi è validità interna se possiamo assumere e vi sia una rela-
zione causale fra le variabili studiate, ovvero se una correlazione osservata può essere
considerata una relazione causale. Può essere assunta solo all'interno di un disegno
sperimentale.
La validità esterna Si preoccupa di verificare se le conclusioni valide nel seing spe-
rimentale possono essere generalizzate, alla popolazione o a contesti diversi.
Validità e statistica
X L'analisi dei dati è uno degli strumenti e ci permee di valutare alcuni degli
aspei della validità di un esperimento.
X L'analisi descriiva ed esplorativa ci permeono di verificare l'esistenza di una
relazione fra variabili.
X L'analisi inferenziale ci permee di verificare la validità statistica propriamente
dea.
X Le tecnie di campionamento sono finalizzate a massimizzare la validità esterna.
X Il design sperimentale ha il fine di preservare la validità interna
Affidabilità
L'affidabilità si riferisce alla qualità del processo di misurazione delle variabili. È legato
agli aspei della ripetibilità della misura e di accuratezza della stessa.
. L'analisi dei dati
Scopi
L'analisi dei dati è finalizzata a molteplici scopi:
X descrivere -- numericamente e graficamente -- una misura relativa ad un campio-
ne;
X fare delle stime -- puntuali e ad intervallo -- relative a dei parametri della popo-
lazione;
16. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
X calcolare delle relazioni fra due o più variabili, misurate sul campione, e fare delle
inferenze in merito alla popolazione di riferimento;
X fare delle previsioni in merito al valore di una osservazione, non nota, a partire
da delle osservazioni note.
Possiamo dunque distinguere fra statistie descriive-esplorative e statistie infe-
renziali.
.. Statistica esplorativa
Finalità Le statistie descriive sono finalizzate a:
X avere una prima visione, qualitativa, delle variabili raccolte;
X controllare la presenza di errori, ad esempio di data-entry;
X far emergere outliers e anomalie;
X valutare qualitativamente ipotesi e assunti, determinare qualitativamente le rela-
zioni fra le variabili;
X identificare l'entità e la direzione delle relazioni fra le variabili;
X selezionare i modelli statistici appropriati;
Le statistie esplorative propriamente dee (Exploratory Data Analysis, EDA) han-
no ane altre funzioni:
X scoprire paern e struure implicite;
X estrarre variabili latenti, o far emergere variabili importanti;
X sviluppare modelli parsimoniosi (riduzione dello spazio delle variabili);
X determinare opportuni parametri per ulteriori analisi (es n' di faori, n' di clusters)
Tipologie di statistica esplorativa La statistica esplorativa può essere univariata o
multivariata. Inoltre, può utilizzare metodi grafici e metodi non grafici.
Spesso, in leeratura, si tende ad usare sia il termine descriiva e esplorativa,
ane se forse ha più senso parlare di statistica esplorativa quando valuta la relazione
fra due o più variabili, e descriiva la statistica non inferenziale univariata.
Mentre l'analisi inferenziale segue la definizione dell'ipotesi di ricerca, l'analisi esplo-
rativa spesso ha luogo prima della definizione del modello teorico e dell'ipotesi di ricerca.
Semplificando, nell'analisi inferenziale, la sequenza teorica è problema → definizione di
un modello (ipotesi) → raccolta dei dati → analisi → eventuali conclusioni
Nell'analisi esplorativa, la sequenza è
problema → raccolta dei dati → analisi esplorativa → definizione di un modello (ipotesi)
→ eventuali conclusioni
17. .. L'ANALISI DEI DATI
.. Statistica descrittiva univariata
Nella statistica descriiva univariata (non grafica), si valutano prevalentemente tre aspet-
ti (Waltenburg and McLaulan, ):
X le tendenze centrali della distribuzione
X la dispersione della distribuzione
X la forma della distribuzione
Gli strumenti e le misure della statistica descriiva univariata dipendono dalla tipologia
della variabile: categoriale-ordinale versus numerica (intervalli, rapporti).
Distribuzione
La distribuzione sintetizza la frequenza dei valori o di intervalli di valori di una varia-
bile. La frequenza può essere assoluta (il numero di osservazioni e cadono in quella
categoria o e rientrano in quel valore o intervallo) o in termini percentuali.
La distribuzione può essere rappresentata in forma tabellare, oppure con un grafico
(tipicamente, un istogramma). Nella forma tabellare, rappresenta una distribuzione di
frequenza. Possiamo distinguere
X frequenze assolute: si contano il numero di volte e un particolare valore è
oenuto nel campione;
X frequenze relative, proporzioni: frequenze assolute divise per il numero di osser-
vazioni;
X frequenze percentuali: proporzioni moltiplicate per .
Le frequenze sono rappresentate in tabelle di contingenza.
Tendenze centrali
La tendenza centrale di una distribuzione è una stima del centro di una distribuzione di
valori.
Vi sono tre principali tipologie di stima della tendenza centrale:
X la moda: il valore (o la categoria) più frequente. Per calcolare la moda, è sufficiente
ordinare i punteggi in base alla frequenza, e selezionare il primo.
X la mediana: il valore e sta a metà quando le osservazioni sono ordinate in base
alla variabile. Se il numero di osservazioni è dispari, si calcola la media fra i due
valori centrali.
X la media aritmetica, si calcola sommando i valori e dividendo la somma per il
numero di osservazioni.
18. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
Indici di dispersione
La dispersione si riferisce alla diffusione dei valori intorno alla tendenza centrale. Le
due misure più importanti sono
X il range, ovvero la distanza fra il valore massimo ed il minimo.
X la deviazione standard misura la variabilità aorno alla media.
X la distanza interquartilica: corrisponde al range fra il primo e il terzo quartile.
Meno soggeo agli outliers.
Non tui questi indici possono essere applicati a tue le variabili, e dunque il primo
passaggio nella statistica descriiva è dunque quello di definire le tipologie di variabili
studiate.
Tipologie di variabili
Possiamo distinguere tipologie di variabili:
X nominali
X ordinali
X ad intervalli
X a rapporti
Nel definire le tipologie di statistie applicabili, la distinzione più importante è fra
variabili categoriali e quantitative (intervalli, rapporti).
Scale nominali Le variabili nominali creano delle categorie, e permeono di classifi-
care le osservazioni all'interno di quelle categorie.
Alle varie categorie non può essere aribuito un ordine, e tantomeno è possibile fare
delle operazioni matematie sulle variabili nominali.
Una variabile dicotomica è un caso speciale di variabile nominale, in cui vi sono
soltanto due categorie.
A partire da una variabile nominale è possibile calcolare la frequenza (ovvero il
numero di osservazioni classificate in ogni gruppo) e la moda (ovvero il gruppo più
numeroso).
Scale ordinali Le variabili ordinali permeono di stabilire un ordine fra gli elementi.
Soo certi aspei, costituiscono una estensione delle variabili nominali. Essendo
possibile stabilire un ordine, permeono di identificare la posizione di un elemento nel
rapporto con gli altri elementi.
Data una variabile ordinale, oltre alla moda, è possibile calcolare i percentili, i quar-
tili, la mediana.
19. .. L'ANALISI DEI DATI
Scale ad intervalli Le variabili ad intervalli non solo possono essere ordinate, ma è
possibile fare delle assunzioni in merito alla distanza fra i valori, in quanto la distanza
fra ogni valore intero è costante.
È possibile misurare non soltanto la moda e la mediana, ma ane la media aritme-
tica fra le tendenze centrali; fra le misure di dispersione, possiamo misurare il range, la
distanza interquartilica e la deviazione standard.
Le scale a rapporto sono variabili ad intervalli; la loro particolarità è dovuta al fao
e il valore e corrisponde allo zero non è arbitrario, ma assoluto. Ciononostante,
generalmente si applicano alle variabili a rapporto le stesse statistie delle variabili ad
intervalli.
Variabili e statistie
Statistica descrittiva univariata categoriale Nel caso di variabile categoriale, la rap-
presentazione non grafica più appropriata è in forma tabellare: si costruisce una tabella,
con tante colonne quanti i livelli della variabile. I valori delle celle rappresentano la fre-
quenza delle osservazioni per ogni livello. La frequenza può essere assoluta (il numero
di osservazioni) o relativa. Per oenere la tabella della frequenza relativa si dividono le
osservazioni di ogni livello per il numero di osservazioni totale.
L'unica misura della tendenza centrale appropriata per le scale nominali è la moda,
ovvero il livello con frequenza più alta.
Graficamente, una variabile categoriale può essere rappresentata araverso un gra-
fico a barre.
Se il numero di livelli è basso, può essere utile ane la rappresentazione del grafico
a torta.
Statistica descrittiva univariata, variabili ordinali Nel caso di variabili ordinali,
oltre alla moda e al numero di livelli, possiamo calcolare:
X l'indice di centralità della mediana;
X indici di dispersione quali il range e i percentili; di particolare interesse i quartili
e la distanza interquartilica.
X ane nel caso di variabili ordinali, se il numero di livelli è relativamente basso,
può essere utile creare la tabella delle frequenze, assolute o relative.
X La rappresentazione grafica più appropriata è il grafico a barre, a pao e l'ordine
degli elementi grafici rispei l'ordine delle categorie.
Statistica descrittiva univariata, variabili numerie
X nelle variabili ad intervalli (o a rapporti), oltre alla moda e alla mediana si calcola
l'indice di centralità della media.
X oltre al range, ai percentili ed ai quartili, si calcola l'indice di dispersione della
varianza (e della deviazione standard).
20. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
X nell'analisi della forma della distribuzione, l'aspeo più importante consiste nel
valutare se la distribuzione osservata approssima una distribuzione teorica, tipi-
camente la distribuzione normale. Nel caso, è possibile calcolare la simmetria e la
kurtosi della curva di distribuzione.
Statistica grafica univariata, variabili numerie
X per rappresentare graficamente la distribuzione, si utilizzano l'istogramma e il
grafico della distribuzione oenuto araverso il metodo del kernel.
X araverso il boxplot è possibile rappresentare la mediana, i quartili ed il range di
una distribuzione numerica. È possibile inoltre valutare la presenza di outliers,
ovvero di osservazioni collocate ai margini della distribuzione osservata.
X usando il grafico qqnorm (o qqplot) e la funzione qqline è possibile confrontare la
distribuzione osservata con la distribuzione teorica normale.
Valutazione della normalità, trasformazioni
Test di normalità Poié le statistie inferenziali parametrie assumono una distri-
buzione delle osservazioni di tipo normale, è generalmente opportuno valutare la distri-
buzione osservata di una variabile non soltanto araverso metodi grafici e descriivi,
ma ane araverso dei test di normalità. In questa dispensa, utilizzeremo due di questi
test:
X Il test di Kolmogorov-Smirnov permee di confrontare due distribuzioni arbitrarie,
e può essere usato per il confronto fra la distribuzione osservata e la distribuzione
normale;
X Il test di normalità Shapiro-Wilk è finalizzato a valutare la normalità della distri-
buzione osservata.
Le due misure possono dare risultati differenti. Risulta pertanto necessario un pro-
cesso di valutazione e tenga conto sia dei risultati dei test e dell'analisi grafica della
distribuzione.
esta regola pratica vale in ogni ambito della ricerca e dell'analisi dei dati: la me-
todologia ci indica delle procedure e è opportuno seguire, per minimizzare il risio
di errori e meano a repentaglio affidabilità e validità della ricerca.
Le procedure, però, non vanno seguite pedissequamente. Conoscere i princˆ e gliipi
assunti dell'analisi dei dati ci permee di fare delle inferenze ragionevolmente robuste
ane nei casi, e sono molti, in cui non è possibile una applicazione meccanica della
procedura.
.. Statistie esplorative bivariate
Le statistie esplorative multivariate hanno la finalità di meere in relazione due o più
variabili.
21. .. STATISTICA INFERENZIALE
Le statistie grafie tendono a limitarsi prevalentemente al confronto di due varia-
bili alla volta, in quanto questi confronti sono più facili da rappresentare e più immediati
da leggere.
Variabili numerie: grafico di dispersione Nel caso di confronto fra due variabili
numerie, la rappresentazione grafica più appropriata è il grafico di dispersione, e
mappa le osservazioni delle due variabili sulle due dimensioni x e y.
La linea di regressione, inoltre, ci permee di visualizzare il modello di regressione
lineare.
Variabili categoriali: mosaic plot Araverso il mosaic plot è possibile rappresentare
graficamente la relazione fra due variabili di tipo categoriale, nominale o ordinale.
Per rappresentare numericamente il rapporto fra due variabili categoriali si usa in-
vece la tabella delle frequenze (assolute o relative). La tabella, di dimensioni r ∗ c, dove
r è il numero di livelli di una variabile, c il numero di livelli dell'altra.
Variabile categoriale vs variabile numerica Nel caso si debbano confrontare grafi-
camente una variabile numerica su di una variabile categoriale, è possibile utilizzare
nuovamente il boxplot, disegnando tanti boxplot quanti sono i gruppi della variabile
categoriale.
Una seconda possibilità è quella di un grafico a barre, dove ogni barra rappresenta
la media di ogni gruppo. Un'alternativa grafica consiste nel sostituire le barre con delle
linee e congiungono i punti e rappresentano le medie.
este rappresentazioni possono essere utilizzate ane quando le variabili catego-
riali (indipendenti) sono due.
. Statistica inferenziale
Finalità
Il fine dell'analisi inferenziale è quello -- banalmente -- di fare delle inferenze su di una
popolazione a partire dalle osservazioni di un campione.
Il fine dell'analisi inferenziale univariata, è quello di stimare il valore di un parametro
della popolazione a partire da una statistica calcolata sul campione.
Il fine dell'analisi inferenziale bivariata è quello di stimare la significatività di una
relazione fra due variabili. Le analisi multivariate sono sostanzialmente un'estensione
dell'analisi bivariata.
Nel confronto fra le variabili, possiamo determinare
X correlazioni fra variabili
X differenze fra gruppi
X determinazione di relazioni
X stima di effei
X predizioni basate su analisi della regressione.
22. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
Analisi inferenziale univariata La finalità è quella di stimare il parametro di una
popolazione a partire dalla statistica corrispondente, calcolata sul campione. General-
mente, il parametro stimato è la media della popolazione, ma si usa ane per stimarne
la varianza o la mediana.
Poié queste statistie sono soggee all'errore di campionamento, nell'analisi in-
ferenziale si calcola ane l'intervallo di confidenza, ovvero la forbice entro cui si stima
e il parametro oggeo di indagine si colloi.
Analisi inferenziale bivariata Lo scopo di questo tipo di analisi è quello di verificare
e vi sia una relazione statisticamente significativa fra le due variabili.
L'approccio comune alle analisi bivariate è quello di identificare una statistica capace
di misurare la relazione, applicare la statistica sulle variabili in oggeo, e confrontare il
valore con la distribuzione dell'errore di quella statistica.
Se il valore numerico della statistica cade all'interno della distribuzione di errore, si
assume e quella relazione non sia statisticamente significativa.
.. Gli errori
Il fine dell'analisi inferenziale è quello di trarre delle conclusioni in merito a dei parametri
di una o più popolazioni. Per fare questo, si potrebbe voler misurare i parametri della
popolazione di interesse, calcolarne le statistie appropriate, e trarne le debite inferenze.
Testare l'intera popolazione è però generalmente impossibile, per due ordini di mo-
tivi.
X Il motivo più ovvio è di tipo pratico: se la popolazione è molto numerosa, testarla
completamente diventa eccessivamente costoso.
X Vi è inoltre un secondo motivo: a volte, la popolazione di riferimento è teorica.
Ad esempio, potremmo voler fare delle inferenze sulla depressione post partum; in
questo caso, la popolazione di riferimento sono tue le donne e hanno partorito
da meno di , mesi. Ma ane se riuscissimo a testare tue le partorienti d'Italia
per un intero anno solare, vorremmo e i risultati ci permeessero di fare delle
inferenze ane sulle donne e partoriranno fra due anni. La popolazione reale
di quest'anno, dunque, è un sooinsieme della popolazione teorica e include le
donne e partoriranno nei prossimi anni.
Appare dunque iaro e, tranne alcune eccezioni, testare l'intera popolazione è
generalmente impossibile. A questo punto, diventa necessario testare soltanto un sot-
toinsieme della popolazione, ovvero un campione (sample, in inglese).
Semplificando, la logica soostante l'analisi dei dati è sostanzialmente la seguente:
X si identifica un problema
X si identifica una popolazione
X si identifica una dimensione pertinente
X si estrae un campione
23. .. STATISTICA INFERENZIALE
X si misura la dimensione sul campione
X a partire dalla statistica sul campione, si traggono inferenze sul parametro di
popolazione
X si traggono delle inferenze sui risultati
Vi è, dunque, un passaggio logico: popolazione - campione, misura sul campione -
generalizzazione alla popolazione. Abbiamo visto e, affiné questi passaggi portino
a risultati acceabili, è necessario preservare dei criteri di validità. Più in particolare, è
necessario minimizzare e gestire alcuni errori e possono influire sull'analisi.
Tipi di errore
L'analisi inferenziale si basa sulla consapevolezza e i processi di campionamento, mi-
surazione ed analisi sono soggei ad errori. Il fine della metodologia è quello di minimiz-
zare e, quando possibile, escludere gli errori. Il fine dell'inferenza è quello di misurare
gli errori, valutare se i risultati oenuti sono da aribuire o meno agli errori, e stimare
il risio e il processo decisionale dell'inferenza sia scorreo.
Conoscere le tipologie di errori e i metodi per minimizzarli ed evitarli è dunque di
centrale importanza nella metodologia e nell'analisi.
Sono numerosi gli errori e possono influire sul processo inferenziale. Ricordiamo-
ne alcuni.
X Errore di campionamento: il campione non produrrà esaamente gli stessi valori
e si osserverebbero misurando l'intera popolazione.
X In un esperimento, errore di assegnamento: le differenze misurate fra i gruppi
sperimentali (e di controllo) potrebbero essere dovute non alla condizione speri-
mentale, ma a differenze pre-esistenti fra i gruppi creati
X Errore di misurazione (affidabilità): la misurazione della variabile può essere non
accurata, e dunque può produrre risultati parzialmente non correi.
Più in generale, si definisce errore la differenza fra una misura di un parametro ed
il valore reale del parametro stesso. esta differenza può essere casuale o sistematica.
Per capire la differenza, è necessario pensare a numerose misure, e dunque al ripetersi
dell'errore. Se l'errore è casuale, la media degli errori (ovvero la media delle differenze)
tende ad essere pari a zero. Viceversa, l'errore è sistematico se la media tende ad un
valore diverso da zero.
Gli errori sistematici sono i più pericolosi, in quanto possono indurre il ricercatore a
conclusioni errate e sono difficili da far emergere e da correggere araverso gli strumenti
statistici. Gli errori sistematici possono essere minimizzati soltanto araverso un design
rigoroso ed una raccolta ed elaborazione dei dati scrupolosa.
Il problema del campionamento è e, se fao in maniera scorrea, può indurre ad
errori sistematici.
24. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
.. Campionamento
Viene definito campionamento il processo di selezione del sooinsieme di unità della
popolazione da studiare, per misurarne le caraeristie di interesse.
La notizia positiva è e, se il campionamento viene effeuato in maniera correa,
le caraeristie misurate sul campione tendono ad assomigliare alle caraeristie (pa-
rametri) della popolazione.
La notizia negativa è e, nonostante la somiglianza, le statistie sul campione sono in
quale modo diverse dai parametri della popolazione. esta differenza va aribuita
alla variabilità campionaria: se noi selezioniamo due campioni distinti da una stessa po-
polazione, oeniamo statistie diverse. este differenze sono definite ane errore di
campionamento.
Campionamento rappresentativo Per evitare errori sistematici dovuti al campione,
è necessario e il campione sia rappresentativo della popolazione.
La tipologia di campionamento e meglio garantisce la rappresentatività della popo-
lazione è il campionamento casuale: le unità del campione vengono scelte casualmente
dalla popolazione. In alcuni casi si utilizza una forma di campionamento stratificata,
nelle circostanze in cui si voglia garantire la rappresentatività di piccoli soogruppi di
popolazione.
Viceversa, metodi di campionamento non casuali (come i campionamenti di conve-
nienza) risiano di introdurre degli errori sistematici nella statistica Akritas ().
Missing Un problema di non facile soluzione emerge quando una parte non trascurabi-
le del campione selezionato non si presta alla misurazione. Se i missing si distribuiscono
in maniera uniforme fra il campione, l'impao di questi dati mancanti risulta abbastanza
circoscrio.
Se, al contrario, i missing sono più frequenti in alcuni strati della popolazione piut-
tosto e in altri, è forte il risio di incorrere in un errore sistematico.
Errori casuali Una parte di errore, però, non può essere evitata. Se questi errori non
sono sistematici, ma distribuiti casualmente, i metodi statistici ci permeono di misu-
rarli, di valutarne l'impao, e di calcolare la probabilità e i risultati da noi oenuti
siano o meno aribuibili al caso.
La funzione della statistica inferenziale è di fare delle stime, relative ai parametri
della popolazione, partendo dalle statistie dei campioni, e tengano conto della va-
riabilità campionaria. L'analisi inferenziale offre una serie di strumenti e permeano
di:
X fare delle stime sui parametri di una popolazione
X determinare se i parametri di due o più popolazioni sono significativamente diversi
X valutare se due o più parametri relativi ad una popolazione sono fra loro legati
X fare delle previsioni
25. .. STATISTICA INFERENZIALE
L'analisi inferenziale fa delle stime, di tipo puntuale e intervallare, su determinati para-
metri della popolazione, testa delle ipotesi, valuta l'accuratezza delle proprie previsioni
e determina il risio e le stime, le ipotesi acceate e le previsioni risultino errate.
.. Intervalli di confidenza
Un correo campionamento minimizza l'incidenza degli errori sistematici, ma non eli-
mina l'errore casuale.
Il valore della statistica sul campione, infai, è una approssimazione del valore del
parametro della popolazione. Più precisamente, la media del campione costituisce una
stima puntuale della media della popolazione. Sappiamo, però, e questa stima sarà --
quasi sicuramente -- leggermente sbagliata. Conoscendo soltanto la stima puntuale, non
sappiamo quanto questa stima sia affidabile, e quale sia il probabile range di errore.
Il calcolo dell'intervallo di confidenza è finalizzato proprio a calcolare il range entro
cui il valore del parametro di popolazione dovrebbe cadere.
Un intervallo di confidenza si basa su una percentuale - prestabilita - di confidenza.
Generalmente, si considera acceabile una percentuale del %.
Per meglio capire la percentuale dell'intervallo di confidenza, partiamo da una osser-
vazione. Se estraiamo campioni diversi dalla stessa popolazione, e misuriamo la stessa
variabile sui due campioni, oerremo valori (più o meno) diversi.
Immaginiamo ora di estrarre campioni dalla popolazione. Usiamo il primo cam-
pione per misurare il parametro della popolazione, e l'intervallo di confidenza. Un in-
tervallo di confidenza del % significa e, se misuriamo la stessa statistica sugli altri
campioni, ci aspeiamo e -- approssimativamente -- di loro cadano entro
l'intervallo di confidenza.
Più streo l'intervallo di confidenza, più alta la precisione.
Un intervallo di confidenza molto largo lascia intendere e le dimensioni del campione
sono inadeguate. L'intervallo di confidenza verrà descrio più deagliatamente nella
sezione .
.. Testare un'ipotesi
Nel test di ipotesi, si identificano un'ipotesi nulla e un'ipotesi alternativa; si fanno delle
misurazioni e si calcola una statistica; se la statistica cade all'interno della regione di
acceazione (basata sulla distribuzione dell'errore campionario), l'ipotesi nulla non viene
rifiutata. In caso contrario, l'ipotesi nulla viene rifiutata, e si accea l'ipotesi alternativa.
Il test di ipotesi si pone la questione: ``i risultati e abbiamo oenuto possono essere
aribuiti al caso?'' Il primo passo, è quello di tradurre il problema scientifico e ci siamo
posti nei termini delle due ipotesi: l'ipotesi nulla e l'ipotesi alternativa.
X L'ipotesi nulla, H0 , assume e il risultato non sia significativo, ovvero e sia da
aribuire al caso.
X L'ipotesi alternativa H1 o HA , sostiene e il risultato della statistica non pos-
sa essere aribuito al caso, ma e sia da aribuire ad una relazione inerente la
popolazione, sia questa una differenza o una relazione.
26. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
Il secondo passo, è identificare una statistica e sia capace di misurare la differenza
(o la relazione) all'interno del campione, ed applicarla ai dati raccolti.
Il terzo passo è confrontare il valore della statistica con la corrispondente distribu-
zione di errore. Informalmente, possiamo dire e più il valore della statistica si colloca
ai margini della distribuzione di errore, meno è probabile e la differenza (o la relazio-
ne) misurata siano aribuibili al caso. esta probabilità può essere stimata in base alla
distribuzione dell'errore, e costituisce il p-value, valore su cui si basa la decisione fina-
le: se il p-value risulta inferiore ad un livello di soglia acceabile, definito α, si rifiuta
l'ipotesi nulla, e si accea l'ipotesi alternativa. In caso contrario, non si rifiuta l'ipotesi
nulla.
L'ipotesi nulla
Poié i concei di ipotesi nulla, ipotesi alternativa e p-value sono molto importanti nella
statistica inferenziale ma sono spesso difficili da comprendere, ci soffermiamo ancora su
questi concei.
L'ipotesi nulla e l'ipotesi alternativa sono alla base del test di ipotesi, e costituisce
il fine della statistica inferenziale, e si propone di capire (e di decidere) se i risultati
oenuti siano da aribuire, o meno, al caso.
L'esempio più tipico è il disegno sperimentale dove i partecipanti sono assegnati
casualmente a due gruppi, il gruppo sperimentale e quello di controllo. Al gruppo spe-
rimentale viene somministrato un traamento, al gruppo di controllo no (oppure, viene
somministrato il placebo). Viene definita una misura, capace di valutare l'outcome, il ri-
sultato del traamento. Si calcola l'appropriata statistica (ad esempio la media) dei due
gruppi sperimentali, e si calcola la differenza fra le due medie.
Se la metodologia sperimentale è stata seguita correamente, la differenza fra le due
medie può essere aribuita soltanto a due possibili cause: il traamento, o il caso.
L'ipotesi nulla assume e la statistica misurata (in questo caso, la differenza) sia ari-
buibile al caso, ovvero e la vera differenza fra la media dei due gruppi sia pari a zero.
L'ipotesi alternativa assume e la differenza non possa essere aribuita al caso e, per
esclusione, sia aribuibile al traamento.
L'ipotesi nulla viene rifiutata se la differenza fra le medie dei due gruppi è tale da non
poter essere aribuita al caso, ovvero se si discosta significativamente dalla distribuzione
dell'errore di campionamento.
Formalmente, si parla di rifiuto e non rifiuto dell'ipotesi nulla. Non è formalmente
correo parlare di acceazione dell'ipotesi nulla. Ceriamo di capire il peré.
L'ipotesi nulla assume e il valore della statistica sia da aribuire al caso. Se il valore
è esterno alla regione di acceazione non possiamo aribuire il risultato al caso, e dun-
que dobbiamo rifiutare l'ipotesi nulla, ed acceare l'ipotesi alternativa (il risultato non è
aribuibile al caso).
Se il valore della statistica cade all'interno della regione di acceazione, non pos-
siamo escludere e il risultato sia aribuibile al caso. esto però non dimostra e
la vera misura sia pari a zero. Per quanto ne sappiamo, la vera misura potrebbe essere
comunque differente da zero. Poié, però, la differenza misurata potrebbe essere ari-
buita al caso, tuo quello e possiamo dire è e non si può escludere e la differenza
sia dovuta al caso. L'ipotesi nulla non è falsificata (e dunque non viene rifiutata) ma
27. .. STATISTICA INFERENZIALE
nemmeno verificata (in quanto non sappiamo se la vera differenza sia davvero pari a
zero.
Il test di ipotesi, dunque, si basa su quell'aeggiamento di tipo falsificazionista in-
trodoo quale paragrafo sopra.
Il p-value
Il p-value è la risposta alla domanda ``assumendo e l'ipotesi nulla sia vera, qual'è la
probabilità di osservare un valore altreanto o più estremo di quello oenuto?''
Il p-value è una misura dell'evidenza contraria all'ipotesi nulla: più basso il p-value,
maggiore l'evidenza contraria all'ipotesi nulla. Un p-value basso indica una maggiore
sicurezza nel rigeare l'ipotesi nulla.
Il p-value è la probabilità e l'errore campionario possa assumere un valore superio-
re al valore osservato. Deo in altri termini, il p-value ci dice la probabilità di compiere
un errore di tipo I rifiutando l'ipotesi nulla.
Coerentemente con l'aeggiamento falsificazionista, il p-value può essere usato solo
come evidenza contro l'ipotesi nulla, non a favore di un'ipotesi. Un p-value alto non ci
permee di trarre alcuna conclusione: Absence of evidence is not the evidence of absence.
In ambito applicativo, non è deo e una significatività statistica abbia reali impli-
cazioni pratie. In clinica, ad esempio, una differenza statisticamente significativa può
non essere clinicamente significativa. Inoltre, il p-value non dice nulla sull'entità della
differenza (o dell'effeo)
P-value e α La decisione sul rifiuto o meno dell'ipotesi nulla si basa sul confronto fra
il p-value e la soglia α: se p < α si rifiuta l'ipotesi nulla, altrimenti no.
α è ane il livello di significatività del test. Generalmente, i valori più comunemente
utilizzati sono α = . e α = ..
L'ipotesi alternativa L'ipotesi alternativa può essere ad una o a due code (mono- o
bidirezionale). Nell'ipotesi a due code assume l'esistenza di un effeo o una differenza,
ma senza specificare la direzione.
Nell'ipotesi ad una coda, viene specificata ane la direzione aesa della differenza.
Processo decisionale
Possiamo dunque riassumere il processo decisionale del test d'ipotesi.
X Si parte, conceualmente, dall'ipotesi nulla;
X si definisce l'ipotesi alternativa -- generalmente, l'ipotesi a supporto della teoria;
X si definisce e si calcola la statistica test opportuna sulla variabile, misurata sul
campione;
X si definisce l'errore di tipo I e si ritiene acceabile (ovvero, il valore α);
X si calcola la regione di rifiuto dell'ipotesi nulla o, alternativamente, il p-value;
28. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
X la decisione finale si basa valutando se la misura della statistica cade all'interno o
all'esterno della regione di acceazione dell'ipotesi; se all'esterno, si rifiuta l'ipotesi
nulla, e si accea l'ipotesi alternativa; se all'interno, non si rifiuta l'ipotesi nulla,
ma quella alternativa;
X lo stesso risultato può essere oenuto confrontando il p-value con α: se p < α si
rifiuta l'ipotesi nulla, altrimenti no.
.. Scegliere la statistica appropriata
Per decidere quale tipo di statistica può essere applicata, è necessario definire:
X il numero di variabili in gioco (una, due, più di due)
X la tipologia delle variabili (nominale o numerica)
X il tipo di ipotesi testata: ceriamo una relazione, una differenza, una previsione
Numero di variabili
X Statistie uni-variate
X Statistie bi-variate
X Statistie multi-variate
Tipi di variabili e statistica La tipologia di statistica inferenziale da applicare si ba-
sa sulla tipologia di variabili. Come abbiamo visto, possiamo distinguere fra variabili
categoriali, ordinali, ad intervalli e a rapporti.
este quaro tipologie possono essere raggruppate in variabili nominali (catego-
riali e, generalmente, ordinali) e variabili numerie (a intervalli, a rapporti).
La tipologia di statistica e può essere applicata si basa sulla tipologia delle variabili
indipendenti e dipendenti.
Statistie bivariate
dipendente numerica dipendente categoriale
indipendente correlazione, regressione analisi discriminante, regres-
numerica sione logistica
indipendente t-test, ANOVA i quadro
categoriale
. Esercizi
Genere e retribuzione Domanda: vi è una differenza di retribuzione fra masi e
femmine?
X qual'è la variabile indipendente? Di e tipo è?
29. .. ESERCIZI
X qual'è la variabile dipendente? Di e tipo è?
X e tipo di statistica si applica?
Spettatori e pubblicità Domanda: C'è relazione fra il numero di persone e vanno a
vedere un film ed i soldi spesi per pubblicizzare la pellicola?
X qual'è la variabile indipendente? Di e tipo è?
X qual'è la variabile dipendente? Di e tipo è?
X e tipo di statistica si applica?
Antidepressivi e stato depressivo Domanda: La somministrazione di un antidepres-
sivo è efficace nel curare la depressione?
X qual'è la variabile indipendente? Di e tipo è?
X qual'è la variabile dipendente? Di e tipo è?
X e tipo di statistica si applica?
Genere e facoltà Domanda: c'è un rapporto fra la scelta di un tipo di facoltà (umani-
stica, scientifica) di uno studente ed il suo genere?
X qual'è la variabile indipendente? Di e tipo è?
X qual'è la variabile dipendente? Di e tipo è?
X e tipo di statistica si applica?
Nazionalità e caffè Domanda: c'è un rapporto fra la nazionalità delle persone ed il
loro consumo di caffè?
X qual'è la variabile indipendente? Di e tipo è?
X qual'è la variabile dipendente? Di e tipo è?
X e tipo di statistica si applica?
Stato civile e genitorialità Domanda: c'è un rapporto fra lo stato civile di una persona
ed il fao e abbia o non abbia figli?
X qual'è la variabile indipendente? Di e tipo è?
X qual'è la variabile dipendente? Di e tipo è?
X e tipo di statistica si applica?
30. CAPITOLO . INTRODUZIONE ALL'ANALISI DEI DATI
31. Capitolo
L'approccio simulativo
Indice
. Gli errori di campionamento . . . . . . . . . . . . . . . . . . . .
.. Distribuzione degli errori . . . . . . . . . . . . . . . . . .
. Introduzione all'approccio simulativo . . . . . . . . . . . . . . .
.. Generare popolazione e campioni . . . . . . . . . . . . . .
.. Campioni di numerosità . . . . . . . . . . . . . . . . .
. Intervallo di confidenza . . . . . . . . . . . . . . . . . . . . . .
. Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. Generare molti campioni da un campione . . . . . . . . .
.. Confronto fra le distribuzioni . . . . . . . . . . . . . . . .
.. Usare l'approccio parametrico . . . . . . . . . . . . . . . .
. Gli errori di campionamento
L'analisi dei dati deve confrontarsi con la gestione degli errori. Se una buona metodo-
logia ed un correo campionamento possono minimizzare l'impao degli errori siste-
matici, gli errori casuali non possono essere eliminati. L'analisi inferenziale permee al
ricercatore di stimare l'entità di questi errori, e di capire quanto le misure e le relazioni
emerse siano da imputare a tali errori.
L'analisi si basa sul calcolo di alcune statistie. Nell'analisi univariata si calcola-
no gli indici di centralità e di dispersione, nelle statistie bivariate si calcolano delle
statistie capaci di misurare le relazioni fra variabili.
Sia le statistie uni e bivariate devono tener conto dell'errore di campionamento.
Facciamo alcuni esempi.
La media del campione costituisce la migliore stima della media della popolazione (la
media è una stima unbiased); se dalla stessa popolazione, però, estraggo dieci campioni
diversi, oerrò dieci stime differenti.
Un tipico disegno sperimentale consiste nel dividere il campione in gruppi, som-
ministrare un traamento ad un gruppo (sperimentale), somministrare un diverso trat-
32. CAPITOLO . L'APPROCCIO SIMULATIVO
tamento (o un placebo) all'altro gruppo, e misurare l'effeo araverso una variabile nu-
merica; per valutare l'effeo del traamento, si misura la differenza fra le medie dei due
gruppi. Di nuovo: questa differenza va aribuita al traamento, o al caso (alla variabili-
tà campionaria)? Infai, in maniera del tuo paragonabile all'esempio precedente, cosa
succederebbe se applicassimo lo stesso traamento (o nessun traamento) ai due grup-
pi? Ci aspeiamo e le medie dei due gruppi siano perfeamente uguali? La risposta è
naturalmente no: le medie saranno probabilmente simili, ma non uguali.
Facciamo un terzo esempio: immaginiamo di voler capire se vi è una relazione fra
due variabili numerie. Decidiamo di adoare la statistica della correlazione di Pear-
son, una misura e si muove nel range −1 < r < +1 e dove significa assenza
di correlazione. Ane in questo caso, però, nella circostanza di due variabili fra loro
indipendenti, non possiamo aspearci una correlazione esaamente pari a .
.. Distribuzione degli errori
Approccio parametrico
Fortunatamente, gli errori dovuti al caso (e alla varianza campionaria) sono soggei a
delle distribuzioni note (quantomeno per quanto riguarda le statistie più comuni). La
cosiddea statistica parametrica si basa proprio sul fao e, se alcuni assunti sono ri-
speati, la distribuzione dell'errore delle statistie usate approssima, previo opportuna
trasformazione, delle distribuzioni teorie. Il processo inferenziale utilizza questa pro-
prietà; si calcola la statistica, si opera la trasformazione, e si confronta il risultato con la
distribuzione teorica.
Statistie non parametrie
Lo svantaggio dell'approccio parametrico è e fa delle assunzioni sulle variabili; vi so-
no delle circostanze in cui queste assunzioni non vengono rispeate. In questi casi, le
statistie parametrie possono essere inaffidabili; a questo punto, diventa opportuno
affidarsi a delle famiglie di statistie non parametrie, il cui vantaggio è quello di fare
un minore numero di assunzioni.
Generalmente, l'approccio delle statistie non parametrie consiste nel trasformare
la variabile dipendente, numerica, in una variabile ordinale. La trasformazione consiste
nel calcolare il rank, ovvero il valore ordinale della misura.
Approccio simulativo (resampling)
Esiste poi un'altra possibilità: utilizzare il calcolatore per generare la distribuzione del-
l'errore, e basare il processo inferenziale non sulla distribuzione teorica, ma sulla distri-
buzione generata.
esto approccio è relativamente recente, in quanto è computazionalmente oneroso,
e dunque può essere applicato soltanto con degli strumenti di calcolo potenti. Oggi, però,
possono essere applicati agevolmente ane con i comuni computer, e dunque stanno
guadagnando crescente popolarità.
L'approccio simulativo ha alcuni vantaggi, il principale dei quali è e fa poissime
assunzioni, e dunque può essere applicato ane nel caso, ad esempio, di distribuzioni
33. .. INTRODUZIONE ALL'APPROCCIO SIMULATIVO
e non possono essere ricondoe alle distribuzioni teorie.
Un secondo vantaggio è e l'approccio simulativo è e può essere applicato ane a
statistie non comuni, per le quali non esiste -- o non è nota -- una distribuzione teorica.
L'approccio simulativo ha infine il vantaggio di essere particolarmente intuitivo, in
quanto permee di mostrare l'errore di campionamento, la sua distribuzione, e i ri-
speivi parametri. esta caraeristica rende l'approccio simulativo particolarmente
indicato ai fini didaici, in quanto è possibile simulare la varianza di campionamento,
generare la distribuzione campionaria, e confrontarla con la distribuzione teorica. L'ap-
proccio computazionale è inoltre un oimo modo per giocare con strumenti come R,
prendere confidenza con il linguaggio, e capire cosa succede dietro alle quinte quando
si utilizzano le funzioni di testing -- parametrici e non parametrici.
. Introduzione all'approccio simulativo
Per introdurre l'approccio simulativo, utilizziamo R per fare delle simulazioni e ci
permeano di riprodurre, in laboratorio, l'errore di campionamento.
Araverso la simulazione possiamo creare delle circostanze difficilmente riprodu-
cibili nella realtà: possiamo generare una popolazione, generare un numero molto al-
to di campioni, e valutare qualitativamente (graficamente) e quantitativamente l'errore
stocastico di campionamento¹.
.. Generare popolazione e campioni
Generare la popolazione Nel contesto della simulazione, generare una popolazione
significa generare un veore di valori casuali. Se si assume e la distribuzione della
popolazione sia normale, è possibile utilizzare la funzione rnorm per generare un veore
di numeri distribuiti normalmente intorno ad una media e con una deviazione standard
predefinita.
La lunghezza del veore corrisponde alla numerosità della nostra popolazione vir-
tuale.
Nel nostro esempio, genereremo una popolazione con media teorica e deviazione
standard teorica (la scelta di media e deviazione standard è arbitraria).
Generare dei campioni A partire dal veore popolazione, è possibile estrarre un vet-
tore campione (di numerosità m < n). Per fare questo, R mee a disposizione la fun-
zione sample(x,m,replace=FALSE), dove x è la popolazione e m è la numerosità del
campione.
In realtà, potremmo oenere lo stesso risultato generando un campione di m os-
servazioni con rnorm. Però, per un effeo più realistico, usiamo il sampling della
popolazione.
Per visualizzare la distribuzione dell'errore di campionamento, utilizzeremo una po-
polazione di valori, e genereremo campioni di numerosità .
¹Un approccio simile è adoato in Molenaar and Kiers () e in Vasishth ()
34. CAPITOLO . L'APPROCCIO SIMULATIVO
Dunque n = (numerosità della popolazione simulata), k = (numero di cam-
pioni), m = (osservazioni per campione). Poi, genereremo ane una serie di campioni
da osservazioni.
Analisi descrittiva Una volta generati questi dati, possiamo utilizzare alcune tecnie
di analisi univariata per fare delle misurazioni.
In primo luogo possiamo calcolare la media e la deviazione standard della popola-
zione. Ci aspeeremo e la prima sia prossima a e la seconda a . Poi, possiamo
visualizzare un istogramma con la distribuzione della popolazione, e ci aspeiamo sia
di tipo normale. Per verificarlo, possiamo usare le funzioni qqnorm e qqline.
> n <- 10000
> m50 <- 50
> K <- 200
> media_teorica <- 20
> sd_teorica <- 2
> popolazione <- rnorm(n, media_teorica, sd_teorica)
> mean(popolazione)
[1] 20.00628
> sd(popolazione)
[1] 2.015178
> hist(popolazione)
Utilizzando qqnorm, valutiamo la normalità della distribuzione
> qqnorm(popolazione)
> qqline(popolazione, col = 2)
Ora, creiamo una matrice *. Ogni riga rappresenta un campione di osser-
vazioni. Popoliamo le righe con la funzione sample, e campiona osservazioni dalla
popolazione.
Media e deviazione standard della distribuzione campionaria
Con medie campioni50 <- apply(campioni50, 1, mean), calcoliamo la media
di ogni campione e la salviamo nel veore (di lunghezza ) medie campioni. Su
questo veore calcoliamo la media e la deviazione standard (e rappresentano la media
delle medie e la deviazione standard delle medie, ovvero l'errore standard.
> campioni50 <- matrix(nrow = K, ncol = m50)
> for (k in 1:K) {
+ campioni50[k, ] <- sample(popolazione, m50)
+ }
> medie_campioni50 <- apply(campioni50, 1, mean)
> mean(medie_campioni50)