SlideShare una empresa de Scribd logo
1 de 26
Metodi per l’integrazione tra la base dati Health
Search e l’indagine Istat sulle condizioni di salute
Marco Di Zio
Di Consiglio L., Falorsi S., Solari F.
Vantaggi B. (Università di Roma ‘La Sapienza’)
24 giugno 2014
Indice
1. Contesto informativo: peculiarità e opportunità per integrazione
2. Contesto metodologico: statistical matching
3. Statistical matching con variabili misclassificate
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
 Nelle 2 fonti non vengono osservate le stesse unità statistiche
 La fonte HS è un campione non aleatorio
 Unità rispondenti diverse:
• IS gli individui della famiglia (soggetto dell’inferenza),
• HS i medici di base.
Possono esserci degli effetti sulla risposta dovuti a questa differenza.
Per esempio nel caso degli individui si può avere un effetto
‘percezione’ della malattia che non è invece presente nel medico
che basa la sua classificazione su dati oggettivi
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Contesto informativo - Elementi per integrazione
 Valutazione e trattamento della misclassificazione derivante da
‘percezione’ della malattia
 Analisi di variabili osservate rispettivamente in due fonti informative
differenti
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Potenzialità metodi di integrazione fra IS-HS
 La non osservazione di unità in comune e la presenza di variabili in
comune Statistical Matching
 Si sfruttano le informazioni delle variabili in comune per fare inferenza
sulle variabili osservate separatamente nelle due fonti di dati
- e.g., previsione del dato micro
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Integrazione: statistical matching
z~
 Nelle procedure classiche di matching (per es. imputazione con media
della Y per profilo di unità dato dalle X) si sta assumendo
l’indipendenza di Y (osservata in IS) e Z (in HS) dato X
 Assumiamo che la conoscenza di X sia fortemente esplicativa del
comportamento congiunto di Y e Z
 Problema: ipotesi non testabile con i dati a disposizione
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Statistical matching sotto indipendenza condizionale
 Esempio: supponiamo che Y sia livello di educazione osservata solo in
IS, Z = spesa per farmaci, X=classe di età, sesso, ripartizione
geografica.
 Prediciamo in IS la spesa per farmaci tramite la media della spesa
osservata in una determinata X stimata su HS
 Quando andiamo ad analizzare congiuntamente Y e Z è evidente che
stiamo assumendo che ogni individuo in X (stesso sesso, età,…) abbia
la stessa spesa per ogni livello di educazione.
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Statistical matching sotto indipendenza condizionale
 Analisi dell'incertezza, i.e., analisi dello spazio di identificabilità del
modello
 Nel caso di variabili categoriali consiste nel calcolare gli estremi
superiori ed inferiori delle frequenze di ogni singola (Y,Z) cella
compatibili con le frequenze osservate in IS di (Y,X) e (Z,X) in HS
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Un metodo per fare inferenza oltre indipendenza
condizionata (IC)
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
? ? 0.8
? ? 0.2
0.9 0.1 1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.8 ? 0.8
? ? 0.2
0.9 0.1 1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.8 0 0.8
0.1 0.1 0.2
0.9 0.1 1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
? ? 0.8
? ? 0.2
0.9 0.1 1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.7 ? 0.8
? ? 0.2
0.9 0.1 1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.7 0.1 0.8
0.2 0 0.2
0.9 0.1 1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
[0.7, 0.8] [0, 0.1] 0.8
[0.1, 0.2] [0, 0.1] 0.2
0.9 0.1 1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica sotto indipendenza
0.72 0.08 0.8
0.18 0.02 0.2
0.9 0.1 1
 Calcolo diretto (anche in presenza di X) dell’intervallo di incertezza
[pmin , pmax] tramite disuguaglianza di Fréchet
max{0, p(y) + p(z) – 1} ≤ p(y,z) ≤ min {p(y), p(z)}
 Sfruttando l’informazione X
𝑥 p(x)max{0, p(y|x) + p(z|x) – 1} ≤ p(y,z) ≤ 𝑥 p(x)min{p(y|x), p(z|x)}
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Un metodo per fare inferenza oltre Indipendenza
condizionata (IC)
 L’ampiezza media dell’incertezza da un indicazione sulla incertezza
insita nel processo di matching
 La distribuzione ottenuta con IC è sempre interna agli intervalli, quindi
valutazione indiretta dell’applicazione di matching basata su IC
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Analisi dell’incertezza del matching
 HS campione non aleatorio
 Possibile misclassificazione dovuta alla percezione dell’individuo
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Peculiarità dell’integrazione tra IS e HS
 È stato adottato un approccio basato sul calcolo di “pseudo design-
based weight”.
 Il calcolo di questo peso si basa sulla interpretazione euristica che
ogni unità rappresenti le altre unità non campionate.
 I pesi sono ottenuti tramite post-stratificazione rispetto ai totali noti
della numerosità della popolazione per classe di età, sesso,
ripartizione geografica.
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Campione non probabilistico
 La post-stratificazione elimina il bias dovuto a problemi di selezione
se, all’interno di ciascuna cella di aggiustamento, la probabilità che
ogni unità risponda è indipendente dal valore assunto dall’unità per ciò
che concerne le variabili oggetto di interesse.
 Un altro modo di spiegare questa ipotesi è che i rispondenti ed i non-
rispondenti in una data cella hanno la stessa distribuzione riguardo la
variabile di interesse
 In letteratura nota come ipotesi MAR
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Assunzioni
Sviluppo di metodi sotto IC e analisi incertezza che tengano conto della
misclassificazione di alcune X
Si ipotizza un modello classico per trattare variabili misclassificate
Due contesti
1. Integrazione sotto IC avendo osservato (Y,X), (Z,X*)
2. Analisi dell’incertezza relativamente ai modelli compatibili con le
distribuzioni osservate (Y,X), (Z,X*)
Ipotesi: si prende come variabile X* di riferimento quella osservata in HS
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Matching con variabili misclassificate
Sia X la prevalenza osservata con misclassificazione e X* quella
osservata correttamente, le ipotesi sono
1. P(X=0|X*=0)=1
2. P(X=1|X*=1,W=w) = λw
 Nel caso di variabili dicotomiche si ottiene che la probabilità di
misclassificazione
λw =P(X=1|W=w)/P(X*=1|W=w)
 La stima è stata ottenuta sostituendo le frequenze pesate
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Contesto 1 – Modello di misclassificazione
 Tramite P(X*=i|X=i,W=w), i=0,1 è stato previsto in IS la prevalenza
condizionatamente al dato osservato X=i e w.
 Con questa variabile corretta è stato poi condotto il matching sotto IC
 Metodo : hot-deck per celle di imputazione.
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Contesto 1 – Statistical Matching sotto IC
Si risolve il sistema tramite l’algoritmo sviluppato in [1]
che fornisce gli estremi di ogni singola cella
pmin<= p(Y=y,Z=z)<=pmax per ogni y,z
[1] Capotorti Vantaggi, Locally strong coherence in inferential processes (2002) Annals of Mathematics and
Artificial Intelligence, vol. 35 pp. 125-149
Contesto 2 - Analisi incertezza con misclassificazione
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Ulteriori sviluppi
 Approfondimento su metodi alternativi per utilizzo di un campione non
aleatorio (propensity score matching, inferenza da modello)
 Approfondimento su come combinare stime ottenute da un campione
probabilistico e non-probabilistico
 Analisi incertezza senza assumere alcun modello di misclassificazione

Más contenido relacionado

Más de Istituto nazionale di statistica

Más de Istituto nazionale di statistica (20)

Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
14a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica1414a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica14
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 

Último

Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................giorgiadeascaniis59
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....giorgiadeascaniis59
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxlorenzodemidio01
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................giorgiadeascaniis59
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxlorenzodemidio01
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxtecongo2007
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxtecongo2007
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxlorenzodemidio01
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.camillaorlando17
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxtecongo2007
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileNicola Rabbi
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxtecongo2007
 

Último (18)

Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 

M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

  • 1. Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari F. Vantaggi B. (Università di Roma ‘La Sapienza’) 24 giugno 2014
  • 2. Indice 1. Contesto informativo: peculiarità e opportunità per integrazione 2. Contesto metodologico: statistical matching 3. Statistical matching con variabili misclassificate Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
  • 3.  Nelle 2 fonti non vengono osservate le stesse unità statistiche  La fonte HS è un campione non aleatorio  Unità rispondenti diverse: • IS gli individui della famiglia (soggetto dell’inferenza), • HS i medici di base. Possono esserci degli effetti sulla risposta dovuti a questa differenza. Per esempio nel caso degli individui si può avere un effetto ‘percezione’ della malattia che non è invece presente nel medico che basa la sua classificazione su dati oggettivi Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto informativo - Elementi per integrazione
  • 4.  Valutazione e trattamento della misclassificazione derivante da ‘percezione’ della malattia  Analisi di variabili osservate rispettivamente in due fonti informative differenti Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Potenzialità metodi di integrazione fra IS-HS
  • 5.  La non osservazione di unità in comune e la presenza di variabili in comune Statistical Matching  Si sfruttano le informazioni delle variabili in comune per fare inferenza sulle variabili osservate separatamente nelle due fonti di dati - e.g., previsione del dato micro Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Integrazione: statistical matching z~
  • 6.  Nelle procedure classiche di matching (per es. imputazione con media della Y per profilo di unità dato dalle X) si sta assumendo l’indipendenza di Y (osservata in IS) e Z (in HS) dato X  Assumiamo che la conoscenza di X sia fortemente esplicativa del comportamento congiunto di Y e Z  Problema: ipotesi non testabile con i dati a disposizione Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Statistical matching sotto indipendenza condizionale
  • 7.  Esempio: supponiamo che Y sia livello di educazione osservata solo in IS, Z = spesa per farmaci, X=classe di età, sesso, ripartizione geografica.  Prediciamo in IS la spesa per farmaci tramite la media della spesa osservata in una determinata X stimata su HS  Quando andiamo ad analizzare congiuntamente Y e Z è evidente che stiamo assumendo che ogni individuo in X (stesso sesso, età,…) abbia la stessa spesa per ogni livello di educazione. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Statistical matching sotto indipendenza condizionale
  • 8.  Analisi dell'incertezza, i.e., analisi dello spazio di identificabilità del modello  Nel caso di variabili categoriali consiste nel calcolare gli estremi superiori ed inferiori delle frequenze di ogni singola (Y,Z) cella compatibili con le frequenze osservate in IS di (Y,X) e (Z,X) in HS Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Un metodo per fare inferenza oltre indipendenza condizionata (IC)
  • 9. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica ? ? 0.8 ? ? 0.2 0.9 0.1 1
  • 10. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.8 ? 0.8 ? ? 0.2 0.9 0.1 1
  • 11. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.8 0 0.8 0.1 0.1 0.2 0.9 0.1 1
  • 12. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica ? ? 0.8 ? ? 0.2 0.9 0.1 1
  • 13. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.7 ? 0.8 ? ? 0.2 0.9 0.1 1
  • 14. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica 0.7 0.1 0.8 0.2 0 0.2 0.9 0.1 1
  • 15. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica [0.7, 0.8] [0, 0.1] 0.8 [0.1, 0.2] [0, 0.1] 0.2 0.9 0.1 1
  • 16. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Esempio. Tab Y,Z dicotomica sotto indipendenza 0.72 0.08 0.8 0.18 0.02 0.2 0.9 0.1 1
  • 17.  Calcolo diretto (anche in presenza di X) dell’intervallo di incertezza [pmin , pmax] tramite disuguaglianza di Fréchet max{0, p(y) + p(z) – 1} ≤ p(y,z) ≤ min {p(y), p(z)}  Sfruttando l’informazione X 𝑥 p(x)max{0, p(y|x) + p(z|x) – 1} ≤ p(y,z) ≤ 𝑥 p(x)min{p(y|x), p(z|x)} Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Un metodo per fare inferenza oltre Indipendenza condizionata (IC)
  • 18.  L’ampiezza media dell’incertezza da un indicazione sulla incertezza insita nel processo di matching  La distribuzione ottenuta con IC è sempre interna agli intervalli, quindi valutazione indiretta dell’applicazione di matching basata su IC Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Analisi dell’incertezza del matching
  • 19.  HS campione non aleatorio  Possibile misclassificazione dovuta alla percezione dell’individuo Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Peculiarità dell’integrazione tra IS e HS
  • 20.  È stato adottato un approccio basato sul calcolo di “pseudo design- based weight”.  Il calcolo di questo peso si basa sulla interpretazione euristica che ogni unità rappresenti le altre unità non campionate.  I pesi sono ottenuti tramite post-stratificazione rispetto ai totali noti della numerosità della popolazione per classe di età, sesso, ripartizione geografica. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Campione non probabilistico
  • 21.  La post-stratificazione elimina il bias dovuto a problemi di selezione se, all’interno di ciascuna cella di aggiustamento, la probabilità che ogni unità risponda è indipendente dal valore assunto dall’unità per ciò che concerne le variabili oggetto di interesse.  Un altro modo di spiegare questa ipotesi è che i rispondenti ed i non- rispondenti in una data cella hanno la stessa distribuzione riguardo la variabile di interesse  In letteratura nota come ipotesi MAR Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Assunzioni
  • 22. Sviluppo di metodi sotto IC e analisi incertezza che tengano conto della misclassificazione di alcune X Si ipotizza un modello classico per trattare variabili misclassificate Due contesti 1. Integrazione sotto IC avendo osservato (Y,X), (Z,X*) 2. Analisi dell’incertezza relativamente ai modelli compatibili con le distribuzioni osservate (Y,X), (Z,X*) Ipotesi: si prende come variabile X* di riferimento quella osservata in HS Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Matching con variabili misclassificate
  • 23. Sia X la prevalenza osservata con misclassificazione e X* quella osservata correttamente, le ipotesi sono 1. P(X=0|X*=0)=1 2. P(X=1|X*=1,W=w) = λw  Nel caso di variabili dicotomiche si ottiene che la probabilità di misclassificazione λw =P(X=1|W=w)/P(X*=1|W=w)  La stima è stata ottenuta sostituendo le frequenze pesate Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto 1 – Modello di misclassificazione
  • 24.  Tramite P(X*=i|X=i,W=w), i=0,1 è stato previsto in IS la prevalenza condizionatamente al dato osservato X=i e w.  Con questa variabile corretta è stato poi condotto il matching sotto IC  Metodo : hot-deck per celle di imputazione. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Contesto 1 – Statistical Matching sotto IC
  • 25. Si risolve il sistema tramite l’algoritmo sviluppato in [1] che fornisce gli estremi di ogni singola cella pmin<= p(Y=y,Z=z)<=pmax per ogni y,z [1] Capotorti Vantaggi, Locally strong coherence in inferential processes (2002) Annals of Mathematics and Artificial Intelligence, vol. 35 pp. 125-149 Contesto 2 - Analisi incertezza con misclassificazione
  • 26. Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014 Ulteriori sviluppi  Approfondimento su metodi alternativi per utilizzo di un campione non aleatorio (propensity score matching, inferenza da modello)  Approfondimento su come combinare stime ottenute da un campione probabilistico e non-probabilistico  Analisi incertezza senza assumere alcun modello di misclassificazione