1. Prevenzione e trattamento degli errori di misura e
delle mancate risposte nelle indagini statistiche: il caso
dell'indagine su ICT e e-commerce
Alessandra Nurra, Orietta Luzi, Sergio Salamone, Franca
Silvestri
Convegno SISVSP 2012
Roma, Università Europea, 19-20 Aprile 2012
2. Convegno SISVSP 2012
Prendere decisioni - Il ruolo
Prevenzione e trattamento degli errori di misura e delle mancate
della statistica per la
conoscenza e la
risposte nelle indagini statistiche: il caso dell'indagine su ICT e e-
governance commerce
Contenuto della presentazione
• La rilevazione Istat su Information and Communication
Technolgies nelle imprese (ICT)
• Obiettivi del lavoro
• La fase di data capturing: dal cartaceo al web
• La fase di trattamento degli errori non campionari e delle
mancate risposte di natura casuale
• Conclusioni e prospettive
Roma, 19-20 Aprile 2012
3. Convegno SISVSP 2012
Prendere decisioni - Il ruolo
della statistica per la Rilevazione ICT: origine e finalità
conoscenza e la
governance
2000: la Commissione Europea (CE) definisce indicatori di benchmark
sulla società dell’informazione per monitorare l’adozione e l’utilizzo di
ICT da parte di imprese e individui.
2005: il Consiglio europeo afferma la necessità di sviluppare una società
dell’informazione basata sull’inclusione e sull’uso generalizzato delle
tecnologie dell’informazione e delle comunicazioni nei servizi pubblici,
imprese e famiglie .
2010: nell’ambito della strategia Europa2020, la CE adotta l'Agenda
digitale per Europa con impegni da intraprendere a livello europeo e di
singoli Paesi, “volti a stimolare un circolo virtuoso di investimenti e
l'utilizzo di tecnologie digitali’’
Vengono definiti obiettivi di performance e indicatori specifici per le
dimensioni chiave della società dell’informazione, monitorati attraverso
due indagini sull’ICT (imprese, famiglie/individui) condotte utilizzando
una metodologia e un questionario comuni a tutti i Paesi dell’Unione.
Roma, 19-20 Aprile 2012
4. Convegno SISVSP 2012
Prendere decisioni - Il ruolo
della statistica per la Rilevazione ICT: principali caratteristiche
conoscenza e la
governance
Obiettivi: misurare l’adozione/utilizzo di ICT e analizzarne l’impatto
sull’organizzazione interna e nei rapporti con l’esterno
Popolazione di riferimento: imprese con almeno 10 addetti attive nei
settori manifatturiero, energia, costruzioni servizi
Tipo di indagine: censuaria oltre 249 addetti; campionaria fra 10 a
249 addetti (campionamento ad uno stadio stratificato per attività
economica, classe di addetti e regione)
Periodicità: annuale
Tecnica di raccolta dati: da cartacea, a mixed mode (auto-
compilazione cartacea e web), attualmente quasi esclusivamente
auto-compilazione on line
Stima: stimatore di ponderazione vincolata
Roma, 19-20 Aprile 2012
5. Convegno SISVSP 2012
Prendere decisioni - Il ruolo Rilevazione ICT: le dimensioni chiave della società
della statistica per la
conoscenza e la dell’informazione
governance
Dimensioni Tecnologiche, anno 2011 EU27 IT
(% sul totale imprese o addetti)
Accesso a Internet 95% 94% il ridotto divario che si registra tra le diverse unità produttive
nell’adozione delle tecnologie di base non sembra essere più
Connessione Fissa in banda larga 87% 84% riconducibile né a fattori territoriali né a quelli dimensionali: più di
9 imprese su 10 dispone di computer e è connessa ad
Connessione Mobile in banda larga 44% 47% Internet; il numero delle aziende connesso a Internet tramite
tecnologie in banda larga fissa o in banda larga mobile cresce
Connessione Mobile in banda larga: addetti 28% 8% (per gli addetti con connessione mobile in 3G l’Italia si attesta , con
l’8% del totale della forza lavoro, dietro il 28% EU27);
Website 69% 63%
E-commerce: imprese che vendono on-line 15% 5%
l’utilizzo di servizi Internet più complessi ha ancora ampi margini di
crescita e sviluppo: le vendite on-line continuano ad essere
E-commerce: vendite on-line 14% 5%
effettuate da pochissime imprese (5,4%) che realizzano ancora
bassi livelli di fatturato online (5%); il 27% delle imprese italiane
E-commerce: imprese che acquistano on-line 35% 27%
acquistano on-line a fronte di una media europea del 35%.
Imprese che interagiscono on line con la PA per inviare
69% 39% all’aumentare della complessità organizzativa, misurata dal
moduli compilati
Imprese i cui processi aziendali interni sono collegati maggior numero di addetti, si accresce anche il ricorso a
41% 49% strumenti informatici di condivisione e integrazione delle
automaticamente
Imprese i cui processi aziendali interni sono collegati informazioni sia tra funzioni interne all’impresa sia tra sistemi
74% 80% informativi di imprese partner; permane il divario tra piccole e
automaticamente (grandi imprese)
Scambio di dati idonei ad essere trattati in modo automatico grandi imprese in attività quali l'utilizzo di tecnologie di terza
55% 56% generazione per l'accesso a Internet con dispositivi portatili, l'uso di
da sistemi esterni all’impresa
Scambio di dati idonei ad essere trattati in modo automatico software adeguati alla condivisione di informazioni all'interno
81% 78% dell'impresa, l’e-commerce.
da sistemi esterni all’impresa (grandi imprese)
Roma, 19-20 Aprile 2012
6. Convegno SISVSP 2012
Prendere decisioni - Il ruolo
della statistica per la
conoscenza e la Obiettivi del lavoro
governance
Illustrare la strategia complessiva adottata nell’indagine ICT per
la prevenzione e il trattamento di mancate risposte ed errori
• Strategia di data capturing: progressivo passaggio alla
modalità di raccolta esclusiva via web controllata
• Facilitare la compilazione (tasso di MRT)
• Avvicinare al rispondente la verifica della
correttezza/completezza dei dati (tasso di MRP ed errori)
• Strategia di individuazione e correzione di errori e mancate
risposte
• Ottimizzare il trattamento di errori e mancate risposte parziali
di natura casuale per le variabili qualitative
• Ottimizzare l’individuazione di valori anomali ed errori influenti
perle variabili quantitative
Roma, 19-20 Aprile 2012
7. Convegno SISVSP 2012
Prendere decisioni - Il ruolo
della statistica per la Rilevazione ICT: la strategia di data capturing
conoscenza e la
governance
Qustionari pervenuti
Anno Modalità acquisizione (n° di solleciti) cartacei web
2001 cartacea (1) 100%
2002 cartacea (1) 100%
2003 cartacea (1) 100%
2004 cartacea (1) 100%
2005 cartacea (1) 100%
2006 cartacea+web/pdf (1) 81% 19%
2007 cartacea+web/pdf (1) 78% 22%
2008 cartacea+web/pdf (1) 67% 33%
web/pdf
2009 33% 67%
cartacea solo al 1° sollecito per tutti i non rispondenti (2)
web/pdf
2010 32% 68%
cartacea solo al 1° sollecito per tutti i non rispondenti (2)
web/html
2011 10% 90%
cartacea solo al 1° sollecito solo per classe 10-19 addetti (2)
2012 web/html (2 o 3)
2006: l’aumento della diffusione di Internet permette l’introduzione dell’acquisizione ‘mista’
2006-2008: l’aumento dei questionari raccolti via web appare inibito soprattutto dall’invio del questionario
cartaceo al primo contatto (infatti l’analisi sulla distribuzione temporale del materiale pervenuto on/off line
dimostrava che lo strumento elettronico veniva utilizzato soprattutto nel primo mese di indagine)
2009: invia il cartaceo solo al secondo mese di indagine (al primo sollecito). Ciò ribalta le percentuale di
questionari pervenuti via web o via posta ordinaria, liberando risorse per effettuare un secondo sollecito
2010: si conferma la strategia del 2009; aumenta il tasso di risposta totale anche per effetto dei 2 solleciti
2011: l’analisi del pervenuto per classe di addetti suggerisce una nuova strategia: invio del modello
cartaceo ai non rispondenti solo su richiesta, e invio al primo sollecito del cartaceo solo alle imprese con
meno di 20 addetti
Roma, 19-20 Aprile 2012
8. Convegno SISVSP 2012
Prendere decisioni - Il ruolo Rilevazione ICT: propensione alla risposta per modalità di
della statistica per la
conoscenza e la raccolta e strategia di data capturing
governance
Questionari pervenuti per tipologia di Questionari pervenuti per tipologia di Questionari pervenuti per tipologia di
acquisizione, per macrosettore e classe acquisizione, per macrosettore e classe acquisizione, per macrosettore e classe
di addetti (Anno 2009) di addetti (Anno 2010) di addetti (Anno 2011)
2009-2011: a livello di Macrosettore Cartaceo Web
Macrosettore Cartaceo Web Macrosettore Cartaceo Web
macrosettore è lieve la CC Manifatturiero 32.81% 67.19% CC Manifatturiero 30.46% 69.54% CC Manifatturiero 30.46% 69.54%
differenza nella propensione DE Energia 33.13% 66.87% DE Energia 29.43% 70.57% DE Energia 29.43% 70.57%
ad inviare cartaceo o FF Costruzioni 33.69% 66.31% FF Costruzioni 34.51% 65.49% FF Costruzioni 34.51% 65.49%
elettronico GN Servizi 33.22% 66.78% GN Servizi 31.34% 68.66% GN Servizi 31.34% 68.66%
Classe di addetti Cartaceo Web Classe di addetti Cartaceo Web Classe di addetti Cartaceo Web
2009-2011: a livello di
10-49 34.78% 65.22% 10-49 34.33% 65.67% 10-49 14.22% 85.78%
addetti è evidente l’aumento 50-99 0.69% 99.31%
50-99 31.37% 68.63% 50-99 28.90% 71.10%
della propensione a inviare 100-249 0.68% 99.32%
100-249 27.91% 72.09% 100-249 27.27% 72.73%
modelli via web al crescere >=250 27.70% 72.30% >=250 21.94% 78.06% >=250 0.14% 99.86%
della dimensione aziendale Totale complessivo 33.24% 66.76% Totale complessivo 31.90% 68.10% Totale complessivo 9.80% 90.20%
Dentro Settore ICT 25.24% 74.76% Dentro Settore ICT 6.38% 93.63%
2010-2011: le attività del settore ICT sono più propense ad
Fuori Settore ICT 32.15% 67.85% Fuori Settore ICT 9.95% 90.05%
inviare questionari via web
Classe di addetti Cartaceo Web Classe di addetti Cartaceo Web
10-19 35.47% 64.53% 10-19 18.65% 81.35%
2011: la scelta di inviare questionari cartacei al primo 20-49 31.00% 69.00% 20-49 0.64% 99.36%
sollecito solo alle imprese con meno di 20 addetti fa 50-99 29.01% 70.99% 50-99 0.69% 99.31%
crollare la percentuale di cartacei pervenuti in tutte le 100-249 27.22% 72.78% 100-249 0.68% 99.32%
classi di addetto rispetto agli anni precedenti (il cartaceo 250-499 23.61% 76.39% 250-499 0.18% 99.82%
aveva un effetto sostituzione sull’utilizzo del web) >=500 20.19% 79.81% >=500 0.09% 99.91%
circa 1900 questionari: solo il 17% dei
cartacei inviati!
2011: a fronte di circa 11000 questionari spediti e 1900 cartacei pervenuti nella categoria di Classe di addetti: 10-19
imprese con 10-19 addetti solo 2,5% ha dichiarato di non avere Internet!! non ha Internet 2.51%
Tali risultati suggeriscono per l’anno 2012 di non inviare questionari cartacei se non su specifica ha Internet 90.01%
richiesta delle imprese contattate. missing 7.48%
Roma, 19-20 Aprile 2012
9. Convegno SISVSP 2012
Prendere decisioni - Il ruolo Rilevazione ICT: effetti della strategia di data capturing sulla
della statistica per la
conoscenza e la qualità dei dati (1)
governance
Tasso di risposta totale
Anno Tasso di risposta
2001 58,12
2002 45,57
2003 45,39
2004 47,21
2005 51,78
2006 48,01
2007 49,96
2008 47,19
2009 51,72
2010 55,45
2011 55,13
Roma, 19-20 Aprile 2012
10. Titolo del convegno
Rilevazione ICT: effetti della strategia di data capturing sulla
anche su più righe
anche su più righe
qualità dei dati (2)
Tasso di mancata risposta parziale e tasso di incompatibilità
L’impatto sulla qualità dei dati osservati dovuto al passaggio
progressivo alla modalità web è dovuto alla possibilità di spostare sul
rispondente la correzione di alcune tipologie di errori/incongruenze
attraverso l’inserimento di regole di compilazione (hard/soft) che
guidano il rispondenti nella compilazione del questionario
Indicatori di sintesi degli effetti complessivi della procedura di
controllo e correzione (anno 2011) confermano la migliore qualità dei
dati acquisiti via web
Tasso di Tasso di Tasso di
imputazione modificazione imputazione netta
questionari cartacei 8,26 0,83 5,66
questionari elettronici 5,74 0,48 2,20
Totale 6,03 0,51 2,59
Roma, 19-20 Aprile 2012
11. Titolo del convegno
anche su più righe
Rilevazione ICT: la strategia di controllo e correzione (C&C)
anche su più righe per le variabili qualitative
Individuazione e trattamento di errori (incoerenze) e MRP di
natura casuale affidate al metodo probabilistico Fellegi e Holt (‘76)
• Localizzazione dei errori e MRP sfruttando congiuntamente
l’informazione derivante dall’uso di un set di regole di coerenza
• In base alle regole violate da ciascuna unità, individuazione del minor
numero di variabili più probabilmente errate (principio di minimo
cambiamento e preservazione delle distribuzioni osservate)
• Imputazione di errori e MRP mediante metodi donor-based (varianti
della tecnica del donatore di distanza minima per celle di imputazione)
Eliminazione dei controlli deterministici sulle variabili obiettivo
potenzialmente affette da errore/MRP di natura completamente
casuale (riduzione effetti indesiderati sulle relative prob. di errore)
Riparametrizzazione del processo (fasi del processo, regole di
controllo, parametri di imputazione)
Roma, 19-20 Aprile 2012
12. Titolo del convegno
anche su più righe
Rilevazione ICT: effetti delle strategie di C&C sulla qualità
anche su più righe dei dati (1)
Sperimentazione sui dati ICT 2009-2010
Unità rispondenti: 20.999 (55% del campione teorico)
Obiettivo della sperimentazione: valutare le differenze di
qualità attraverso l’impatto della nuova strategia complessiva e
la strategia precedente
Approccio sperimentale: applicazione ai dati grezzi delle
procedure alternative «precedente» e «riparametrizzata».
Confronto fra i tassi di modifica e le distribuzioni marginali.
Misure di qualità:
• Tassi di imputazione
• matrici di transizione in cui, per ogni variabile obiettivo
Y, sono riportate le transizioni dalle modalità di Y nei dati
grezzi alle modalità di Y nei dati puliti (analisi distribuz)
Roma, 19-20 Aprile 2012
13. Titolo del convegno
anche su più righe
Rilevazione ICT: effetti delle strategie di C&C sulla qualità
anche su più righe dei dati (2)
• StrumentI
• versione open-source (R language) del software
generalizzato SCIA
• 323 regole di coerenza
• Risultati
• equivalenti in termini di distribuzioni marginali osservate,
con elevate frequenze di casi lungo le diagonali principali
delle tabelle (adeguatezza criterio del miN cambiamento).
• I risultati della nuova procedura preservano meglio le
distribuzioni osservate in termini di re-distribuzione dei
blank non ammissibili (effetto del trattamento probabilistico
simultaneo di variabili filtro + variabili dipendenti)
Roma, 19-20 Aprile 2012
14. Prevenzione e trattamento degli errori di misura e delle mancate
risposte nelle indagini statistiche: il caso dell'indagine su ICT e e-
commerce
Conclusioni e prospettive
• La strategia di prevenzione attraverso il progressivo passaggio alla
modalità di acquisizione controllata via web ha consentito
significativi guadagni in termini di incremento dei tassi di risposta
totale e parziale, specialmente su specifiche tipologi di imprese
• La revisione della strategia di individuazione e trattamento della
componente casuale degli errori (di risposta e di misura) ha
consentito maggior trasparenza, oggettività e possibilità di
monitoraggio dei risultati finali attraverso un utilizzo più stringente
del principio probabilistico del minimo cambiamento.
• Ulteriori sviluppi riguardano l’uso di tecniche di editing selettivo
per l’ottimizzazione della fase di individuazione di valori anomali
influenti. Esperimenti sono in corso sulle variabili addetti, ricavi
totali e acquisti delle imprese.
Roma, 19-20 Aprile 2012