N. Cibella - Le innovazioni del Record Linkage. Strategie, strumenti e qualità
-
Upload
istituto-nazionale-di-statistica -
Category
Documents
-
view
16.307 -
download
3
description
Transcript of N. Cibella - Le innovazioni del Record Linkage. Strategie, strumenti e qualità
Le innovazioni del Record Linkage.Le innovazioni del Record Linkage.
Strategie, strumenti e qualità Strategie, strumenti e qualità
Nicoletta Cibella, Luca Valentino e Tiziana Tuoto Dipartimento per l'integrazione, la qualità
e lo sviluppo delle reti di produzione e di ricerca
Roma, 27 giugno 2014
Sommario
• Il record linkage• Il contesto di indagine• I metodi e gli strumenti• La strategia di abbinamento• I risultati del linkage• Un confronto con le LAC• Verso il censimento permanente
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
Il record linkage
Insieme di metodologie e tecniche statistiche che consentono di identificare record riferiti alle medesime unità individuali, collocate nello stesso data set o in data set diversi, anche in assenza di una chiave univoca comune.
Nei modelli dual-system o di tipo cattura-ricattura, adottati per la stima della copertura del censimento, la fase di linkage è di fondamentale importanza: si ipotizza che sia possibile stabilire, senza errori, quali unità, rilevate nell’indagine, sono state rilevate anche nel Censimento e quali, invece, no; ossia, il linkage è privo di errori.
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
L’indagine di copertura: il contesto del linkage
• L’indagine sul campo: eleggibilità della popolazione e sezioni censuarie campione
• SGR_PES e dati di indagine : ricchezza di fonti informative di alta qualità
• Le variabili dell’indagine: altissimo potere identificativo per gli individui
• Assenza di codice univoco, ossia di codice fiscale
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
Prima del linkage
Indagine: 332,710 individui
Preparazione al linkage:
-procedura deterministica per eliminare i duplicati (variabili usate nome , cognome e data di nascita);-determinazione degli eleggibili (esclusione residenti estero e nati dopo)
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
I metodi del record linkageStrategia complessa, in più fasi e con diversi metodi per ottenere un abbinamento di alta qualità in modo tempestivo (meno di tre mesi)
•Probabilistico: modelli statistici sui confronti tra variabili identificatrici – blocchi diversi, nome e cognome, date di nascita e legami con famigliari;•Revisione manuale dei casi dubbi e dei record rimasti non linkati con, anche, selezione mirata tramite modelli probabilistici degli individui del censimento tra cui individuare le unità da mettere a confronto
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
Gli strumenti del record linkage
• RELAIS (Record Linkage at Istat) prodotto Istat per risolvere problemi di record linkage in modo automatico e trasparente. Mette a disposizione metodologie e tecniche diverse, che possono essere combinate in maniera dinamica attraverso una semplice interfaccia grafica e la disponibilità di funzionalità di guida
http://www.istat.it/it/strumenti/metodi-e-software/software/relais
• Applicativo per la revisione manuale sviluppato ad hoc
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
Un lavoro di squadra• Team di statistici metodologi Nicoletta Cibella - Tiziana Tuoto
• Team di informatici Laura Tosco - Luca Valentino
• Team di esperti del censimentoFederico Benassi
• Team di revisori Rita BallaiAnna Laura CorbelliRoberta ScarfagnaLoredana ScennaGiancarlo Vitucci• Team di esperti di indagine Antonella BernardiniAndrea FasuloMarco Terribili
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
La strategia di abbinamento
1.Linkage probabilistico per sezione;2.linkage probabilistico per comune, dividendo i grandi comuni dagli altri;3.linkage probabilistico su tutta Italia (Regioni e poi Italia);4.linkage probabilistico per gli stranieri residui;5.analisi dei residui: ricerca individui non abbinati in famiglie abbinate e/o ricerca per indirizzo
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
1. Deduplicazione
2. Linkage probabilistico per sezione
4. Linkage probabilistico con tutta Italia
Censimento:Popolazione legale
Indagine di copertura
Indagine deduplicata
Residui
Residui
Non abbinati
3. Linkage probabilistico per comune
Duplicati
Abbinati
5. Abbinamento manuale per famiglia od indirizzo
Residui
La complessità del Linkage
I risultati del LinkageIndagine di copertura 332,710
Duplicati 442Ineleggibili 3,113
Abbinati con Censimento 325,217 di cui:
302,006 (92.86%) nella stessa sezione 19,249 (5.92%) nello stesso comune 3,962 (1.22%) altrove
Non Abbinati con Censimento 3,938
Censimento 59,433,744
Un confronto con le LAC
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014
si no
si 322,181 3,036 no 2,733 1,205
329,155
LAC
Censimento
Individui rilevati all’indagine di copertura
In più:
-320,102 (99.35%) rilevati allo stesso indirizzo delle LAC -2,079 (0.65%) rilevati in altro indirizzo rispetto alle LAC-la quasi totalità degli irreperibili al censimento erano in PES allo stesso indirizzo delle LAC
•La disponibilità di strumenti generalizzati per il linkage e la collaborazione con gli esperti di dominio hanno garantito elevata qualità e tempestività
•L’indagine campionaria areale di qualità è una ricchezza per la valutazione delle rilevazioni tradizionali ma anche degli archivi amministrativi e permette anche di mettere in luce criticità relative alla mappatura del territorio
•Necessità di approfondire i profili più sfuggenti alle diverse rilevazioni e analizzarne le cause, con linkage di qualità con altre fonti (SIM e SIREA)
Verso il censimento permanente
N.Cibella "Le innovazioni del Record Linkage" 27 giugno 2014