il record linkage probabilistico e l uso dei dati abbinati
Download
Skip this Video
Download Presentation
Il record linkage probabilistico e l ’ uso dei dati abbinati

Loading in 2 Seconds...

play fullscreen
1 / 71

Il record linkage probabilistico e l ’ uso dei dati abbinati - PowerPoint PPT Presentation


  • 209 Views
  • Uploaded on

Il record linkage probabilistico e l ’ uso dei dati abbinati. Brunero Liseo Bologna, 17 aprile 2012. Sommario. Due esempi introduttivi Cosa è il record linkage (RL) probabilistico Metodi di stima per RL Inferenza per dati “abbinati” mediante linkage.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Il record linkage probabilistico e l ’ uso dei dati abbinati' - demetrius-glover


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
sommario
Sommario
  • Due esempi introduttivi
  • Cosa è il record linkage (RL) probabilistico
  • Metodi di stima per RL
  • Inferenza per dati “abbinati” mediante linkage

Il record linkage probabilistico

1 stima della numerosit n di una popolazione
1. Stima della numerosità N di una popolazione

Metodo cattura-ricattura

  • Quanti pesci vivono in un lago? Si effettua una pesca in un dato giorno, e se ne osservano n1 che vengono “marcati" in qualche modo.
  • Il giorno dopo si effettua un'altra pesca; se ne osservano n2 di cui M gia osservati il giorno precedente.
  • Qual è una buona stima per N?

Il record linkage probabilistico

slide4
Sotto alcune ipotesi (i pesci non apprendono...), la frazione osservata il primo giorno n1/N dovrebbe essere più o meno simile a quella dei “ripescati” nel secondo giorno, ovvero M/n2:

Da questo deriva che

Il record linkage probabilistico

slide5
Se invece dei pesci dobbiamo contare quanti sono i clandestini in Italia?
  • Cosa si intende ora per "catture"?
  • Quali nuovi problemi sorgono?

Probabilmente l’operazione di “marcatura”

comporta alcuni problemi.

La stessa persona potrebbe essere stata registrata sotto diversi nomi in diverse situazioni

Il record linkage probabilistico

2 regressione lineare per dati abbinati
2. Regressione lineare per dati abbinati

Si vuole effettuare una semplice regressione lineare tra la Y e la X, ma le variabili sono state rilevate sulle stesse unità statistiche in due occasioni differenti.

Potrebbe accadere che alcuni valori della Y siano abbinati alla X sbagliata, ovvero è possibile creare dei falsi link …

Il record linkage probabilistico

2 regressione lineare per dati abbinati1
2. Regressione lineare per dati abbinati

Esempio simulato: generiamo 15 coppie di valori da

  • > x= 1:15
  • > y = 2*x + rnorm(15, sd=6)
  • > y1= c(y[10,11], y[1:9], y[12:15])
  • plot(x,y)
  • > abline(lm(y~x)$coeff, col="red")
  • > abline(lm(y1~x)$coeff, col=“blue")

… e poi invertiamo due soli dati …

Il record linkage probabilistico

slide8
Regressione corretta, ottenuta con i dati correttamente abbinati

Il record linkage probabilistico

il problema generale
Il problema generale

La crescente richiesta di informazione statistica a livello disaggregato impone la ricerca di nuove fonti

Il vincolo sui tempi e sui costi sconsiglia in generale il ricorso a nuove indagini, campionarie e/o complete.

E’ allora pratica sempre più consolidata quella di “incrociare” informazioni preesistenti per creare nuova informazione statistica.

Il record linkage probabilistico

il problema generale1
Il problema generale

Il più delle volte i records nei due files non hanno una chiave di identificazione sicura

L’operazione di linkage è quindi incerta

Tale incertezza deve essere “modellata” in termini statistici

Il record linkage probabilistico

alcuni esempi
Alcuni esempi
  • Dati amministrativi e dati campionari (es. anagrafe delle aziende)
  • Scopi giudiziari: coerenza tra dichiarazioni dei redditi e transazioni bancarie
  • Ambito economico/sanitario: incrocio delle spese regionali, stime di prevalenza di alcune malattie in base a varie fonti informative (SDO, SERT, farmaci etc..)
  • Indagine sulla “copertura” dei censimenti

. Problemi di riservatezza …

Il record linkage probabilistico

record linkage
Record Linkage
  • Identificare record riferiti allo stesso individuo, ma collocati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti Newcombe (1959)

A

B

Il record linkage probabilistico

il problema del rl
Il problema del RL

Il record linkage probabilistico

record linkage1
Record linkage

Input: due data set che

presentano

alcune unità in comune

  • Soluzione: uso di un set di variabili in grado (congiuntamente) di individuare i record
  • Attenzione: le variabili possono avere “problemi”!
  • Obiettivo: maggior numero di agganci giusti, minor numero di agganci sbagliati

Problema:

Manca un codice identificativo univoco e privo di errori

Il record linkage probabilistico

esempio 1 analisi mortalit
Esempio 1 - analisi mortalità
  • Problema: analizzare congiuntamente i “fattori di rischio” con l’evento “morte”.
  • I fattori di rischio sono contenuti in indagini ad hoc (quelle sulla nutrizione, sulle condizioni di lavoro, etc.)
  • L’evento “morte” (ad alcuni mesi dalla rilevazione precedente) si desume da un registro amministrativo
  • Le due fonti vanno “integrate” in modo che a ogni unità dell’indagine sui fattori di rischio si possa associare una nuova variabile dicotomica che vale 1 se l’individuo è deceduto e 0 se è ancora in vita.

Il record linkage probabilistico

esempio 2 contare una popolazione
Esempio 2 - contare una popolazione

Problema: qual è il numero di residenti in Italia?

 metodo cattura - ricattura

Le occasioni:

  • Censimento della Popolazione
  • Indagine di copertura (eseguita alcuni mesi dopo il censimento) per valutare la qualità del Censimento e fornire una stima accurata della numerosità della popolazione

USA: Post Enumeration Survey - 1990

Accuracy and Coverage Evaluation - 2000

Italia - 2001 - Indagine di Copertura del Censimento

Il record linkage probabilistico

esempio 2 contare una popolazione1
Esempio 2 - contare una popolazione

Il risultato del confronto del Censimento con l’indagine post-censuaria è una tabella 2x2

Il record linkage probabilistico

esempio 2 contare una popolazione2
Esempio 2 - contare una popolazione

In pratica, per ogni unità osservata si deve ricavare se

1) è stata rilevata sia nel Censimento che nell’indagine post censuaria

2) è stata rilevata solo nel Censimento

3) è stata rilevata solo nell’indagine post-censuaria

I tre valori precedenti consentono di stimare - con un opportuno modello statistico - il quarto.

Il record linkage probabilistico

esempio 3 creazione lista
Esempio 3 - Creazione lista
  • Problema: qual è l’insieme delle imprese attive?
  • In Istat, ASIA (Archivio Statistico delle Imprese Attive) è una lista di unità (le imprese attive in un particolare istante di tempo) ottenuta “fondendo” diversi archivi.

Le difficoltà

  • imprese presenti contemporaneamente in più archivi (eliminazione dei duplicati)
  • imprese morte e nuove nate
  • trasformazioni (possono produrre una nuova impresa o continuare a essere la stessa)

Il record linkage probabilistico

record linkage caso semplice
Record Linkage - caso semplice

Il record linkage probabilistico

record linkage caso meno semplice
Record Linkage - caso meno semplice
  • Il codice identificativo non c’è, o è inutilizzabile.
  • Le restanti variabili - congiuntamente - sono in grado di identificare l’unità: svolgono la funzione di codice identificativo.
  • Inoltre sono prive di errori o mancate risposte.

Il record linkage probabilistico

record linkage caso meno semplice1
Record Linkage - caso meno semplice

Il record linkage probabilistico

record linkage caso pi complicato
Record Linkage - caso più complicato
  • Non esiste un codice identificativo univoco.
  • Le restanti variabili congiuntamente sono in grado di identificare l’unità. Tuttavia si possono osservare differenze nelle risposte per:
  • errori di trascrizione / comprensione
  • mancate risposte
  • risposte esatte ma formulate in modo diverso
  • cambiamenti nel tempo, o comunque le risposte non sono identiche.

Il record linkage probabilistico

record linkage caso pi complicato1
Record Linkage - caso più complicato

Il record linkage probabilistico

l abbinamento deterministico
L’abbinamento deterministico

Si basa sulla concordanza di un numero sufficiente di variabili comuni:

  • Es. Si abbinano due record se almeno due delle tre variabili NOME, COGNOME e ANNO DI NASCITA sono concordanti

Il record linkage probabilistico

abbinamento deterministico osservazioni
Abbinamento deterministico: osservazioni

Può tenere conto di valori mancanti e errori nelle variabili di abbinamento

Permette di graduare il potere informativo delle variabili mediante punteggi:

  • Stesso nome = 2 punti
  • Stesso cognome = 7 punti
  • Stesso anno di nascita = 3 punti
  • [0 < Diff(anno) <3] = 1 punto

I punteggi possono essere stabiliti mediante analisi statistica su dati esterni

Il record linkage probabilistico

l abbinamento probabilistico
L’abbinamento probabilistico

Come nell’abbinamento deterministico:

  • Si lavora sul confronto di tutte le coppie possibili;
  • Si usano punteggi basati su criteri flessibili per stabilire gli abbinamenti

Ma:

  • I punteggi e le soglie usati per scegliere gli abbinamenti dipendono dal problema in esame
  • Si tiene conto anche dei livelli di disaccordo nei dati

Il record linkage probabilistico

slide30
Le fasi del record linkage

- Preparazione dei files di input (pre-processing);

- Selezione delle variabili identificativi comuni (variabili di bloccaggio e abbinamento);

- Scelta della/e funzione/i di confronto;

- Riduzione dello spazio di ricerca delle coppie candidate;

- Scelta del modello di decisione;

Stima delle probabilità di abbinamento

Valutazione dell’adattamento del modello ai dati

Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato”

- Valutazione dei risultati del Record linkage;

- Selezione degli abbinamenti univoci.

Il record linkage probabilistico

slide31
Gill et al. (2001)

Il record linkage probabilistico

fase preliminare armonizzazione
Fase preliminare: armonizzazione

La fase di armonizzazione deve considerare diversi passi

1) armonizzazione della definizione di unità;

2) armonizzazione dei periodi di riferimento;

3) completamento delle popolazioni;

4) armonizzazione delle definizioni di variabile;

5) armonizzazione delle classificazioni;

6) aggiustamento degli errori di misura (accuratezza);

7) aggiustamento per le mancate risposte;

8) costruzione di variabili derivate.

Il record linkage probabilistico

esempi di problemi di armonizzazione
Esempi di problemi di armonizzazione
  • la definizione di famiglia
  • i diversi tempi di riferimento delle fonti
  • le diverse popolazioni di riferimento delle fonti (infortuni sul lavoro e archivio Inail)
  • variabili relative al “capofamiglia”
  • classificazioni delle ripartizioni geografiche

Il record linkage probabilistico

selezione delle variabili di matching
Selezione delle variabili di matching
  • Le variabili che congiuntamente svolgono la funzione di un codice identificativo vengono chiamate “variabili chiave”.
  • Es. individuo: nome, cognome, data di nascita, sesso, titolo di studio, indirizzo, stato civile …
  • Bisogna scegliere fra tutte le variabili in comune fra i due data set.

Il record linkage probabilistico

selezione delle variabili di matching1
Selezione delle variabili di matching
  • Caratteristiche desiderabili
  • universali
  • permanenti
  • accurate
  • non sensibili

Il record linkage probabilistico

selezione delle variabili di matching2
Selezione delle variabili di matching

Gill et al (2001) si occupa del caso in cui la popolazione di interesse è costituita da individui. Suggerisce di dividere le variabili in comune in 6 gruppi:

  • Nomi propri che cambiano raramente: nome di battesimo, cognome attuale, prima iniziale del secondo nome,
  • Caratteristiche non relative al nome che rimangono fisse alla nascita: sesso, data di nascita, luogo di nascita,…
  • Caratteristiche socio-demografiche che cambiano durante l’arco di vita: indirizzo, codice postale, stato civile
  • Variabili usate in registri speciali: data di morte, occupazione
  • Variabili per l’aggancio delle famiglie: cognome della madre alla nascita, cognome del padre, numero di nati
  • Codici che aiutano a identificare il record: edizione o versione dei codici usati nel record

… e le imprese??

Il record linkage probabilistico

editing e parsing
Editing e parsing

Per indirizzi e nomi esistono diversi metodi di parsing, metodi che trasformano le risposte per tenere conto di errori di digitazione o di problemi nella pronuncia di nomi stranieri ( Es: Smith vs. Smithe).

Ricodifiche utili anche quando le variabili non contengono errori ma sono descritte in modo diverso

Es: via Luigi Zamboni, 16 - 40121 Bologna

  • v. Zamboni L., n.16 – Bo (40121)

Il record linkage probabilistico

sorting and blocking
Sorting and blocking

Sono operazioni eseguite per

- Facilitare al computer il compito del riconoscimento dei record

- Consentire l’utilizzo di operazioni statistiche sui dati

- Il bloccaggio ha un impatto sulla bontà dei metodi di RL in quanto limita il numero dei confronti fra records

Il record linkage probabilistico

rl deterministico o probabilistico
RL deterministico o probabilistico?

Deterministico: si stabiliscono a priori delle regole che, se rispettate, definiscono i match. Il controllo dei possibili errori può essere svolto solo manualmente (clerical review).

Probabilistico: si definisce un modello probabilistico che ha generato i dati osservati (e i potenziali errori …)

Si stabilisce una regola di decisione “ottimale”, in un senso da specificare.

Si stimano gli elementi utili all’applicazione della regola di decisione. Vengono determinate delle probabilità di errore.

Il record linkage probabilistico

record linkage probabilistico
Record linkage probabilistico

Il record linkage probabilistico

quale output
Quale output?

Le regole di decisione si scelgono in base al tipo di output di interesse.

Si può ammette che un record di A si agganci a più di un record di B? e viceversa?

Se la risposta è NO, è necessario inserire il vincolo di matching 1:1 (ogni record di A può essere agganciato al più a un record di B e viceversa).

Il record linkage probabilistico

decisioni sui match incerti
Decisioni sui match incerti
  • Le procedure di decisione lasciano dei margini di incertezza: per alcune coppie di record di A e B, le informazioni disponibili non sono in grado di discriminare fra il fatto che la coppia è un match oppure no.

In questi casi è necessario ricorrere a

  • applicazione di tecniche di linkage che usano variabili di matching diverse
  • analisi manuale dei record (clerical review)

Il record linkage probabilistico

formalizzazione
Formalizzazione

Per ogni coppia di records (a,b) si crea un vettore di confronti (Fellegi e Sunter, 1969) sulle k variabili chiave

Nella formulazione più semplice i confronti sono dicotomici

Il record linkage probabilistico

altrimenti se ne possono pensare di pi sofisticate
Altrimenti, se ne possono pensare di più sofisticate

1.

2.

Altre metriche similari

Basare i confronti sulle X e non sui confronti

(Tancredi et al. 2011).

3.

Punto essenziale: l’occorrenza di Mario Rossi in entrambi i database non ha lo stesso potere discriminante dell’occorrenza di Brunero Liseo

Il record linkage probabilistico

slide45
Formalizzazione

M={vere coppie}

U ={vere NON coppie}

La cardinalità di M è molto molto più piccola di quella di U. (es.: card(A)=card(B)= 100 con 10 unità in comune  card(M)=10 card(U)=9990

Il record linkage probabilistico

la distribuzione di y
La distribuzione di Y

Se p(Y) è la probabilità di un dato esito del vettore dei confronti

Il record linkage probabilistico

p y si manifesta come mistura di due distribuzioni struttura latente
P(Y) si manifesta come mistura di due distribuzioni  struttura latente

Il record linkage probabilistico

fellegi e sunter 1969
Fellegi e Sunter (1969)

Cosa bisogna stimare?

P(M), P(U)informazioni a priori

p(γ|M) p(γ|U)le verosimiglianze

Λ = p(γ|M)/p(γ|U)il rapporto di verosimiglianza

Il record linkage probabilistico

fellegi e sunter 19691
Fellegi e Sunter (1969)

Procedura:

  • Si sceglie una forma parametrica per p(y|M) e p(y|U); in genere

con mk e uk vettori di parametri da stimare (modelli mistura, algoritmo EM, metodi bayesiani)

Il record linkage probabilistico

fellegi e sunter 19692
Fellegi e Sunter (1969)

Procedura:

1) Determina due punti di cut-off (low e upp) nella distribuzione campionaria di Λ

2) Dichiara (a,b) una coppia se Λ> upp

3) Dichiara (a,b) una NON coppia se Λ< inf

4) Analisi manuale in caso contrario

Il record linkage probabilistico

logica del metodo fs
Logica del metodo FS
  • Si passa da un vettore di confronti y ad un numero.
  • Il numero è associato alla probabilità che la data coppia sia un match.
  • E’ possibile ordinare le coppie, o i profili di confronto, secondo il valore del peso.
  • Scelta in termini di analisi discriminante. Strumento: test statistico
  • Il peso r(y) corrisponderebbe al test rapporto di verosimiglianze

Il record linkage probabilistico

problemi con fs69
Problemi con FS69

1) Non tiene conto delle molteplicità

2) Risultati potenzialmente incoerenti: una stessa unità abbinata a due diversi record

3) Il modello per p(γ|M) p(γ|U) è spesso troppo semplice per essere credibile

4) L’informazione campionaria relativa alle variabili chiave X non è utilizzata

5) I vettori dei confronti yab non sono indipendenti

6) E’ un modello concepito per variabili categoriche

7) La diversa cardinalità di M e U rende le stime di p(γ|M) e p(γ|U) di diversa affidabilità

Il record linkage probabilistico

slide53
errore

l

u

U*

Q

M*

(a,b)U

(a,b)M

r(y)

Il record linkage probabilistico

miglioramenti
Miglioramenti
  • Jaro (1989) – formalizzazione del modello statistico: stima mediante EM
  • Belin e Rubin (1995) – modello logistico
  • Larsen e Rubin (2001) – modello mistura
  • Fortini et al. (2001) – approccio bayesiano
  • Tancredi e Liseo (2011) – approccio bayesiano gerarchico

Il record linkage probabilistico

slide55
Fortini et al. (2001) introducono la matrice

dove Cab vale 0 o 1 a seconda che (a,b) sia una coppia o meno

La matrice C ha dei vincoli di riga e colonna

Il record linkage probabilistico

obiettivo inferenziale
Obiettivo inferenziale

Ottenere delle stime di

mediante stime dei parametri oppure attraverso procedure di tipo bayesiano di natura algoritmica (Markov Chain MonteCarlo)

Il record linkage probabilistico

inferenza mediante dati abbinati
Inferenza mediante dati abbinati

L’integrazione di file mediante record linkage spesso non è un obiettivo primario, ma solo uno strumento per una varietà di applicazioni successive

Un’analisi statistica basata su dati linkati deve tener conto che i risultati possono essere affetti da errori di linkage

Occorre tener conto del trade-off tra i due tipi di errore (falsi match e falsi nonmatch) e misurare l’effetto che questi possono potenzialmente avere sulle conclusioni statistiche (sensibilità delle stime dei parametri)

Il record linkage probabilistico

inferenza mediante dati abbinati1
Inferenza mediante dati abbinati

Il linkage e le analisi successive vanno viste come parti di un unico sistema statistico: le strategie più opportune devono essere progettate di comune accordo

Analogia tra gli effetti della mancata risposta e gli errori di linkage: entrambi possono invalidare le procedure statistiche standard

Il record linkage probabilistico

inferenza mediante dati abbinati2
Inferenza mediante dati abbinati

Se l’applicazione di linkage è pianificata in anticipo (es. nelle indagini di copertura) è anche possibile richiedere informazioni ulteriori e/o migliori.

Questo è più difficile quando il linkage è eseguito a posteriori o in modo retrospettivo (es. negli studi epidemiologici).

Il record linkage probabilistico

un semplice esempio sull indagine di copertura
Un semplice esempio sull’indagine di copertura

Data set A (nA=34) contiene tutti i residenti stranieri registrati in una piccolas sezione di censimento 2001.

Data set A (nB=45) contiene tutti i residenti stranieri osservati durante la “post enumeration survey” - POS.

- Variabili di matching: prime due lettere del cognome,

sesso e livello di educazione (categorizzato).

Parametro di interesse: N, il numero di stranieri residenti nella sezione di censimento.

T è il numero di unità osservate in entrambe le occasioni

Il record linkage probabilistico

distribuzione a posteriori di n al variare di t
Distribuzione a posteriori di N al variare di T

Il record linkage probabilistico

regressione per dati linkati
Regressione per dati linkati

Consideriamo il seguente modello standard

dove è un vettore di covariate

Le variabili X sono in A e la Y è nel file B

Il processo di linkage è imperfetto e la vera coppia

(x,y) non è osservabile

Il record linkage probabilistico

regressione per dati linkati1
Regressione per dati linkati

Noi osserviamo

con

Lo stimatore naive di

è distorto …

Il record linkage probabilistico

regressione per dati linkati2
Regressione per dati linkati

Scheuren e Winkler (1993, Surv. Meth.) propongono uno stimatore migliore, cercando di stimare il bias

Gli stessi autori, nel 1997 (Surv. Meth) propongono un approccio di stima iterativo

Lahiri e Larsen (2005; JASA) hanno sviluppato un approccio alternativo basato sulla stima delle probabilità di matching qij

Il record linkage probabilistico

regressione per dati linkati3
Regressione per dati linkati

Commenti generali:

Le procedure di stima dei coefficienti tendono alla sottostima

Questo avviene perché un falso link tende a stimare – mediamente - un coefficiente di regressione pari a zero.

In pratica,

con

incognito.

Il record linkage probabilistico

regressione per dati linkati bayes
Regressione per dati linkati: Bayes

Le distorsioni del modello possono essere corrette mediante

un’impostazione bayesiana

Per semplicità assumiamo che

Questo produce la verosimiglianza

Il record linkage probabilistico

regressione per dati linkati bayes1
Regressione per dati linkati: Bayes

Idea: i metodi di SW e di LL non tengono conto di “tutta l’incertezza” insita nella fase di linkage

I metodi bayesiani basati su MCMC si basano sulla generazione di un campione di Tvalori dalla distribuzione finale (a posteriori) del parametro di interesse – C nel nostro caso.

Nel caso specifico del RL, un valore particolare di C determina QUALI sono le coppie da abbinare

Il record linkage probabilistico

regressione per dati linkati bayes2
Regressione per dati linkati: Bayes

Ad ogni iterazione t=1, … T dell’algoritmo MCMC, si effettua una regressione lineare limitata alle coppie indicate in Ct e si produce una stima

Questo produce una distribuzione delle stime dei parametri che, in qualche modo, riproduce l’incertezza di linkage , fornendo comunque uno stimatore non distorto per ma producendo una stima della variabilità più ragionevole

Il record linkage probabilistico

regressione per dati linkati piccola simulazione
Regressione per dati linkati: Piccola simulazione

Popolazione: N=100, dimensione campionaria:

na = 80; nb = 80.

3 variabili chiave indipendenti + un po’ di errore ….

  • Abbiamo poi aggiunto al file B una nuova v.a Wb N(0; 1)
  • per b = 1; … ; 80. Nel file A,
  • per ogni a in A “linkato”, abbiamo generato una v.a.
  • per ogni a in A “non linkato” si è generata una v.a.

Il record linkage probabilistico

200 repliche
200 repliche

Si confrontano tre strategie

1. distribuzione campionaria dello MLE per i tre parametri usando i veri link (benchmark) (prima riga)

2. distribuzione campionaria dello MLE per i tre parametri usando la stima puntuale di C (stima bayesiana in due passi - 2nda riga)

3. istogramma delle stime MLE calcolate ad ogni iterazione dell’algoritmo MCMC (Naive Bayesian solution) (3za riga)

Veri valori:

Il record linkage probabilistico

ad