Anonimizzare gli identificatori indiretti per ridurre il rischio di re-ID

I quasi-identificatori, o identificatori indiretti, sono attributi personali che sono veri, ma non necessariamente unici, per un individuo. Esempi sono la propria età o data di nascita, razza, stipendio, livello di istruzione, occupazione, stato civile e codice postale. Confrontali con identificatori univoci diretti come il nome legale completo, l'indirizzo e-mail, il numero di telefono, l'ID nazionale, il passaporto o il numero della carta di credito, ecc.

La maggior parte dei consumatori è già consapevole dei rischi legati alla condivisione delle proprie informazioni di identificazione personale (PII) univoche. Il settore della sicurezza dei dati si concentra in genere anche su quegli identificatori diretti. Ma solo con sesso, data di nascita e codice postale è possibile identificare l'80-90% della popolazione statunitense.

Quasi tutti possono essere riidentificati da un set di dati altrimenti mascherato se rimangono sufficienti identificatori indiretti e possono essere uniti a una popolazione di superset con valori simili.

La regola del metodo di determinazione degli esperti HIPAA relativa alle informazioni sanitarie protette (PHI) e la legge FERPA sulla privacy dei dati degli studenti contemplano queste preoccupazioni e richiedono che i set di dati abbiano una probabilità statisticamente bassa di riidentificabilità (sotto il 20% è lo standard oggi). Coloro che desiderano utilizzare i dati sanitari e didattici per scopi di ricerca e/o marketing devono rispettare tali leggi, ma anche fare affidamento sull'accuratezza demografica dei quasi-identificatori affinché i dati siano preziosi.

Per questo motivo, i lavori di mascheramento dei dati nel prodotto IRI FieldShield o IRI Voracity (piattaforma di gestione dei dati) possono applicare una o più tecniche aggiuntive per offuscare i dati, pur mantenendoli sufficientemente accurati per scopi di ricerca o marketing. Ad esempio, le funzioni di sfocatura numerica creano disturbi casuali per intervalli di date e età specificati, come descritto in questo articolo.

Basandosi sull'articolo qui, questo esempio mostrerà come IRI Workbench può creare e utilizzare file di set per rendere anonimi i quasi-identificatori.

Inizia nella Generalizzazione tramite bucket Procedura guidata, disponibile dall'elenco delle regole di protezione dei dati:

Una volta aperta la procedura guidata, inizia a definire l'origine dei valori per il file impostato, incluso il formato di origine e il campo che richiede un valore di sostituzione generalizzato.

Nella pagina successiva, ci sono due tipi di sostituzioni di set file:Usa set file come gruppo e Utilizza set file come intervallo opzioni. Questo esempio fa uso di Usa file set come gruppo opzione. L'articolo sulla sfocatura dei dati mostra l'Utilizza i file impostati come intervallo opzione. I set di ricerca creati qui verranno utilizzati per pseudonimizzare i quasi-identificatori originali con il nuovo valore di generalizzazione.

Questa pagina è dove vengono creati i raggruppamenti tra ciascuno dei valori di campo quasi-identificativi originali. Sulla sinistra ci sono i valori univoci nel campo precedentemente selezionato. I gruppi possono essere creati trascinando e rilasciando i valori del gruppo a sinistra o inserendo manualmente i valori. Ogni gruppo necessita anche di un valore di sostituzione univoco. Questo è il valore che sostituirà il valore originale nel gruppo. In questo esempio, qualsiasi valore di "9th" verrà sostituito con "High School".

L'aggiunta di gruppi fino a quando tutti i valori di origine non sono coperti produce il seguente file di set di ricerca per rendere anonimo il quasi-identificatore dello stato di istruzione:

Se sono necessari livelli aggiuntivi di bucket, la procedura guidata di bucket può essere eseguita di nuovo utilizzando questo file impostato come origine.

Quando il file di set viene utilizzato in un processo di anonimizzazione dei dati, i dati di origine vengono confrontati con i valori nella prima colonna del file di set. Se viene trovata una corrispondenza, i dati vengono sostituiti con il valore nella seconda colonna. Il file impostato sopra viene utilizzato nello script sottostante alla riga 38.

L'utilizzo di Workbench per applicare cinque diverse tecniche di anonimizzazione risulta nel seguente script:

Le prime dieci righe dei dati originali sono mostrate qui:

I risultati resi anonimi dopo l'esecuzione del lavoro sono mostrati qui:

Prima di queste generalizzazioni, il rischio di reidentificazione sulla base dei valori di identificazione indiretta originari era troppo alto. Ma quando il set di risultati più generalizzato viene rieseguito attraverso la procedura guidata di punteggio del rischio per produrre un'altra determinazione del rischio di reidentificazione, il rischio è accettabile e i dati sono ancora utili per scopi di ricerca o di marketing.

In caso di domande su queste funzioni o sulla reidentificazione del punteggio di rischio, contattare .