Database
 sql >> Database >  >> RDS >> Database

Classificazione dei dati in IRI Workbench

Gli utenti degli strumenti di mascheramento PII come FieldShield, DarkShield e CellShield EE nella piattaforma IRI Data Protector Suite o Voracity possono catalogare e cercare i propri dati e applicare le funzioni di trasformazione e protezione dei dati come regole, utilizzando i dati classificazione infrastruttura nel loro IDE front-end comune, IRI Workbench, basato su Eclipse™.   

Le funzionalità di rilevamento (ricerca) dei dati da più origini in IRI Workbench possono utilizzare le classi di dati che hai definito oppure possono aiutarti ad assegnare classi di dati o gruppi di classi di dati ai tuoi dati in base ai risultati della ricerca, alle regole aziendali e/o ontologie di dominio.

È possibile utilizzare la libreria di classi di dati nelle regole del campo riutilizzabile (ad es. mascheramento dei dati). E puoi anche assegnare queste regole mentre classifichi automaticamente i dati.

Queste funzionalità offrono funzionalità di praticità, coerenza e conformità agli architetti dei dati e ai team di governance. Consulta questo articolo per un esempio end-to-end di utilizzare le classi di dati per trovare e mascherare i dati in modo coerente su più tabelle negli schemi RDB.

In questo articolo viene descritto come definire queste classi. Esistono articoli correlati sui validatori di classi di dati che possono essere utilizzati per distinguere e verificare i dati in base alle ricerche di modelli.

Diversi altri articoli nel blog IRI trattano l'applicazione delle classi di dati in vari contesti (principalmente mascheramento dei dati). Per un indice completo di questi articoli, vedere questa sezione della pagina di autoapprendimento del software IRI.

Crea classi di dati

La classificazione inizia impostando le classi di dati in Workbench Preferenze schermo, che ti consente di utilizzare le classi a livello globale, su più progetti nel tuo spazio di lavoro. Workbench ha alcune classi precaricate, incluse le classi FIRST_NAME, LAST_NAME e PIN_US utilizzate in questo esempio.

Le classi di dati funzionano abbinando (1) il nome della classe al nome del campo, (2) un modello ai dati nel campo o (3) impostano il contenuto del file rispetto ai dati nel campo. Il primo elemento viene eseguito automaticamente nel processo di classificazione, se viene selezionata tale opzione. Puoi aggiungere tutti i modelli e impostare i corrispondenti file di cui hai bisogno affinché ogni classe restituisca i risultati desiderati.

L'immissione di un'espressione regolare come nome della classe di dati è un modo aggiuntivo per trovare una corrispondenza con il nome della colonna. Ad esempio, potrebbe esserci una colonna denominata LNAME o LASTNAME. Quindi posso usare L(AST)?[_-]?NAME (sottolineatura e trattino tra parentesi) per acquisire alcune varianti di COGNOME.

Puoi anche rendere inattivi le classi e i gruppi di dati. Se hai molte classi ma desideri filtrare gli elementi non utilizzati nel tuo particolare progetto, puoi renderli inattivi. Ciò ti consente di conservarne una copia ma di non ingombrare l'elenco a discesa che utilizza queste classi.

Gruppi di classi di dati

Puoi anche avere gruppi di classi di dati. Ad esempio, il gruppo incluso "NAMES" contiene le classi di dati FIRST_NAME, LAST_NAME e FULL_NAME. Se desideri applicare una regola a più classi, puoi utilizzare un gruppo invece di selezionare le classi di dati singolarmente.

Per questo esempio, ho rimosso il carattere di sottolineatura dalla classe di dati FIRST_NAME per dimostrare l'opzione di classificazione della corrispondenza dei nomi.

Procedura guidata per la classificazione dei dati

Una volta che i corrispondenti sono stati aggiunti alle classi necessarie, è possibile eseguire la procedura guidata origine classificazione dati. La procedura guidata accetta i seguenti formati di dati:CSV, Delimitato, LDIF, ODBC o XML. Questa procedura guidata fornisce i mezzi per selezionare le origini per la tua libreria di classi di dati per la classificazione in un secondo momento.

Nella pagina di configurazione, inizia selezionando la posizione del tuo nuovo "iriLibrary.dataclass ", che è l'output di questa procedura guidata. Il nome del file è di sola lettura perché può esserci solo uno di questi tipi di file in ogni progetto. Puoi anche selezionare la casella di controllo se tutte le tue origini sono tabelle in un profilo di connessione.

Selezionando questa casella si apre una pagina di input come quella qui sotto dove puoi scegliere le tabelle da includere:

Se la casella di controllo non è selezionata, è possibile aggiungere file o sorgenti ODBC nella stessa schermata di input. In questo tipo di pagina di input, dovrai anche aggiungere i metadati per ciascuna fonte. In questo esempio ho incluso un file CSV e due tabelle Oracle.

Se è necessario cercare e classificare i dati in uno o più schemi di database completi contemporaneamente, utilizzare le procedure guidate Ricerca modello schema e Ricerca modello schema per l'associazione di classi di dati.

Facendo clic su Fine verrà creata una libreria di classi di dati con incluse le origini selezionate. L'editor del modulo della classe di dati che si apre ti consentirà di classificare i dati in tali origini.

Classificazione dei dati nelle fonti selezionate

Si avvia il processo di classificazione facendo clic su una delle origini dati per visualizzare i dettagli su tale origine. La parte superiore dello schermo ha una sezione espandibile che mostra i dettagli del file o della tabella.

La sezione di classificazione inizia con una casella di controllo per includere la corrispondenza tramite il nome del campo con il nome della classe di dati. Ad esempio, ho una classe di dati chiamata FIRSTNAME e un campo chiamato FIRSTNAME (la corrispondenza non fa distinzione tra maiuscole e minuscole).

In questo caso, il processo di classificazione selezionerà quella classe di dati per quel campo senza leggere il contenuto dei dati.

La sezione successiva visualizza una tabella contenente i nomi dei campi con caselle di controllo, una colonna per la classe di dati e una colonna per i risultati corrispondenti. La tabella inferiore è un'anteprima dei dati nell'origine. Le classi di dati necessarie dovrebbero essere state create prima di utilizzare questo editor di moduli, ma puoi aggiungerle o modificarle qui.

È possibile selezionare manualmente la classe di dati facendo clic sulla casella a discesa nella colonna della classe di dati del campo che si desidera classificare. Puoi anche fare clic su Classificazione automatica e selezionare i campi che desideri classificare. Facendo clic su OK verrà avviato il processo di classificazione automatica, che può richiedere molto tempo a seconda della quantità di dati che hai nella tua fonte.

Il processo può essere eseguito in background se si seleziona tale opzione nella finestra di dialogo standard di Eclipse visualizzata. Inoltre, puoi visualizzare lo stato del processo nella Visualizzazione avanzamento.

Al termine, la classe di dati e la mappa delle classi di dati verranno create nella libreria per i campi selezionati. In questo esempio, il processo di classificazione ha trovato una corrispondenza dell'87% nel campo SSN, dell'11% su LASTNAME e di una corrispondenza di nome su FIRSTNAME. Le percentuali indicano la quantità di dati corrispondenti nella tua fonte tramite i corrispondenti per quella classe di dati.

Se "nome" viene visualizzato nella colonna corrispondente, la classe di dati è stata abbinata in base al nome. Se hai selezionato manualmente una classe di dati, "utente" verrà visualizzato nella colonna corrispondente.

I contenuti finali della libreria sono visualizzati di seguito. Così come puoi vedere i dettagli delle fonti, puoi anche fare clic sulle classi di dati e sulle mappe per visualizzarne i dettagli.

Le mappe delle classi di dati utilizzano riferimenti alle classi e ai campi di dati, motivo per cui la libreria archivia le origini e le classi di dati, oltre alla mappa stessa. L'eliminazione di un'origine o di una classe di dati rimuoverà anche qualsiasi mappa della classe di dati associata che fa riferimento all'elemento eliminato.

Quando si fa clic su Rimuovi, viene visualizzato un avviso per ricordartelo. Il processo può essere ripetuto sulle altre sorgenti incluse e possono essere aggiunte sorgenti aggiuntive in qualsiasi momento.

I risultati della classificazione di questa libreria possono ora essere utilizzati per applicare regole di campo a tali origini dati. Il processo è spiegato nel mio prossimo articolo sull'applicazione delle regole di campo utilizzando la classificazione.