Database
 sql >> Database >  >> RDS >> Database

Profilazione database in IRI Workbench

Aggiornamento:Q2'16 :oltre alla procedura guidata di profilatura del database nel gruppo di menu di rilevamento dei dati in IRI Workbench descritto di seguito, IRI ha introdotto una solida classificazione dei dati che consente l'applicazione di regole di campo per la trasformazione e la protezione dei dati da più origini tramite librerie di classi di dati. Aggiorna Q2'18 :IRI ha anche introdotto una procedura guidata di ricerca del modello a livello di schema per trovare PII corrispondenti a valori regolari o letterali in più tabelle contemporaneamente. Aggiorna Q2'19 :IRI ora fornisce anche la ricerca di classi di dati inter/intra-schema e mascheramento per gli utenti IRI FieldShield o Voracity. E l'IRI ha appena pubblicato questo articolo per mostrare come i risultati del profilo del DB di seguito vengono visualizzati in Splunk.

Con più dati raccolti da più aspetti del business oggi, una facile consapevolezza del loro contenuto e della natura è fondamentale per garantire la qualità, la quantità e la sicurezza di queste raccolte. La profilazione dei dati è il processo di scoperta essenziale che ti aiuta ad analizzare, classificare, ripulire, integrare, mascherare e generare rapporti sui dati nei tuoi repository.

Oltre alle procedure guidate per il rilevamento dei dati oscuri e strutturati (e la definizione dei metadati), insieme ai diagrammi E-R tra DB in Eclipse, il nuovo strumento di profilazione tra DB in IRI Workbench consente agli utenti di esaminare la struttura e la completezza dei dati del database e di convalidarli i dati corretti vengono archiviati nei posti giusti. In questo articolo esamineremo questo strumento e mostreremo come fornisce risultati di ricerca con valori di tabella e metadati statistici.

Per accedere a Database Profiler, vai alla tabella a cui desideri accedere in Esplora origine dati. Fai clic con il pulsante destro del mouse sulla tabella e passa il mouse sull'opzione IRI. Nel menu visualizzato, seleziona Nuovo profilo database .

Nella prima pagina della procedura guidata, imposta la posizione e la destinazione del lavoro e seleziona l'output del rapporto del profilo, come file .csv o .txt, o entrambi.

  • il formato .csv è utile per l'importazione in nuove tabelle e database, mentre
  • il formato .txt è un rapporto preformattato, utile per rivedere risultati rapidamente.

Informazioni di profilazione statistica

Verrà visualizzata la parte successiva della procedura guidata con due tabelle:

  1. La tabella in alto è un elenco di tutte le tabelle nel database, con la tabella che ha avviato la procedura guidata evidenziata per impostazione predefinita.
  2. Questa casella di controllo consente un'opzione con un clic per eseguire la scansione di ogni tabella e riga nel database.
  3. La tabella in basso mostra le opzioni di profilatura, seguite dalle colonne della tabella evidenziata in cui scegli di eseguire le opzioni.

Fare clic su qualsiasi tabella nell'elenco che si desidera visualizzare e profilare. La matrice delle opzioni cambierà automaticamente per rappresentare le colonne della tabella selezionata. Esistono diversi modi per gestire le opzioni di visualizzazione:

  • Per tutte le opzioni, fai clic sulla casella di controllo in alto nella tabella, denominata Tutti, e tutti i metadati verranno segnalati.
  • Solo per le opzioni di base (conteggio e valori), seleziona la casella di controllo Nozioni di base.
  • Solo per le opzioni di lunghezza (lunghezze valore), seleziona la casella di controllo Lunghezze.

Se hai molte colonne nella tabella e desideri selezionare la stessa opzione per tutte, fai clic sul nome dell'opzione stessa e tutte le colonne avranno quell'opzione selezionata. Puoi deselezionare le colonne all'interno dell'opzione.

Una volta impostato tutto, fai clic su Fine e quindi il profilo verrà generato per te.

Ricerca per espressioni

Una scelta unica nella tabella delle opzioni è -Expression Search-. Questa opzione ti consente di cercare nelle colonne in una varietà di opzioni di ricerca. Queste opzioni sono:

  • Espressioni regolari (ricerca modello). Questo individua e conta il numero di volte in cui un valore corrisponde al formato di un modello di ricerca.
  • Stringa sfocata. Questa opzione ti consente di cercare stringhe simili a quelle immesse e di selezionare o specificare condizioni di ricerca.
  • File di valori. Questa opzione ti consente di confrontare una stringa con ogni stringa in un set di file e contare ogni stringa che ha una corrispondenza.

La pagina Ricerca espressioni ha 6 sezioni importanti

  1. Una casella combinata Tipo di ricerca per selezionare il tipo di ricerca da eseguire.
  2. Il gruppo di opzioni che cambia a seconda del tipo di ricerca selezionato
    • Espressione regolare:ha due pulsanti; sfoglia che sfoglia le espressioni regolari esistenti e Crea... che consente la creazione di nuove espressioni regolari.
    • Stringa Fuzzy:ha una casella di conteggio che specifica la soglia della ricerca fuzzy (quanto devono essere vicine le stringhe per essere considerate una corrispondenza) e una casella combinata per selezionare l'algoritmo di ricerca fuzzy da utilizzare.
    • File valori:ha un pulsante Sfoglia... che ti permette di cercare il file di set da utilizzare per la ricerca del valore.
  3. Una casella di testo in cui inserire i dati per la ricerca.
  4. Un elenco a discesa delle tabelle a cui è possibile applicare la ricerca di espressioni.
  5. Un elenco a discesa delle colonne a cui puoi applicare l'espressione di ricerca.
  6. Una tabella che elenca le ricerche che hai creato che verranno eseguite dal profiler.

Per creare un filtro di espressione regolare:

  1. Dalla combinazione Tipo di ricerca, seleziona Espressione regolare .
  2. Fai clic su Sfoglia a (la tua libreria di espressioni salvate) o fai clic su Crea  per specificare un'espressione regolare da utilizzare nella ricerca dei valori di una colonna.
  3. Nel menu Tabella, seleziona la tabella che contiene la colonna da filtrare.
  4. Nel menu Colonna, seleziona la colonna a cui applicare l'espressione regolare.
  5. Fai clic su Aggiungi alla tabella e nella tabella sottostante verrà visualizzato un elemento che contiene il nome del file, il nome della colonna, l'origine della ricerca, la soglia e l'etichetta dell'espressione regolare che costituiscono il filtro.
  6. Ripeti questo processo per ogni colonna a cui vuoi aggiungere un filtro. Se hai troppe colonne per rendere praticabile questo processo, puoi comunque scansionare automaticamente più colonne e tabelle, per i dati corrispondenti ai tuoi schemi in un intero schema di database, utilizzando invece questa procedura guidata.

Per creare una ricerca di stringhe fuzzy:

  1. Dalla combinazione Tipo di ricerca, seleziona Stringa fuzzy .
  2. Digita la stringa da utilizzare per la ricerca.
  3. Seleziona il numero di risultati da restituire (questa opzione apparirà quando è selezionata la ricerca Fuzzy).
  4. Seleziona il Tipo di ricerca fuzzy da utilizzare (questa opzione apparirà quando si seleziona la stringa Fuzzy).
  5. Nel menu Tabella, seleziona il file  che contiene la colonna per la ricerca fuzzy.
  6. Nel menu Colonna, seleziona la colonna su cui eseguire la ricerca fuzzy.
  7. Fai clic su Aggiungi alla tabella e nella tabella sottostante verrà visualizzato un elemento che contiene il nome del file, il nome della colonna, l'origine della ricerca, la soglia e il tipo di ricerca della ricerca fuzzy da eseguire.
  8. Ripeti questo processo per ogni colonna in cui desideri eseguire una ricerca di stringhe fuzzy.

Per creare una ricerca in un file di valori:

  1. Dalla combinazione Tipo di ricerca, seleziona File valori .
  2. Fai clic su Sfoglia per selezionare un set di file rispetto al quale verrà verificata la colonna.
  3. Nel menu Tabella, seleziona la tabella che contiene la colonna da filtrare.
  4. Nel menu Colonna, seleziona la colonna a cui applicare l'espressione regolare.
  5. Fai clic su Aggiungi alla tabella e nella tabella sottostante verrà visualizzato un elemento che contiene il nome del file, il nome della colonna, l'origine di ricerca, la soglia e l'etichetta di ricerca dell'elenco di valori che costituiscono il filtro.

Verifica dell'integrità referenziale

Un'altra scelta nella tabella delle opzioni è -Verifica integrità referenziale-. Questa opzione consente al profiler di confrontare una o più colonne con un'altra colonna e determinare se le colonne hanno l'integrità referenziale. Per utilizzare questa funzione, seleziona le caselle -Verifica integrità referenziale- sulle colonne per confrontare l'integrità referenziale. Il pulsante Avanti si attiverà e consentirà di specificare i parametri per il controllo di integrità referenziale (vedi sotto per i dettagli).

Se hai selezionato l'opzione Verifica integrità referenziale per una qualsiasi delle tue colonne, fai clic su Avanti per andare alla pagina Verifica integrità referenziale. Questa pagina ha le seguenti caratteristiche:

  1. Due caselle combinate, una per selezionare la tabella in cui si trova la chiave primaria, l'altra per specificare la colonna della chiave primaria.
  2. Due caselle combinate, una per selezionare la tabella in cui si trova la chiave esterna, l'altra per specificare la colonna della chiave esterna. C'è anche un pulsante per aggiungere la chiave esterna a un elenco di chiavi esterne da confrontare con la chiave primaria.
  3. Un pulsante Crea controllo integrità per aggiungere le colonne primarie ed esterne all'elenco sottostante.
  4. Un elenco che memorizza tutti i controlli di integrità referenziale che verranno eseguiti dal profiler.


Per creare un controllo di integrità referenziale:

  1. Nella casella combinata della tabella in Colonna chiave primaria, seleziona la tabella in cui si trova la chiave primaria.
  2. Nella casella combinata della colonna in Colonna chiave primaria, seleziona la chiave primaria.
  3. Nella casella combinata della tabella in Colonna chiave esterna, seleziona la tabella in cui si trova la chiave esterna.
  4. Nella casella combinata della colonna in Colonna chiave esterna, seleziona la chiave esterna.
  5. Fai clic sul pulsante Aggiungi all'elenco delle chiavi esterne...
  6. Ripeti i passaggi 3-5 per ogni chiave esterna da confrontare con la chiave primaria
  7. Fai clic sul pulsante Crea controllo di integrità...
  8. Ripetere le procedure di cui sopra per ogni controllo di integrità referenziale da eseguire.

Output del profilo di esempio

 .csv visualizzato in LibreOffice / .txt visualizzato in EditPad Lite