Una volta che un database supera una certa dimensione, diventa costoso, e rischioso dal punto di vista della sicurezza, fornire copie a grandezza naturale per lo sviluppo, il test e la formazione. La maggior parte dei team ha bisogno di copie più piccole del database più grande e spesso le PII all'interno sono nascoste.
Il sottoinsieme del database è quel processo di creazione di una copia più piccola e referenzialmente corretta di un database più grande da estrazioni di tabelle reali. I sottoinsiemi possono essere utilizzati con o al posto di mascherare i dati o sintetizzare i dati di test per ridurre i costi ei rischi associati agli insiemi completi. Il processo di creazione manuale di sottoinsiemi significativi è complesso e laborioso, considerando che dovresti popolare database più piccoli con campioni casuali da ciascuna tabella di produzione e assicurarti che qualsiasi struttura relazionale tra le tabelle sia ancora corretta nel sottoinsieme.
Una procedura guidata di sottoimpostazione del database end-to-end in IRI Workbench rende questo processo più rapido e semplice. La procedura guidata è disponibile per gli utenti con licenza della piattaforma di gestione dei dati IRI Voracity, IRI RowGen per la generazione dei dati di test e IRI FieldShield per il mascheramento dei dati. Questo articolo introduce la procedura guidata e mostra come crea sottoinsiemi corretti dal punto di vista referenziale, con opzioni per il mascheramento delle colonne e la crittografia di conservazione dei campi.
La procedura guidata per la creazione di sottoinsiemi richiede all'utente di selezionare l'origine del sottoinsieme, la dimensione e l'ordinamento dello stesso, i nomi per le destinazioni del sottoinsieme e qualsiasi crittografia o mascheramento che i dati del sottoinsieme dovrebbero ottenere. La procedura guidata crea quindi una serie di script di lavoro che creano tabelle di sottoinsiemi o file flat.
Opzioni lavoro
Questa pagina definisce il tipo di output. Se il caricatore viene lasciato vuoto, verrà creato un file flat con un delimitatore di tabulazione. Per le opzioni del database, è possibile selezionare ODBC o il caricatore di database specifico.
Opzioni sottoinsiemi
In questa pagina si specificano i dettagli del sottoinsieme. Selezionare il profilo di connessione e la tabella che "guiderà" il sottoinsieme creato. Pensa alla tabella guida come alla tabella principale da cui vuoi che abbia origine il sottoinsieme. Ad esempio, se si desidera sottoimpostare una tabella delle vendite e tutte le tabelle ad essa collegate, selezionare qui la tabella con le informazioni sulle vendite. Inoltre, seleziona la dimensione del sottoinsieme. Ad esempio, per ottenere un sottoinsieme delle 100 quantità più alte vendute, devi ordinare nel campo della quantità venduta (come in questo esempio) e inserire 100 nel numero di righe. È inoltre possibile aggiungere un filtro sulla tabella dei driver.
Ordinamento
In questa pagina si specifica l'ordinamento del sottoinsieme. Se vuoi che le righe vengano selezionate casualmente, tuttavia, lascia vuoto l'elenco Campi chiave.
La pagina Ordina ha 3 sezioni degne di nota:
- L'elenco dei campi di input
- L'elenco dei campi chiave
- Opzioni chiave
Passi:
- Se desideri un sottoinsieme di dati ordinati, seleziona la colonna in base alla quale eseguire l'ordinamento e fai clic su "Aggiungi chiave".
- Sono disponibili alcune opzioni nella casella Opzioni chiave:
- Seleziona la casella di controllo Stabile per duplicare i record da caricare nell'ordine in cui si trovano nella tabella di produzione.
- Se non desideri duplicati o solo duplicati nel tuo sottoinsieme, seleziona la casella di controllo Duplicati e il pulsante di opzione appropriato.
Denominazione del target
Questa pagina viene visualizzata se il tipo di output è un database. Ha due funzioni. La prima permette di visualizzare le relazioni della propria tabella driver. Il secondo consiste nel nominare le destinazioni di output per il sottoinsieme.
La pagina Target Naming ha 5 sezioni degne di nota:
- Il profilo e lo schema di destinazione
- La modalità di output è sempre creata poiché questo lavoro troncherà tutte le tabelle esistenti con lo stesso nome
- Opzioni SQL per il lavoro
- Le opzioni di denominazione
- L'elenco dei riferimenti
Passi:
- Seleziona il profilo di connessione.
- Seleziona lo schema.
- Specificare le opzioni SQL.
- Seleziona l'opzione di denominazione per assegnare un nome alle destinazioni del sottoinsieme. Se viene utilizzato un profilo o uno schema diverso, questo passaggio è facoltativo:
- Prefisso tutto aggiunge un prefisso a ogni nome di tabella e lo imposta come destinazione di quella tabella.
- Postfix tutto aggiunge un suffisso a ogni nome di tabella e lo imposta come destinazione di quella tabella.
- Nomina individualmente consente a ciascun target di sottoinsieme di essere nominato indipendentemente dagli altri target.
- Esamina il Riferito da e Riferimenti liste per verificare che le relazioni della tabella siano state trovate correttamente:
- Nel Importato da list, vengono elencate tutte le tabelle da cui è stata importata la tabella scelta.
- In Importazioni list, vengono elencate tutte le tabelle con cui la tabella scelta ha una relazione.
Regole
In questa pagina, le regole possono essere aggiunte a qualsiasi destinazione. In questo esempio, è stato aggiunto un abbinamento di regole a tutti i campi che terminano con la parola "NAME". La regola verrà applicata alla tabella di destinazione corrispondente. Questa regola maschererà questi due campi con asterischi. Bisogna fare attenzione a non includere regole sui campi di chiave esterna.
Riepilogo
Questa pagina riassume il lavoro. Visualizza chiaramente le colonne che corrispondono a una regola e le tabelle di destinazione che corrispondono alle tabelle di origine se non esistono. Tieni presente che Verrà creato un DDL per tutte le nuove tabelle.
Una volta che tutte queste pagine sono state completate, puoi selezionare Fine. La procedura guidata creerà quindi script di lavoro e un file batch eseguibile per Windows o Unix che puoi avviare da Workbench o dalla riga di comando per estrarre sottoinsiemi dalla tabella del driver e dalle relative tabelle.
Ecco un diagramma di flusso che mostra le otto attività create per il lavoro in Voracity:
Contatta [email protected] in caso di domande.