Database
 sql >> Database >  >> RDS >> Database

Introduzione alle dimensioni a modifica lenta (SCD)

Una dimensione è una struttura che classifica una raccolta di informazioni in modo da ottenere risposte significative a domande relative a tali informazioni. Le dimensioni nella gestione dei dati e nei data warehouse contengono dati relativamente statici; tuttavia, questi dati dimensionali possono cambiare lentamente nel tempo ea intervalli imprevedibili. Questi tipi di dati dimensionali sono noti come dimensioni a modifica lenta (SCD).

In un ambiente di data warehouse, una tabella dimensionale dispone di una chiave primaria che identifica in modo univoco ogni record e altre informazioni note come dati dimensionali. La chiave primaria si collegherà a una tabella dei fatti utilizzando questa chiave. Pertanto, è importante disporre di un modello per l'aggiornamento e la gestione dei dati attuali e dei dati storici. Ci sono modelli riconosciuti che sono conosciuti dal loro tipo:

  • Tipo 1:questo modello prevede la sovrascrittura del vecchio valore corrente con il nuovo valore corrente. Nessuna cronologia viene mantenuta.
  • Tipo 2 – I record attuali e storici sono conservati e mantenuti nello stesso file o tabella.
  • Tipo 3 – I dati attuali e quelli storici sono conservati nello stesso record. L'utente decide quanta cronologia viene conservata nel record.
  • Tipo 4 – In questo modello, i dati attuali sono mantenuti in due diverse tabelle; uno per i dati correnti e uno che contiene tutti i dati storici.
  • Tipo 6:questo modello è un ibrido di Tipo 1, Tipo 2 e Tipo3.

Tutti i metodi di aggiornamento per i diversi modelli SCD possono essere eseguiti utilizzando il programma SortCL in IRI CoSort o IRI Voracity. Voracity ora fornisce anche un'unica procedura guidata per la creazione di lavori end-to-end per creare automaticamente questi programmi; vedi sotto. La maggior parte dei tipi utilizza un join esterno completo per abbinare i record dell'origine dati anagrafici con i record nell'origine degli aggiornamenti in base all'identificazione di una chiave univoca di ciascuno. I record con le corrispondenze devono essere aggiornati nel master. I record nell'origine degli aggiornamenti che non hanno una corrispondenza devono essere aggiunti al master.

I miei articoli sui diversi tipi di SCD mostrano i dati di origine o di input nei file e mostrano gli script SortCL utilizzati per aggiornare i file master. Le tabelle possono anche essere un'origine con questi script.

In ogni esempio, copro i passaggi per aggiornare una fonte dimensionale che mantenga i costi del prodotto che cambiano a intervalli irregolari. Il campo o la colonna chiave è ProductCode. Tutti i file master di origine conterranno i seguenti dati:

Il sorgente master1.dat contiene:

Codice prodotto Costo Data di inizio
C123 125,50 20110228
F112 2365.00 20120101
G101 19:25 20110930
J245 450,50 20110430
S022 98,75 20110515

I dati di aggiornamento avranno tutti lo stesso StartDate. L'origine dell'aggiornamento contiene i seguenti dati:

Codice prodotto Costo Data di inizio
F112 2425,00 20120701
J245 550,50 20120701
M447 101,75 20120701
S022 101,75 20120701

La segnalazione di SCD è discussa anche sul sito web dell'IRI qui. Consulta questi articoli specifici per gli SCD: Tipo 1, Tipo 2, Tipo 3, Tipo 4 e Tipo 6.

Nuova procedura guidata grafica SCD

Gli utenti di Voracity ora possono anche utilizzare una procedura guidata per la creazione di lavori appositamente creata per creare report sui tipi di SCD 1, 2, 3, 4 e 6 nella GUI di IRI Workbench, basata su Eclipse. La procedura guidata supporta anche l'integrazione di ordinamento, valutazione delle espressioni, aggregazione, nuova formattazione, crittografia e altro.

Dopo aver impostato il lavoro e selezionato il tipo SCD nella procedura guidata, specificare i dati principali e le informazioni di aggiornamento. Successivamente, si specificano le mappature per la destinazione, posizionando i campi in linea con i campi di origine corrispondenti e utilizzando le caselle combinate secondo necessità, si lavora con gli insiemi di campi correnti e storici. Dopo aver unito le informazioni specificate nella pagina Unisci origini, lo script appropriato viene creato ed è pronto per il diagramma, l'esecuzione, la modifica o la condivisione.

Gli articoli associati ai tipi precedenti verranno aggiornati per riflettere come la nuova procedura guidata SCD in Voracity può creare automaticamente questi lavori per te.