Una delle principali preoccupazioni dei DBA che devono scaricare big data da tabelle di database molto grandi (VLDB) è la velocità. Lo scarico più rapido rende i dati accessibili in diverse forme per scopi e piattaforme diverse. Più velocemente vengono acquisiti i dati, più velocemente possono essere elaborati e consegnati. Il risultato finale è un tempo più rapido per la soluzione, e quindi la produttività e la competitività delle aziende che traggono profitto dalle informazioni.
La maggior parte degli strumenti e dei metodi disponibili attualmente utilizzati per estrarre i dati da tabelle dei fatti di grandi dimensioni sono semplicemente troppo lenti. Quelli che pretendono di essere più veloci sono complicati, proprietari o richiedono l'acquisto di un costoso pacchetto ETL. Il passaggio a un paradigma ELT o Hadoop comporta importanti spese hardware (o DB appliance), tassa il DB sottostante che si sta trasformando e impone curve di apprendimento ripide e oneri di manutenzione.
Non ci sono altre opzioni per i processi di scarico e downstream che siano più veloci, più semplici e più convenienti?
Perché scaricare le tabelle VLDB?
In primo luogo, sono molti i motivi per cui dovresti scaricare in blocco i dati da queste tabelle:
Migrazione del database :più velocemente puoi estrarre i dati dai database legacy, più velocemente puoi mappare e spostare i dati nei nuovi database. Lo spostamento in blocco dei dati sarebbe vantaggioso se i volumi di dati sono enormi, c'è un vantaggio per la trasformazione, la protezione e/o l'analisi offline (che è possibile contemporaneamente in IRI CoSort) e quando i carichi di massa preordinati sono l'unico modo per soddisfare Scadenze SLA.
Riorganizzazione database :Scarica, ordina, ricarica per mantenere il database funzionante in modo efficiente e ottimizzare le query comuni mantenendo le tabelle in ordine di join. Lo scarico viene eseguito in riorganizzazioni off-line o esterne. Guarda questo confronto sui metodi di riorganizzazione offline e online.
Integrazione dei dati :le operazioni di estrazione-trasformazione-carico (ETL) DW su larga scala iniziano con l'estrazione di tabelle nell'area di gestione temporanea dei dati. I dati scaricati dalle tabelle e mescolati con set di dati mainframe, registri Web e altri file flat possono essere integrati ed elaborati in modo più efficiente nel file system. Le trasformazioni esterne tramite non sono solo più efficienti perché più azioni possono essere organizzate in un singolo passaggio di I/O, ma perché il sovraccarico di calcolo di tutto questo lavoro viene rimosso dal database (vedi ETL vs. ELT).
Replica/Archivio dati :Scaricando le tabelle dei fatti, i dati operativi di Golden Source possono essere duplicati e archiviati in un formato portatile. I dati nei file flat possono essere interrogati, manipolati e riformattati con strumenti come IRI NextForm o CoSort e utilizzati per popolare altri database e applicazioni. Allo stesso modo, un repository accessibile di questi dati può anche essere archiviato offline per il ripristino e il recupero di backup o la distribuzione a parti che richiedono l'accesso ai dati in un ambiente diverso.
Intelligenza commerciale :può essere più rapido e semplice importare i dati operativi in Excel e altri strumenti BI in formati di file flat come CSV e XML piuttosto che tentare di collegare la tabella e un foglio di calcolo o un cubo BI. Scaricare le tabelle in file flat, quindi, è un passaggio iniziale ed efficiente nel franchising di dati:la preparazione dei dati per le operazioni di BI.
Uno sguardo ai metodi di scaricamento
I metodi di estrazione VLDB variano in termini di prestazioni e funzionalità. Una buona utility per scaricare i big data da Oracle e altri importanti DB deve essere efficiente, facile da usare e supportare alcune funzioni di riformattazione che non ingombrano il processo.
Il comando SQL SPOOL può eseguire il dump dei dati in un file flat, ma in genere ha un volume lento. Le utility native come l'export di Oracle o il data pump sono più veloci, ma producono estratti proprietari che possono essere reimportati solo nello stesso database e non possono essere analizzati come farebbe un file flat.
Se devi scaricare rapidamente tabelle di grandi dimensioni su file flat portatili, considera IRI FACT (Fast Extract) per Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero, ecc. FACT utilizza il parallelismo e protocolli di connessione al database nativi (come Oracle OCI ) per ottimizzare le prestazioni di estrazione. La GUI FACT gratuita (procedura guidata) che fa parte di IRI Workbench, basata su Eclipse™, presenta le tabelle e le colonne disponibili per estrarre e utilizza la sintassi SQL SELECT.
Un altro vantaggio dell'utilizzo di FACT è l'integrazione dei metadati con il programma SortCL in IRI Voracity per trasformare, proteggere, indirizzare e persino creare report sugli estratti di file flat. FACT crea anche il file di controllo dell'utilità di caricamento in blocco del database in previsione dei ripopolamenti della stessa tabella utilizzando file flat pre-CoSorted in operazioni ETL o riorganizzazione su larga scala.