Questo post del blog fa parte di una serie sul database operativo (OpDB) di Cloudera in CDP. Ogni post fornisce maggiori dettagli sulle nuove funzionalità e capacità. Inizia dall'inizio della serie con Database Operativo in CDP.
L'OpDB di Cloudera offre un ricco set di funzionalità per archiviare e accedere ai dati. In questo post del blog, esamineremo le funzionalità di accessibilità di OpDB e come puoi utilizzare queste funzionalità per accedere ai tuoi dati.
Distribuzione e partizionamento orizzontale
Il database operativo (OpDB) di Cloudera è un sistema di gestione dei database (DBMS) a scalabilità orizzontale progettato per scalare linearmente fino a Petabyte di dati. Come tutti i DBMS, lo scale-out viene implementato tramite lo sharding. Sono supportati due diversi criteri di partizionamento orizzontale:
- Sharding automatico
- Sharding predefinito
Indipendentemente dall'approccio, esistono API per abilitare il partizionamento orizzontale in base all'hash, all'intervallo di valori e alla combinazione di entrambi.
Partizionamento orizzontale automatico
Quando è abilitato il partizionamento automatico, le tabelle vengono distribuite dinamicamente nel cluster e quando una dimensione dello shard supera il limite configurabile, viene automaticamente suddivisa e spostata tra i server in un cluster.
Un segmento della tabella è diviso in due nella chiave centrale, creando due metà più o meno uguali e queste due metà possono essere servite da server diversi.
Il partizionamento orizzontale automatico viene applicato indipendentemente dalla rete utilizzata con OpDB (WAN o locale). I cluster possono essere impostati per estendersi su una WAN, nel qual caso lo sharding e lo spostamento dei dati si verificherebbero attraverso la WAN senza perdita di dati.
Il sistema può essere configurato per essere a conoscenza di quali nodi si trovano in quali data center, il che fornisce ulteriore resilienza per gli shard poiché le copie degli shard possono essere distribuite su più data center.
Partizionamento orizzontale predefinito
Gli shard possono essere limitati a sottoinsiemi specifici di nodi in un cluster in base a criteri, in genere in modo specifico del tenant. Ciò consente l'attuazione di politiche geografiche. Quindi le tabelle possono essere replicate tra cluster e impostate da criteri per garantire che la replica delle tabelle e degli shard associati sia limitata alle aree geografiche desiderate.
OpDB di Cloudera fornisce supporto nativo per la sovranità dei dati. Se un cluster si estende su più paesi, i gruppi di server regionali possono essere utilizzati per ancorare i dati in paesi specifici insieme alla configurazione dell'isolamento del rack HDFS.
Query
Cloudera fornisce tre motori di query ottimizzati per diversi tipi di casi d'uso, sia operativi che analitici, e interfacce NoSQL per consentire prestazioni ottimizzate su un'ampia gamma di carichi di lavoro sia operativi che di data warehouse. Ciò consente l'esecuzione di query e join di dati su più shard.
L'OpDB di Cloudera fornisce un motore SQL OLTP nativo che supporta l'esecuzione di query su più dati e modelli a oggetti, incluse query e join su di essi. Due dei nostri motori di query OLAP possono essere utilizzati per mappare tabelle esterne che risiedono all'interno del nostro OpDB (o in altre posizioni) e possono eseguire query o unire su di esse per query analitiche più complesse tipiche del data warehousing
Strumenti di integrazione dei dati
Cloudera fornisce più strumenti per consentire l'integrazione con il data warehousing e l'elaborazione federata delle query.
Ad esempio:
- L'esportazione in blocco in un data warehouse è fornita da Flink, Spark, Hive e MapReduce
- L'esportazione in streaming in un data warehouse è fornita da Nifi
- La query di dati in situ all'interno del nostro OpDB è fornita da Phoenix, Impala e Hive
- L'elaborazione federata delle query attraverso il nostro OpDB, la soluzione di data warehouse e le soluzioni di data warehouse di terze parti è fornita da Hive
Supporto dati esterno
L'OpDB di Cloudera include molti strumenti Hadoop e si integra con la maggior parte dell'ecosistema Hadoop.
Il nostro OpDB fornisce interfacce NoSQL e SQL. Non ci sono restrizioni su questa interfaccia ed è molto ben supportata nella comunità Hadoop.
OpDB mobile
MiNiFi può essere utilizzato su dispositivi portatili all'edge e fornisce connettività dati con OpDB.
L'editor di query HUE può essere eseguito su un dispositivo mobile o portatile.
Connettività standard
Cloudera fornisce driver JDBC e ODBC forniti tramite i nostri motori SQL, oltre all'accesso API diretto ai nostri data-store e strumenti.
Il prossimo passo
In questo post del blog, abbiamo esaminato alcune delle funzionalità di accessibilità di OpDB come query di dati, integrazione dei dati e connettività. Nel prossimo articolo, tratteremo come utilizzare le funzionalità di amministrazione in OpDB, trovalo qui.
Per ulteriori informazioni, visitare:Guida introduttiva al database operativo.