La Cloudera Data Platform (CDP) è l'ultima offerta Big Data di Cloudera. Include Apache HBase e Phoenix come parte della piattaforma. Questi due componenti sono forniti in 3 fattori di forma:
- Per le implementazioni on-premise, sono disponibili in modo simile a CDH e HDP (all'interno dell'offerta CDP Private Cloud)
- Per i clienti che desiderano gestire autonomamente il database in AWS e Azure, è disponibile come parte dell'offerta CDP Public Cloud DataHub (con il modello di database operativo o in Custom implementazioni DataHub)
- Sarà disponibile come parte del Cloudera Operational Database (COD) a breve, un'offerta completamente gestita che elimina il sovraccarico di gestione dell'utilizzo di un'implementazione HBase
I clienti Apache HBase di Cloudera in genere eseguono applicazioni mission-critical che non possono permettersi tempi di inattività. Hanno bisogno di un modo per migrare a una nuova distribuzione senza un'interruzione della produzione o, come minimo, una piccola interruzione. Tenendo presenti queste considerazioni sull'aggiornamento, in particolare con l'imminente fine del supporto per CDH5 e HDP 2, abbiamo sviluppato il plug-in di replica OpDB di Cloudera .
Molte aziende implementano anche cluster HBase basati su CDH 6, HDP 3 ed EMR, ma stanno cercando di ridurre o eliminare il sovraccarico operativo della manutenzione dei cluster HBase. Per loro, il plug-in di replica Cloudera OpDB può consentire loro di migrare a DataHub o COD senza incorrere in tempi di inattività o interruzioni della produzione.
Il plug-in di replica supporta la replica dai seguenti cluster HBase di origine:
- CDH 5.14
- CDH 6.3
- HDP 2.6.5
- HDP 3.1.5
- EMR 5.28
Replica HBase
HBase ha fornito una capacità di replica matura e ricca di funzionalità per quasi un decennio. La replica è una delle funzionalità più popolari di HBase in quanto fornisce una soluzione di ripristino di emergenza automatico (DR), supporta la migrazione dei dati, supporta il partizionamento del carico di lavoro e/o supporta un indice secondario basato sulla ricerca tramite l'integrazione con Apache Solr. Una discussione dettagliata su come funziona la replica HBase e su come configurare la replica è spiegata nella Guida di riferimento HBase ed è stata discussa in molti articoli del blog di Cloudera. Oggi supporta molte topologie tra cui:
- Fan-in
- Fan-out
- Ciclico
- Bidirezionale
La replica HBase può essere configurata a livello di spazio dei nomi (ovvero database) o di tabella. Sebbene sia di natura quasi in tempo reale, può essere configurato per essere eventualmente coerente o coerente con la sequenza temporale.
Il plug-in di replica OpDB di Cloudera supporta solo un cluster di destinazione fornito da un cluster CDP DataHub o da un database COD, distribuito in AWS o Azure.
Stabilire la fiducia
La replica HBase fino ad oggi ha richiesto che tutti i cluster partecipanti abbiano le stesse definizioni di sicurezza, in altre parole, tutti i cluster non devono avere la sicurezza abilitata (configurazione di autenticazione impostata su semplice) o tutti i cluster devono avere la sicurezza abilitata con kerberos (configurazione di autenticazione impostata su kerberos) .
Quando viene utilizzato Kerberos, i principali Kerberos di tutti i cluster devono appartenere allo stesso reame, o se in regni diversi, quelli devono essere affidabili tra loro (comunemente noto come cross-reame autenticazione).
Configurazione di attendibilità tra regni con Kerberos è problematico nella maggior parte delle organizzazioni poiché le politiche di sicurezza aziendali in genere lo vietano. Per risolvere questo problema, il plug-in Cloudera OpDB Replication estende la replica HBase per utilizzare un metodo di autenticazione alternativo, consentendo la replica tra domini di sicurezza. Il plug-in di replica consente la replica
- Su più domini Kerberos senza richiedere l'attendibilità tra regni
- Replica da cluster sicuri a cluster non protetti e
- Replica da cluster non sicuri a cluster sicuri.
Per stabilire l'attendibilità dai cluster CDP per i cluster che non hanno configurazioni di sicurezza o sono protetti tramite Kerberos, il plug-in di replica implementa un nuovo meccanismo di autenticazione utilizzando un segreto condiviso che viene creato utilizzando uno strumento fornito e archiviato sia nel cluster di origine che in quello di destinazione.
Conclusione
La replica è uno strumento prezioso per l'implementazione di soluzioni di migrazione di DR e data center (DC) per HBase. Ha alcuni avvertimenti, come mostrato qui quando si ha a che fare con le configurazioni di sicurezza dei cluster. Con l'imminente fine vita di CDH 5 e HDP 2, la possibilità di migrare i dati da queste piattaforme legacy a CDP è fondamentale.
Per i clienti con implementazioni HBase basate su HDP3, CDH6 ed EMR 5.28, questo plug-in consente a questi clienti di adottare senza problemi una soluzione HBase completamente gestita e ridurre drasticamente il sovraccarico operativo della gestione di HBase.
Contatta il team del tuo account Cloudera se sei interessato a implementare il plug-in di replica Cloudera OpDB nel tuo ambiente.