Nota del redattore, agosto 2020:CDP Data Center è ora chiamato CDP Private Cloud Base. Puoi saperne di più qui.
Introduzione
Questo post del blog fa parte di una serie sul database operativo (OpDB) di Cloudera in CDP. Ogni post fornisce maggiori dettagli sulle nuove funzionalità e capacità. Inizia dall'inizio della serie con Database Operativo in CDP.
Questo post del blog offre una panoramica degli strumenti e delle funzionalità di amministrazione del database operativo (OpDB) nella Cloudera Data Platform. Oggi è disponibile in due fattori di forma:come offerta completamente sicura e semi-gestita in CDP Public Cloud – Data Hub e come offerta completamente personalizzabile in CDP Data Center (simile a ciò che è disponibile in CDH e HDP). Per ulteriori informazioni su Data Hub, consulta Cloudera Data Hub.
Fig 1:cluster OpDB Data Hub.
È possibile utilizzare i collegamenti in questo articolo per ottenere ulteriori informazioni e istruzioni per l'utilizzo di queste funzionalità.
Creazione e controllo database
Gli spazi dei nomi Apache HBase sono gruppi logici di tabelle simili a un database in un sistema di database relazionale tradizionale. I namespace possono essere creati o gestiti tramite Apache HBase Shell. Per ulteriori informazioni sull'utilizzo della shell Apache HBase, vedere Panoramica della shell Apache HBase.
Con Replication Manager e Ranger nell'immagine con CDP, puoi solo creare lo spazio dei nomi e gestirlo nella shell HBase. Ma le autorizzazioni sono tramite Ranger e la replica tramite Replication Manager.
Proprio come in un database relazionale, gli spazi dei nomi contengono raccolte di tabelle e autorizzazioni, impostazioni di replica e isolamento delle risorse. È possibile impostare queste configurazioni a livello di spazio dei nomi. In CDP, puoi creare uno spazio dei nomi e gestirlo utilizzando la shell HBase. È possibile utilizzare Apache Ranger per criteri di autorizzazione e audit dettagliati. Per ulteriori informazioni su come configurare la sicurezza in CDP, vedere Sicurezza tramite Ranger.
Replication Manager consente di creare criteri di replica HBase. Puoi utilizzare Replication Manager per impostare la replica tra CDH/HDP o Apache HBase su CDP Data Center.
Fig 2:Creazione dell'interfaccia utente della politica di replica
Funzionalità grafica DDL e DCL
Sono disponibili diversi strumenti a tale scopo, inclusi i plug-in per:
- Cloudera Machine Learning (CML):CML ti aiuta a eseguire query sui dati utilizzando il client HBase e Phoenix e ti aiuta nell'esplorazione, visualizzazione, condivisione e collaborazione interattive dei dati. OpDB può essere utilizzato per archiviare i risultati delle previsioni di Sessione/Lavoro/Modello per query successive da parte di più utenti diversi.
Fig 3:Interfaccia utente di Cloudera Machine Learning
- Hue:Hue è un editor di query interattivo basato sul Web che consente di interagire con i data warehouse. È possibile utilizzare l'applicazione HBase Browser in Hue per creare e sfogliare le tabelle HBase.
Fig 4:l'interfaccia Hue supporta ricerca, inserimento, aggiornamento, eliminazione, DDL per HBase
Puoi utilizzare l'interfaccia SQL utilizzando Impala o Hive per l'elaborazione delle query in Hue.
Fig 5:Interfaccia SQL che utilizza Impala
Ecco un tutorial per creare tabelle di esempio in HBase utilizzando Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/
- Eclipse:la formattazione del codice HBase per Eclipse è utile quando si modifica il codice HBase in Eclipse. Per ulteriori informazioni, vedere Creazione e sviluppo di Apache HBase.
Strumenti come Zeppelin e Hue insieme ai loro plug-in sono forniti immediatamente. Ma puoi anche utilizzare utilità SQL di terze parti come Toad.
Strumenti per l'aggiornamento del rilascio del database operativo
Puoi utilizzare Cloudera Manager per automatizzare il processo di aggiornamento del database operativo nel tuo Cloudera Data Platform-Data Center (CDP-DC). Gli aggiornamenti vengono forniti tramite versioni o patch di manutenzione. Cloudera Manager installa le versioni e/o le patch e gestisce la configurazione e il processo di riavvio.
Se utilizzi CDP su un cloud pubblico come Amazon AWS, devi creare un nuovo cluster Data hub per eseguire l'aggiornamento alle nuove versioni di vari componenti. Per ulteriori informazioni sulla creazione di un nuovo cluster data hub di database operativo, vedere Introduzione al database operativo su CDP.
L'offerta di Cloudera è un'offerta basata su cluster; gli aggiornamenti e le patch si estendono tutti su più nodi (server) e l'installazione, la configurazione e il riavvio sono tutti automatizzati, inclusi i riavvii in sequenza ove applicabile.
Strumenti di gestione delle patch su più server
Nel CDP Data Center, Cloudera Manager installa le release e gestisce la configurazione. Cloudera Manager esegue anche il processo di riavvio per ciascuno dei componenti interessati.
Applicazione patch senza tempi di inattività
Nel CDP Data Center, Cloudera Manager ti consente di applicare patch senza tempi di inattività.
Gestione del cambiamento su più server
È possibile eseguire la gestione delle modifiche sugli schemi di database su più istanze. Ad esempio, puoi farlo nel tuo ambiente di test/sviluppo, staging o produzione.
È possibile eseguire lo script delle modifiche richieste utilizzando la shell HBase, quindi propagarle alle altre istanze.
Per ulteriori informazioni sull'utilizzo della shell HBase, vedere la shell HBase di Apache.
Partizionamento del carico di lavoro
Puoi eseguire il partizionamento di carichi di lavoro/applicazioni all'interno di OpDB utilizzando diversi strumenti a seconda della natura dell'insieme di carichi di lavoro e delle loro esigenze di dati.
Se le applicazioni accedono tutte a tabelle separate, è possibile utilizzare i gruppi di server della regione per dedicare un insieme di nodi a un insieme definito di tabelle o spazi dei nomi creando un approccio di partizionamento hardware. Per ulteriori informazioni sui gruppi di server della regione, vedere Utilizzo del raggruppamento di RegionServer.
Per le applicazioni che utilizzano lo stesso set di tabelle, è possibile utilizzare la limitazione RPC, le quote utente e le quote di spazio per gestire il problema del vicino rumoroso. Vedi Gestione preventivi HBase per maggiori dettagli tecnici.
Puoi anche combinare questi due set di opzioni per avere uno schema di partizionamento più sofisticato. Utilizzare Cloudera Manager per garantire che i servizi specifici siano partizionati in modo appropriato tra i diversi nodi del cluster; ad esempio, puoi decidere quali nodi devono essere utilizzati per la ricerca SOLR, ecc.
Partizionamento hardware
Cloudera Manager e YARN sfruttano entrambi i cgroup Linux e la gestione attiva della memoria per il partizionamento statico e dinamico delle risorse hardware.
Innanzitutto, tutti i processi in esecuzione su tutti gli host possono essere partizionati hard con cgroup, impostati da Cloudera Manager. In secondo luogo, una procedura guidata consente agli utenti di definire il layout delle partizioni statiche per i servizi impostando percentuali, traducendo automaticamente la CPU basata su cgroup e l'isolamento I/O e imposta i limiti di memoria configurando i servizi stessi.
Infine, il gestore risorse nativo fornisce un modello di container per i carichi di lavoro che inserisce ogni unità di lavoro discreta in un container, utilizzando cgroup e la gestione attiva della memoria (set, monitor e kill) per l'isolamento dell'applicazione.
Hypervisor software
Sono supportati i seguenti hypervisor software
- VMware è supportato per ambienti on-premise
- Gli ambienti virtuali di Microsoft Azure (stack Azure)
- Amazon Web Services, la virtualizzazione di Google Compute Platform e Microsoft Azure sono supportati sul cloud.
Supporto contenitore e orchestrazione
Cloudera fornisce un'immagine Docker su cui sono installati Apache HBase, Apache ZooKeeper e Cloudera Manager. Puoi configurare YARN per gestire i tuoi container Docker e inviare lavori Apache HBase a YARN sullo stesso container o inviare lavori a YARN da un altro container.
Per ulteriori informazioni, consulta Gestire i contenitori Docker su YARN.
Rollback di patch o aggiornamenti di rilascio
Cloudera Manager fornisce l'automazione per alcuni dei processi di rollback. Gli aggiornamenti possono talvolta comportare modifiche ai formati dei dati. Gli strumenti per annullare le modifiche al formato non sono supportati e devi attivare un ripristino dei dati dai backup in modo che il rollback possa utilizzare i vecchi dati.
Migrazione multipiattaforma
Gli strumenti di backup/ripristino/ripristino dati standard di Cloudera sono disponibili per supportare la migrazione dell'OpDB tra diversi sistemi operativi.
Le strategie di backup e ripristino di emergenza di HBase assicurano il backup dei dati per proteggerti dalla perdita di dati. Lo snapshot HBase consente di acquisire un'istantanea di una tabella senza molto impatto sui RegionServer. Anche perché le operazioni di snapshot, clonazione e ripristino non comportano la copia dei dati.
Per ulteriori informazioni sul backup e il ripristino di emergenza di HBase, vedere strategie di backup e ripristino di emergenza di HBase.
Strumenti per l'amministratore del database (DBA)
Ci sono molti strumenti inclusi per supportare la gestione del database, tra cui:
- Gestione Cloudera
- Shell HBase
- Tonalità
- HBCK2
- hbtop
- Ranger
- Atlante
- FreeIPA
- navencrypt
- Strumenti HDFS
- FILO
Questi strumenti forniscono metriche e monitoraggio, riavvio del cluster, aggiunta di ingest, gestione del ciclo di vita, aggiornamenti, sicurezza, configurazione di Kerberos e altre funzionalità.
Fig 6:Interfaccia Cloudera Manager HBase
Fig 7:Metriche e monitoraggio in Cloudera Manager:
Fig 8:Riavvio del cluster in Cloudera Manager
Oltre a questi strumenti, puoi anche utilizzare i seguenti strumenti di amministrazione open source e di terze parti:
- hrider
- HADMIN
Apri interfacce documentate per strumenti di gestione di terze parti
Forniamo anche API aperte per consentire l'utilizzo di altri strumenti per la gestione di OpDB. Ad esempio, l'interfaccia JMX può essere utilizzata per l'integrazione con strumenti di monitoraggio di terze parti come Grafana.
Conclusione
In questo post del blog, abbiamo esaminato come utilizzare i vari strumenti e funzionalità di amministrazione forniti da OpDB in CDP. Nel prossimo articolo illustreremo come utilizzare le funzionalità di gestione in OpDB, dai un'occhiata qui.