HBase
 sql >> Database >  >> NoSQL >> HBase

Versione CDH 6.2:Novità di HBase

Cloudera ha recentemente lanciato CDH 6.2 che include due nuove funzionalità chiave in Apache HBase:

  1. Replica seriale
  2. Ora la cache del bucket supporta la memoria Optane di Intel

Replica seriale

HBase dispone di un sofisticato meccanismo di replica asincrono che supporta topologie complesse oggi che includono topologie round-robin globali, a due vie, span-in e span-out.

Questa capacità di replica, ad oggi, fornisce un'eventuale coerenza, il che significa che l'ordine in cui vengono replicati gli aggiornamenti non è necessariamente lo stesso dell'ordine in cui sono stati applicati al database. Sebbene ciò abbia funzionato per molti clienti, l'ordine degli aggiornamenti sull'endpoint di replica è stato importante per molti casi d'uso.

La funzione di replica seriale fornisce coerenza temporale per la replica. In altre parole, l'ordine degli aggiornamenti viene mantenuto tramite la replica nel cluster di destinazione. Questa coerenza comporta un leggero costo e, in alcuni casi, gli utenti potrebbero scoprire che la replica è leggermente più lenta dell'approccio di replica predefinito.

La configurazione di questa opzione è abbastanza semplice (impostare il flag SERIAL su true) e può essere applicata al momento dell'impostazione della replica o in qualsiasi momento successivo a livello di tabella, livello di spazio dei nomi o per un peer che replica tutte le tabelle in HBase.

Cache del bucket HBase

La cache del bucket di HBase è una cache a 2 livelli progettata per migliorare le prestazioni pronte in una varietà di casi d'uso. Il primo livello si trova nell'heap Java e il secondo livello della cache può risiedere in diverse posizioni, tra cui:memoria off-heap, memoria Intel Optane, SSD o HDD.

La configurazione consigliata per il secondo livello della cache del bucket per la maggior parte dei clienti è stata off-heap. Le distribuzioni in questa configurazione sono in grado di scalare fino a dimensioni di memoria molto maggiori rispetto a quanto è possibile con la cache integrata nell'heap, poiché il motore fuori dall'heap evita la pressione della Garbage Collection di JVM. La maggiore dimensione della cache fornisce prestazioni di lettura HBase notevolmente migliorate.

A partire da CDH 6.2, Cloudera ora include la possibilità di utilizzare la memoria Optane recentemente rilasciata da Intel come destinazione alternativa per il 2° livello della cache del bucket. Questa configurazione di distribuzione consente di avere una dimensione della cache di circa 3 volte superiore a un costo costante (rispetto alla cache off-heap su DRAM). Incorre in una certa latenza aggiuntiva rispetto alla tradizionale configurazione off-heap, ma i nostri test indicano che consentendo a più (se non tutti) del working set dei dati di adattarsi alla cache, l'impostazione si traduce in un netto miglioramento delle prestazioni quando i dati viene infine archiviato su HDFS (utilizzando HDD).

Quando si esegue la distribuzione nel cloud o si utilizza l'archiviazione di oggetti in locale, il miglioramento delle prestazioni sarà ancora migliore poiché l'archiviazione di oggetti tende a essere molto costosa per le letture casuali di piccole quantità di dati. La tabella seguente fornisce un'idea del compromesso tra costi, dimensioni e latenza richiesti quando si pianifica come configurare il secondo livello della cache del bucket.

Archiviazione Costo $/GB Taglia (costo costante) Latenza
DRAM fuori heap 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0,15 233,3 GB 10-100 µs
HDD² 0,027 1,3 TB 4-10 ms
Archiviazione oggetti³ 0,006 5,8 TB 10-100 ms

Leggi questo blog per saperne di più sulla collaborazione tra Intel e Cloudera sull'utilizzo della memoria persistente Optane DC per il miglioramento delle prestazioni.

Riferimenti:

  1. Panoramica delle prestazioni della memoria persistente di Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minuto 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-prezzi-prestazioni,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ prodotti/unità-data-center#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf