HBase
 sql >> Database >  >> NoSQL >> HBase

20 Differenza notevole tra Hadoop 2.x e Hadoop 3.x

L'obiettivo di questo tutorial Hadoop è quello di fornire una comprensione più chiara tra le diverse versioni di Hadoop. In questo blog abbiamo trattato le prime 20 differenze tra Hadoop 2.x e Hadoop 3.x.

Questo blog copre la differenza tra Hadoop 2 e Hadoop 3 sulla base di diverse funzionalità.

Differenza tra Hadoop 2.x e Hadoop 3.x

Apache Hadoop è un framework software open source per l'archiviazione e l'elaborazione distribuite di enormi quantità di set di dati.

Hadoop 3.x è stato introdotto per superare la limitazione di Hadoop 2.x. Hadoop 3.x ha aggiunto alcune nuove funzionalità, sebbene le vecchie funzioni siano ancora utilizzate.

Di seguito è riportato un confronto dettagliato delle funzionalità tra Hadoop 2.x e Hadoop 3.x:

a. Licenza

  • Hadoop 2 .x- Apache 2.0, open source
  • Hadoop 3 .x- Apache 2.0, open source

b. Versione minima supportata di Java

  • Hadoop 2 .x- Java 7.
  • Hadoop 3 .x- Java 8.

c. Tolleranza ai guasti

  • Hadoop 2.x- In questa versione, la replica gestisce la tolleranza agli errori.
  • Hadoop 3.x- In questa versione, la codifica di cancellazione gestisce la tolleranza agli errori.

d. Bilanciamento dei dati

  • Hadoop 2.x- Utilizza HDFS Balancer per il bilanciamento dei dati
  • Hadoop 3.x- Utilizza il servizio di bilanciamento del nodo intra-dati, che viene richiamato tramite l'interfaccia a riga di comando del sistema di bilanciamento del disco HDFS.

es. Schema di archiviazione

  • Hadoop 2.x- Utilizza lo schema di replica 3X.
  • Hadoop 3.x- Utilizza la codifica di cancellazione.

f. Spese di stoccaggio

  • Hadoop 2.x- In questa versione HDFS ha il 200% di sovraccarico nello spazio di archiviazione.
  • Hadoop 3.x- In questa versione HDFS ha un sovraccarico del 50% nello spazio di archiviazione.

g. Esempio di spese generali di archiviazione

  • Hadoop 2.x- Se ci sono 6 blocchi e la replica 3x di ogni blocco, si ottengono 18 blocchi. Occupa uno spazio di 18 blocchi.
  • Hadoop 3.x- Se ci sono 6 blocchi, allora occuperà 9 blocchi di spazio cioè 6 blocchi e 3 per parità.

h. Servizio Timeline YARN

  • Hadoop 2.x- Utilizza il vecchio servizio di sequenza temporale che presenta problemi di scalabilità.
  • Hadoop 3.x- Questa versione migliora il servizio di timeline v2. Migliora inoltre la scalabilità e l'affidabilità del servizio di timeline.

j. Intervallo di porte predefinito

  • Hadoop 2.x- In questa versione, le porte predefinite sono l'intervallo di porte temporanee di Linux. Quindi, al momento dell'avvio, non riusciranno a legarsi.
  • Hadoop 3.x- Mentre questa versione è stata spostata fuori dall'intervallo effimero.

k. Strumenti

  • Hadoop 2.x- Sono disponibili anche strumenti Hive, Pig, Tez, Hama e altri Hadoop.
  • Hadoop 3.x- In questa versione sono disponibili anche Hive, pig, Tez, Hama e altri strumenti Hadoop.

l. File system compatibile

  • Hadoop 2.x- Supporta HDFS (Default FS), File system FTP:memorizza anche tutti i suoi dati su server FTP accessibili in remoto. Supporta anche il file system WASB (Simple Storage Service) di Amazon S3.
  • Hadoop 3.x- Supporta tutto il precedente così come il filesystem di Microsoft Azure Data Lake.

m. Risorse Datanode

  • Hadoop 2.x- Per la risorsa MapReduce Datanode non è dedicata. Possiamo anche usarlo per altre applicazioni.
  • Hadoop 3.x- In questa versione anche la risorsa del nodo dati può essere utilizzata anche per altre Applicazioni.

n. Compatibilità API MR

  • Hadoop 2.x- API MR compatibile con il programma Hadoop 1.x da eseguire su Hadoop 2.X
  • Hadoop 3.x- L'API MR è anche compatibile con l'esecuzione di programmi Hadoop 1.x da eseguire su Hadoop 3.X

o. Supporto per Microsoft

  • Hadoop 2.x- Può essere distribuito su Windows.
  • Hadoop 3.x- Supporta anche Microsoft Windows.

pag. Slot/container

  • Hadoop 2.x- Hadoop 1.x funziona sul concetto di slot mentre Hadoop 2.X funziona sul concetto di contenitore.
  • Hadoop 3.x- Hadoop 3.x funziona anche sul concetto di contenitore.

q. Singolo punto di errore

  • Hadoop 2.x- Ha le caratteristiche per superare SPOF. Quindi, ogni volta che NameNode fallisce, si ripristina automaticamente.
  • Hadoop 3.x- Ha anche le caratteristiche per superare SPOF. Quindi, ogni volta che NameNode fallisce, si ripristina automaticamente senza bisogno di intervento manuale.

r. Federazione HDFS

  • Hadoop 2.x- In Hadoop 1.x solo NameNode singolo per gestire tutto lo spazio dei nomi. Ma Hadoop 2.x ha più NameNode per più Namespace.
  • Hadoop 3.x-  Ha anche più Namenode per più namespace.

s. Scalabilità

  • Hadoop 2.x- Possiamo scalare fino a 10000 nodi per cluster.
  • Hadoop 3.x- Possiamo scalare più di 10000 nodi per cluster.

t. Istantanea HDFS

  • Hadoop 2.x- Aggiunge il supporto per uno snapshot. Fornisce inoltre il ripristino di emergenza e la protezione per gli errori degli utenti.
  • Hadoop 3.x- Supporta anche la funzione snapshot.

u. Piattaforma

  • Hadoop 2.x- Serve come piattaforma per un'ampia varietà di analisi dei dati. È anche possibile eseguire operazioni di elaborazione degli eventi, streaming e in tempo reale.
  • Hadoop 3.x- È anche possibile eseguire l'elaborazione degli eventi, lo streaming e le operazioni in tempo reale sulla parte superiore di YARN.

Conclusione

In conclusione, Hadoop 3.0 ha aggiunto nuove funzionalità come la codifica di cancellazione per gestire la tolleranza agli errori. Hadoop 3.x riduce anche il sovraccarico di archiviazione dal 200% al 50%.

Ha anche introdotto un nuovo strumento da riga di comando chiamato Disk Balancer. Quindi, Hadoop 3.x ha migliorato le prestazioni complessive.

Se trovi altre differenze tra Hadoop 2.x e Hadoop 3.x, faccelo sapere nella sezione commenti.