Questo blog ti fornisce una descrizione di Hadoop Funzionalità ad alta disponibilità HDFS. In questo blog in primo luogo discuteremo di cos'è esattamente l'alta disponibilità, come Hadoop ottiene l'alta disponibilità, qual è la necessità della funzione di alta disponibilità HDFS.
Tratteremo anche l'esempio della funzione di disponibilità elevata di Hadoop in questo tutorial Hadoop sui Big Data.
Che cos'è l'alta disponibilità Hadoop HDFS?
Hadoop HDFS è un file system distribuito. HDFS distribuisce i dati tra i nodi nel cluster Hadoop creando una replica del file. Il framework Hadoop archivia queste repliche di file sulle altre macchine presenti nel cluster.
Pertanto, quando un client HDFS desidera accedere ai propri dati, può accedere facilmente a tali dati da un numero di macchine presenti nel cluster. I dati sono facilmente disponibili nel nodo più vicino del cluster.
In alcune condizioni sfavorevoli come un guasto di un nodo, il client può accedere facilmente ai propri dati dagli altri nodi. Questa funzionalità di Hadoop è denominataAlta disponibilità .
Come viene raggiunta l'alta disponibilità in Hadoop?
Nel cluster HDFS sono presenti numerosi DataNode . Dopo l'intervallo di tempo definito, tutti questi DataNode inviano messaggi heartbeat al NomeNode . Se il NameNode smette di ricevere messaggi heartbeat da uno qualsiasi di questi DataNode, presume che sia morto.
Successivamente, controlla i dati presenti in quei nodi e quindi invia comandi all'altro nodo dati per creare una replica di quei dati su altri nodi dati. Pertanto i dati sono sempre disponibili.
Quando un client richiede un accesso ai dati in HDFS, prima di tutto NameNode cerca i dati in quei datanode, in cui i dati sono rapidamente disponibili. E quindi fornisce l'accesso a quei dati al client.
I client non devono cercare i dati in tutti i datanode. Lo stesso HDFS Namenode semplifica la disponibilità dei dati per i client fornendo l'indirizzo del datanode da cui un utente può leggere direttamente.
Esempio di alta disponibilità Hadoop
Hadoop HDFS fornisce un'elevata disponibilità dei dati. Quando il client richiede NameNode per l'accesso ai dati, il NameNode cerca tutti i nodi in cui tali dati sono disponibili.
Dopodiché, fornisce l'accesso a quei dati all'utente dal nodo in cui i dati erano rapidamente disponibili. Durante la ricerca di dati su tutti i nodi del cluster, se NameNode rileva che un nodo è morto, all'insaputa dell'utente NameNode reindirizza il utente all'altro nodo in cui sono disponibili gli stessi dati.
Senza alcuna interruzione, i dati sono messi a disposizione dell'utente. Quindi, in condizioni di guasto del nodo, anche i dati sono altamente disponibili per gli utenti.
Quali erano i problemi nei sistemi legacy?
- I dati non erano disponibili a causa di un arresto anomalo del computer.
- Il client HDFS deve attendere un lungo periodo di tempo per accedere ai propri dati. La maggior parte delle volte gli utenti devono attendere un determinato periodo di tempo prima che il sito Web si attivi.
- Funzionalità e caratteristiche limitate.
- A causa dell'indisponibilità dei dati, il completamento di molti grandi progetti presso le organizzazioni viene prolungato per un lungo periodo di tempo e quindi le aziende devono affrontare situazioni critiche.
Conclusione
Pertanto, i dati In Hadoop sono altamente disponibili e accessibili nonostante i guasti hardware dovuti a più copie di dati. Quindi, se un nodo o una macchina si arresta in modo anomalo o si interrompe, i dati possono accedere ai dati da un altro percorso. Ulteriori informazioni sulle funzionalità HDFS.
Se trovi utile questo blog su Hadoop High Availability, condividi i tuoi pensieri nella sezione commenti.