Questo tutorial di Hadoop è tutto sulla consapevolezza del rack in Hadoop. In questo blog descriveremo tutto ciò che riguarda Rack Awareness in HDFS .
Prima di tutto studieremo cos'è la proprietà HDFS Rack Awareness, qual è la necessità di Rack Awareness in Hadoop. Quindi discuteremo il posizionamento delle repliche tramite Rack Awareness in HDFS.
Infine, discuteremo anche dei vari vantaggi di Rack Awareness nel framework Hadoop.
Introduzione alla consapevolezza del rack HDFS
Consapevolezza sui rack in Hadoop è il concetto che sceglie Datanode più vicini in base alle informazioni del rack. Per impostazione predefinita, l'installazione di Hadoop presuppone che tutti i nodi appartengano allo stesso rack.
Per migliorare il traffico di rete durante la lettura/scrittura di file HDFS in grandi cluster di Hadoop. NameNode sceglie i nodi di dati, che si trovano sullo stesso rack o su una roccia vicina per leggere/scrivere le richieste (nodo client). HDFS Namenode ottiene queste informazioni sul rack mantenendo gli ID rack di ciascun nodo dati.
Perché la consapevolezza del rack?
Lo scopo principale della consapevolezza di Rack è:
- Migliora l'affidabilità e la disponibilità dei dati.
- Migliori prestazioni del cluster.
- Previene la perdita di dati in caso di guasto dell'intero rack.
- Per migliorare la larghezza di banda della rete.
- Mantieni il flusso di massa nel rack quando possibile.
Posizionamento della replica tramite Rack Awareness in Hadoop
Lo scopo principale del posizionamento delle repliche tramite la consapevolezza del rack, la politica è migliorare l'affidabilità dei dati ecc.
Una politica semplice consiste nel posizionare le repliche sul rack per evitare la perdita di dati in caso di guasto di un intero rack. E consenti l'uso della larghezza di banda da più rack durante la lettura di un file.
Su più cluster di rack, blocca la replica segue la seguente politica:
Non posizionare più di una replica su un nodo. Inoltre, non posizionare più di due repliche sullo stesso rack. Questo ha un collo di bottiglia che il numero di rack utilizzati per la replica a blocchi dovrebbe essere sempre inferiore al numero totale di repliche a blocchi.
Ad esempio;
- Quando un framework Hadoop crea un nuovo blocco, posiziona la prima replica sul nodo locale. E posizionane un secondo in un rack diverso e il terzo si trova su un nodo diverso sul nodo locale.
- Quando si replica un blocco, se il numero di repliche esistenti è uno, posizionare il secondo su un rack diverso.
- Quando il numero di repliche esistenti è due, se le due repliche si trovano nello stesso rack, posizionare la terza su un rack diverso.
Vantaggi della consapevolezza del rack in Hadoop
Discutiamo ora di alcuni vantaggi di Rack Awareness in Hadoop HDFS-
- Fornisci maggiore larghezza di banda e bassa latenza – Questa politica massimizza la larghezza di banda della rete trasferendo il blocco all'interno di un rack anziché tra rack. YARN è in grado di ottimizzare le prestazioni del lavoro MapReduce assegnando attività a nodi più vicini ai loro dati in termini di topologia di rete.
- Fornisce protezione dei dati contro il guasto del rack – Namenode assegna le repliche di blocco di 2 e 3 blocchi a nodi in rack diversi dalla prima replica. Pertanto, fornisce protezione dei dati anche contro il guasto del rack. Tuttavia, questo è possibile solo se Hadoop è stato configurato conoscendo la sua configurazione rack.
- Riduci al minimo i costi di scrittura e massimizza la velocità di lettura – Consapevolezza del rack, la politica pone richieste di lettura/scrittura alle repliche che si trovano nello stesso rack. Pertanto, questo riduce al minimo i costi di scrittura e massimizza la velocità di lettura.
Conclusione
In conclusione, è il concetto che sceglie Datanode più vicini in base alle informazioni del rack per migliorare l'affidabilità dei dati. Lo scopo principale di Rack-Awareness è prevenire la perdita di dati in caso di guasto dell'intero rack. Migliora anche la larghezza di banda della rete. Ulteriori informazioni sulle proprietà HDFS in dettaglio.
Se hai domande relative a Rack Awareness in Hadoop, condividi con noi nella sezione commenti. Faremo del nostro meglio per aiutarti.