Database
 sql >> Database >  >> RDS >> Database

Perché imparare Cassandra con Hadoop?

"Le aziende si stanno rendendo conto che possono estrarre preziose informazioni aziendali per migliorare il processo decisionale e ottenere un vantaggio competitivo. Strumenti come Hadoop e Cassandra stanno rendendo tutto questo possibile e, per questo, le competenze NoSQL a tutti i livelli sono estremamente richieste". – Analisti su TechRepublic

Sviluppato come progetto interno a Facebook per potenziare la funzione di ricerca della Posta in arrivo, Cassandra è un Sistema di gestione di database distribuito open source . È stato rilasciato come progetto open source su Google Code nel 2008 e successivamente è diventato un progetto di primo livello presso la Apache Software Foundation dal 2010.

Cassandra è la prossima GRANDE cosa:

  • Apache Cassandra è progettato per gestire enormi quantità di dati (in termini di velocità, volume e varietà) su numerosi server di prodotti che garantiscono un'elevata disponibilità e non forniscono SPOF (Single Point of Failure).
  • Cassandra offre anche un potente supporto per cluster che si estendono su più data center. L'assenza di una "struttura master-slave", come le architetture tradizionali, consente zero impatto sul sistema in caso di guasto di un particolare nodo.
  • I ricercatori dell'Università di Toronto che stanno conducendo uno studio sui sistemi NoSQL affermano che in termini di scalabilità e throughput massimo per nodo , Cassandra emerge come un chiaro vincitore. L'obiettivo principale di NoSQL DBMS è garantire la scalabilità , Rendimento e Alta disponibilità. Come la maggior parte dei DBMS NoSQL, Cassandra può gestire sia dati strutturati che non strutturati e si comporta molto bene con i parametri di cui sopra.
  • Cassandra può fungere sia da datastore in tempo reale ("il Sistema di registrazione") per applicazioni online/transazionali e come Banca dati ad alta intensità di lettura per i sistemi di Business Intelligence. Leggi il nostro post sul blog sui vari vantaggi offerti da Cassandra, per maggiori informazioni.

Perché scegliere Hadoop con Cassandra?

In parole povere, avere:

  • Carico di lavoro unificato
  • Disponibilità
  • Distribuzione più semplice

Quando si tratta di Hadoop, le aziende non sono interessate alla struttura di archiviazione sottostante di Hadoop, ma ai suoi metodi di fornitura economicamente vantaggiosi per l'analisi e l'elaborazione di grandi quantità di dati. Essere in grado di prendere decisioni dall'output di MapReduce, Hive, Pig, Mahout e altre operazioni è ciò che conta di più per queste organizzazioni.

Punti chiave da ricordare:

  • Il Hadoop Distributed File System (HDFS) è uno dei tanti diversi componenti e progetti contenuti nell'ecosistema Hadoop. Il progetto Apache Hadoop definisce HDFS come il sistema di archiviazione principale utilizzato dalle applicazioni Hadoop .HDFS può archiviare enormi set di dati distribuiti non strutturati. I dati possono essere archiviati direttamente in HDFS, oppure possono essere archiviati in un formato semistrutturato in HBase, che consente un rapido accesso ai dati a livello di record ed è modellato sul sistema BigTable di Google. Cassandra d'altra parte è un non- sistema relazionale che utilizza il modello dati BigTable , ma utilizza lo schema Dynamo di Amazon per la distribuzione dei dati e il clustering.
  • Hadoop fa molte grandi cose, le sue capacità principali di MapReduce sono molto potenti. Gli esperti del settore adorano Hive e il suo design simile a SQL. Tuttavia, il file system HDFS è estremamente complesso da configurare, presenta singoli punti di errore e, secondo il feedback delle principali aziende, semplicemente non è pronto a fare ciò che vogliono che faccia . Cassandra d'altra parte fornisce tutte le capacità del livello inferiore dello stack Hadoop. Cassandra allo stesso tempo fornisce anche capacità applicative in tempo reale a bassa latenza in quella stessa infrastruttura.

In che modo Cassandra e Hadoop possono collaborare?

Alcuni fornitori stanno offrendo alternative a HDFS. Un recente documento di un'organizzazione chiamata GigaOM fornisce una panoramica di alto livello su come Apache Cassandra File System può essere utilizzato per sostituire HDFS, con modifiche minime alla programmazione richieste dal punto di vista dello sviluppo e come è possibile ottenere numerosi vantaggi in questo processo. DataStax , un fornitore commerciale leader per la distribuzione di Cassandra ha unito Cassandra e Hadoop e l'ha chiamata Brisk. Con Brisk, HDFS viene sostituito da Cassandra File System. Scopri di più sui concetti di HDFS. Dai un'occhiata a questo Corso sui Big Data online , che è stato creato da Top Industrial Working Experts.

Vantaggio della combinazione Cassandra – Hadoop:

  • Si può anche implementare Cassandra con Hadoop sullo stesso cluster. Ciò significa che puoi avere il meglio di entrambi i mondi.
  • Tbasato sull'ora e in tempo reale in esecuzione sotto applicazioni Cassandra (il tempo reale è il punto di forza di Cassandra) mentre analisi basata su batch e query che non richiedono un timestamp possono essere eseguiti su Hadoop. In questo tipo di ecosistema, HDFS è sostituito da Cassandra e questo è invisibile allo sviluppatore. È possibile riassegnare dinamicamente i nodi tra gli ambienti Cassandra e Hadoop a seconda delle esigenze.
  • File System Cassandra rimuove i singoli punti di errore associati a HDFS, ovvero i punti di errore NameNode e Job Tracker associati a HDFS.

L'idea è quindi quella di unire Cassandra, pioniere di se stessa nell'elaborazione di transazioni in tempo reale ad alto volume , con Hadoop che eccelle nelle soluzioni analitiche più orientate ai batch .

Cassandra e i Biggies:

Molte organizzazioni nei settori verticali stanno adottando Cassandra per raggiungere vari obiettivi aziendali. Alcuni di quelli importanti sono:

  • Netflix – Utilizza Cassandra come database di back-end per i propri servizi di streaming.
  • WebEx di Cisco – Utilizza Cassandra per archiviare feed e attività degli utenti quasi in tempo reale.
  • SoundCloud – Utilizza Cassandra per archiviare la dashboard dei propri utenti.
  • IBM – Ha svolto ricerche sulla creazione di un sistema di posta elettronica scalabile basato su Cassandra

Titoli di lavoro che coinvolgono le competenze di Hadoop e Cassandra:

Lo studio di Simplyhired mostra che i lavori di Cassandra sono molto richiesti a causa del suo alto tasso di adozione nel settore, specialmente negli ultimi due anni. E il futuro sembra molto promettente.

Esaminiamo alcuni dei titoli di lavoro che coinvolgono le competenze di Hadoop-Cassandra e i loro stipendi menzionati in Indeed.com:

  • Architetto di dati: Questa posizione guadagna uno stipendio medio di $ 107.000. I data architect devono avere una certa esperienza nella creazione di modelli di dati, nel data warehousing, nell'analisi dei dati e nella migrazione dei dati
  • Scienziato dei dati: Raccolgono dati, li analizzano, li presentano visivamente e li utilizzano per fare previsioni/previsioni. Lo stipendio medio per un data scientist è di $ 104.000
  • Ingegnere di sistema: Lo stipendio medio per gli ingegneri di sistema è di $ 89.000.
  • DBA: I DBA guadagnano in media oltre $ 100.000.
  • Sviluppatore di applicazioni software: Gli sviluppatori di software guadagnano in media $ 107.000 e gli sviluppatori di applicazioni $ 93.000. Le persone con queste capacità possono ottenere un ampio lavoro da freelance o possono avviare la propria startup se hanno lo spirito imprenditoriale.

Post correlati:

Scelta del database NoSQL corretto.

Come si apre CQLSH di Cassandra installato su Windows?