HBase
 sql >> Database >  >> NoSQL >> HBase

La trasformazione digitale è un viaggio di dati da Edge a Insight

La trasformazione digitale è un argomento scottante per tutti i mercati e i settori in quanto fornisce valore con tassi di crescita esplosivi. Considera che l'Industrial Internet of Things (IIOT) di Manufacturing è stato valutato a $ 161 miliardi con un impressionante tasso di crescita del 25%, il mercato delle auto connesse sarà valutato a $ 225 miliardi entro il 2027 con un tasso di crescita del 17%, o che nei primi tre mesi di 2020, i rivenditori hanno realizzato dieci anni di penetrazione delle vendite digitali in soli tre mesi. La maggior parte di ciò che è scritto ha a che fare con le piattaforme tecnologiche abilitanti (soluzioni cloud o edge o puntuali come i data warehouse) o casi d'uso che stanno guidando questi vantaggi (analisi predittiva applicata alla manutenzione preventiva, rilevamento delle frodi dell'istituto finanziario o monitoraggio predittivo della salute come esempi) non i dati sottostanti. Il capitolo mancante non riguarda le soluzioni puntuali o il percorso di maturità dei casi d'uso. Il capitolo mancante riguarda i dati - si tratta sempre di dati - e, soprattutto, i dati di viaggio si intrecciano dall'edge alle informazioni sull'intelligenza artificiale.

Questo è il primo di una serie di blog in sei parti che delinea il viaggio dei dati dall'edge all'IA e il valore aziendale che i dati producono lungo il viaggio. Il viaggio dei dati non è lineare, ma è un ciclo di vita dei dati a ciclo infinito, che inizia all'edge, si snoda attraverso una piattaforma di dati e si traduce in insight imperativi per il business applicati a problemi business-critical reali che si traducono in nuove iniziative basate sui dati. Abbiamo semplificato questo percorso in cinque passaggi distinti con un sesto passaggio comune che riguarda la sicurezza e la governance dei dati. I sei passaggi sono:

  1. Raccolta dati – acquisizione e monitoraggio dei dati all'edge (che si tratti di sensori industriali o persone in un negozio al dettaglio di mattoni e malta)
  2. Arricchimento dei dati – elaborazione, aggregazione e gestione della pipeline di dati per preparare i dati a un ulteriore perfezionamento
  3. Segnalazione – fornire informazioni dettagliate sull'impresa (analisi e previsioni delle vendite, ricerche di mercato, budgeting come esempi)
  4. Servizio – controllare e gestire le operazioni aziendali essenziali (transazioni ATM, cassa al dettaglio o monitoraggio della produzione) 
  5. Analisi predittiva – analisi predittiva basata sull'intelligenza artificiale e sull'apprendimento automatico (rilevamento delle frodi, manutenzione predittiva, ottimizzazione dell'inventario basata sulla domanda come esempi)
  6. Sicurezza e governance – un insieme integrato di tecnologie di sicurezza, gestione e governance lungo l'intero ciclo di vita dei dati

Fig 1:Il ciclo di vita dei dati aziendali

Per illustrare il viaggio dei dati, abbiamo scelto un argomento di produzione molto rilevante e orientato alla sostenibilità:la produzione di un'auto elettrica, scelta perché le operazioni di produzione sono generalmente di natura rivoluzionaria (elevata maturità digitale che utilizza gli strumenti di dati più aggiornati) , rispetto alla "vecchia scuola evolutiva" (di maturità inferiore) e che la maggior parte di queste auto sono costruite come piattaforme di mobilità connessa, rendendo l'auto più di un semplice trasporto, ma una piattaforma per la conoscenza e l'intuizione basate sui dati. Questa storia mostrerà come i dati vengono raccolti, arricchiti, archiviati, serviti e quindi utilizzati per prevedere gli eventi nel processo di produzione dell'auto utilizzando Cloudera Data Platform.

Questa storia sarà caratterizzata da una finta azienda produttrice di veicoli elettrici chiamata (con un nome molto originale di) The Electric Car Company (ECC). ECC gestisce più stabilimenti di produzione situati in tutto il mondo, è integrato verticalmente costruendo le proprie auto e molti dei componenti critici, inclusi motori elettrici, batterie e parti ausiliarie. Ogni fabbrica è incaricata di produrre diversi componenti con l'assemblaggio finale che avviene in pochi stabilimenti selezionati e strategicamente posizionati.

Sfida di raccolta dati

Gestire la raccolta di tutti i dati da tutte le fabbriche nel processo di produzione è un'impresa significativa che presenta alcune sfide:

  • Difficoltà nel valutare il volume e la varietà dei dati IoT: Molte fabbriche utilizzano risorse e dispositivi di produzione sia moderni che legacy di più fornitori, con vari protocolli e formati di dati. Sebbene i controller e i dispositivi possano essere collegati a un sistema OT, di solito non sono collegati in modo tale da poter condividere facilmente i dati anche con i sistemi IT. Per consentire la produzione connessa e i casi d'uso IoT emergenti, ECC ha bisogno di una soluzione in grado di gestire tutti i tipi di diverse strutture e schemi di dati dall'edge, normalizzare i dati e quindi condividerli con qualsiasi tipo di consumatore di dati, comprese le applicazioni Big Data.
  • Gestire la complessità dei dati in tempo reale: Affinché ECC possa guidare i casi d'uso dell'analisi predittiva, una piattaforma di gestione dei dati deve abilitare l'analisi in tempo reale sui dati in streaming. La piattaforma deve anche acquisire, archiviare ed elaborare in modo efficace i dati in streaming in tempo reale o quasi per fornire istantaneamente informazioni e azioni.
  • Liberare i dati da silos indipendenti: Processi specializzati (piattaforme di innovazione, QMS, MES, ecc.) all'interno della catena del valore della produzione premiano fonti di dati disparate e piattaforme di gestione dei dati che si adattano a soluzioni esclusive in silos. Queste soluzioni di nicchia limitano il valore aziendale, considerando solo una parte delle informazioni che i dati interaziendali possono offrire, dividendo il business e limitando le opportunità di collaborazione. La piattaforma giusta deve avere la capacità di acquisire, archiviare, gestire, analizzare ed elaborare i dati in streaming da tutti i punti della catena del valore, combinarli con fonti di storici dei dati, ERP, MES e QMS e sfruttarli in insight fruibili. Queste informazioni forniranno dashboard, report e analisi predittive che promuovono casi d'uso di produzione di alto valore.
  • Bilanciare il bordo: Comprendere il giusto equilibrio tra l'elaborazione dei dati all'edge e nel cloud è una sfida, ed è per questo che è necessario considerare l'intero ciclo di vita dei dati. C'è una tendenza preoccupante nel settore in quanto le aziende scelgono di concentrarsi sull'uno o sull'altro senza rendersi conto che possono, e dovrebbero, fare entrambe le cose. Il cloud computing ha i suoi vantaggi per l'analisi a lungo termine e l'implementazione su larga scala, ma è limitato dalla larghezza di banda e spesso raccoglie grandi quantità di dati utilizzando solo una piccola parte. Il valore dell'edge sta nell'agire all'edge dove ha il maggiore impatto con latenza zero prima di inviare i dati più preziosi al cloud per un'ulteriore elaborazione ad alte prestazioni.

Raccolta dati utilizzando Cloudera Data Platform

PASSAGGIO 1:raccolta dei dati grezzi

I dati delle operazioni di produzione di ECC comprendono una moltitudine di fonti:robot industriali, serbatoi di processo di rivestimento con fosfatazione body-in-white (temperatura, concentrazione o rifornimento), telematica della catena di approvvigionamento o informazioni sulla parte principale, ecc. Per questo esempio specifico, la parte grezza i dati anagrafici per ciascuna delle cinque fabbriche di ECC sono stati raccolti in preparazione per essere inviati ad Apache NiFi (vedi Fig 2).

PASSAGGIO 2:Configura le origini dati per ogni fabbrica

La raccolta dei dati verrà illustrata utilizzando l'esperienza Data Flow di Cloudera (con tecnologia Apache NiFi) per recuperare questi dati grezzi e dividerli in flussi di fabbrica individuali (gestiti da Apache Kafka) per assomigliare più accuratamente a uno scenario del mondo reale (vedi Fig 2). Per semplificare l'esempio, sono stati scelti i seguenti tag di attributo dei dati per ciascuna parte generata dalle fabbriche: 

  • ID fabbrica
  • ID macchina
  • Timestamp prodotto
  • Numero parte
  • Numero di serie

Fig 2:diagramma di flusso della raccolta dati.

PASSAGGIO 3:monitora il throughput dei dati da ogni fabbrica

Con tutti i dati che ora fluiscono nei singoli flussi Kafka, un architetto di dati sta monitorando la velocità effettiva dei dati da ciascuna fabbrica, nonché regolando le risorse di elaborazione e archiviazione necessarie per assicurarsi che ciascuna fabbrica disponga della velocità effettiva richiesta per inviare i dati alla piattaforma.

PASSAGGIO 4:acquisisci dati dai flussi di Apache Kafka

Kafka acquisisce tutti i flussi di dati di fabbrica e li raccoglie in processori che filtreranno e arricchiranno per l'uso nel controllo e nell'esecuzione di operazioni aziendali essenziali basate su un database operativo o fornendo informazioni dettagliate sull'impresa attraverso un data warehouse aziendale o utilizzate nell'analisi avanzata.

ECC ha recentemente avviato la produzione di una versione aggiornata del proprio motore elettrico che viene prodotta solo in Factory 5, questi dati verranno utilizzati come illustrazione dei passaggi successivi nel ciclo di vita dei dati

PASSAGGIO 5:invia i dati alle soluzioni di archiviazione

Poiché gli ingegneri di produzione e qualità ECC vorranno monitorare da vicino l'implementazione e l'uso sul campo di questo motore, i dati di tracciabilità della produzione specifici vengono filtrati in un percorso separato e salvati nella propria tabella in Apache Hive. Ciò consentirà agli ingegneri di eseguire query ad hoc in Cloudera Data Warehouse rispetto ai dati in un secondo momento e di unirli ad altri dati rilevanti nel data warehouse aziendale, come ordini di riparazione o feedback dei clienti per produrre casi d'uso anticipati come garanzia, previsione routine di manutenzione o input per lo sviluppo del prodotto.

In alternativa, se si desidera controllare ed eseguire operazioni aziendali essenziali, l'intero set di dati con l'aggiunta di un timestamp elaborato verrà inviato al database operativo Cloudera basato su Apache HBase. Questi dati serviranno come base per ECC per eseguire la propria piattaforma di inventario, che richiederà l'uso di operazioni di lettura/scrittura costanti poiché l'inventario può essere sia aggiunto che rimosso migliaia di volte al giorno. Poiché HBase è progettato per gestire questo tipo di transazioni di dati su larga scala, rappresenta la soluzione migliore per questa sfida unica.

Conclusione

Questa semplice illustrazione mostra l'importanza di ottenere correttamente l'acquisizione dei dati, poiché è fondamentale per le informazioni fornite da database operativi, data warehouse aziendali o analisi predittive di machine learning analitiche avanzate. Il valore nel "fare le cose nel modo giusto" include l'utilizzo di dati provenienti da qualsiasi fonte aziendale, abbattendo così i silos di dati, utilizzando tutti i dati, sia che si tratti di streaming o batch-oriented, e la possibilità di inviare tali dati nel posto giusto producendo le informazioni desiderate a valle.

Utilizzando CDP, i data engineer ECC e altri utenti del settore possono iniziare a utilizzare i dati raccolti per varie attività che vanno dalla gestione dell'inventario alla previsione delle parti fino all'apprendimento automatico. Poiché Cloudera Data Flow promuove l'acquisizione di dati in tempo reale da qualsiasi fonte aziendale, può essere ampliato e mantenuto senza una conoscenza approfondita di vari linguaggi di programmazione e metodologie proprietarie di raccolta dei dati. Se si verificano problemi unici, gli ingegneri possono anche creare i propri processi per un controllo veramente accurato.

Cerca il prossimo blog che approfondirà l'arricchimento dei dati e come supporta la storia del ciclo di vita dei dati. Inoltre, questa storia sarà arricchita da demo basate sui dati che mostrano il viaggio dei dati attraverso ogni fase del ciclo di vita dei dati.

Più risorse per la raccolta dei dati

Per vedere tutto questo in azione, fare clic sui collegamenti correlati di seguito per saperne di più Raccolta dati:

  • Video – Se vuoi vedere e ascoltare come è stato costruito, guarda il video al link.
  • Tutorial:se desideri farlo al tuo ritmo, guarda una procedura dettagliata con schermate e istruzioni riga per riga su come configurarlo ed eseguirlo.
  • Meetup – Se vuoi parlare direttamente con gli esperti di Cloudera, partecipa a un meetup virtuale per vedere una presentazione in live streaming. Alla fine ci sarà tempo per domande e risposte dirette.
  • Utenti:per visualizzare contenuti più tecnici specifici per gli utenti, fare clic sul collegamento.