HBase
 sql >> Database >  >> NoSQL >> HBase

Data Warehousing di nuova generazione a Santander UK

La tempestività dei dati è fondamentale per le aziende nell'era dei Big Data:questo post sul blog illustra in che modo Santander UK utilizza le più recenti tecnologie Cloudera e capacità di sviluppo software superiori per creare la prossima generazione di data warehousing e analisi in streaming per supportare l'intelligence in grado di migliorare le relazioni con i clienti e segui il mantra di "vogliamo aiutare le persone a crescere e prosperare. '

Il viaggio dei big data di Santander UK è iniziato circa quattro anni fa. Sono stati i primi ad adottare la nuova tecnologia di streaming di dati come Apache Kafka e avevano l'ambizione di rivoluzionare l'esperienza del cliente con l'uso di dati in tempo reale e analisi in-app per gli utenti mobili.

Da allora, Santander UK ha migliorato sia l'impronta che la capacità di innovare con la tecnologia dei big data e si è evoluta rapidamente. La necessità di analisi di streaming su larga scala è aumentata ed è diventata una realtà. Oggi, a Santander UK, la piattaforma Big Data, Machine Learning e Analytics di Cloudera è integrata da un'offerta di eventi Platform-as-a-Service (PaaS) scalabile e di alta qualità tramite Apache Kafka.

Un altro componente tecnologico fondamentale per il Data Warehouse di prossima generazione di Santander UK è l'uso di Apache Kudu per consentire analisi rapide su dati veloci. Se combinato con gli aspetti della metodologia di progettazione di Data Vault 2.0, facilita l'acquisizione rapida da centinaia di flussi di dati Apache Kafka; sia scaricando il carico di lavoro dai sistemi legacy esistenti sia offrendo la possibilità di porre domande "proprio qui, adesso" sul comportamento dei clienti e sullo stato attuale della Banca.

Velocità di mercato

I flussi di dati veloci possono essere spostati online con il minimo sforzo grazie a una nuova piattaforma innovativa presso Santander UK, che integra i sistemi legacy con un nuovo Data Vault tramite Apache Kafka. A causa della struttura pulita dei dati integrati, un nuovo feed del flusso di eventi per popolare Apache Kudu Data Vault è in gran parte guidato dalla configurazione, conformando gli eventi di dati alla struttura Hub, Satellite e Link della metodologia Data Vault 2.0. Ciò consente allo schema di reagire ai cambiamenti nell'azienda o alla nuova comprensione di come i dati devono essere conformi.

Santander UK può influenzare le trasformazioni dei dati scalando la piattaforma di distribuzione degli eventi elastica, basata su Scala Akka e Apache Kafka, consentendo un arricchimento dei dati rapido e scalabile in tempo reale. Ciò consente dati più rapidi e tempestivi, decisioni più rapide e una maggiore velocità di commercializzazione per casi d'uso grazie alla piattaforma e all'architettura riutilizzabili.

Scienza dei dati e prototipazione rapida di prodotti di dati

In definitiva, ci sono molti potenziali consumatori di questa fonte di dati in streaming; tuttavia, sono già state raccolte informazioni interessanti attraverso l'integrazione di Cloudera Data Science Workbench in Data Vault. Questi forniscono un'esperienza di scienza dei dati completa per il team di scienza dei dati in crescita e utilizzano anche, in modo tipicamente innovativo di Santander nel Regno Unito, il potenziale per prototipare idee rapidamente e creare nuovi prodotti di dati prima di affrontare pesanti sfide ingegneristiche e architettoniche. Costruisci un prototipo veloce e poi, se genera valore, trasformalo in un prodotto di prima classe.

Integrazione rapida:il modello di contributo

Sulla scia dell'innovazione e dell'agilità che il team di Data Innovation di Santander UK ha reso realtà, hanno creato la nozione di modello di contributo. Perché il cluster è multi-tenant con diverse unità di business che acquistano, puliscono e progettano nuovi set di dati; se ritenute utili per il resto dell'azienda, le tabelle di collegamento in stile Data Vault possono essere utilizzate per integrare questi dati generalmente utili nel nucleo dello schema di Data Vault. In questo modo, il team può aumentare il valore dei prodotti dati attraverso la rapida generazione di nuove combinazioni di set di dati, con discendenza tracciabile utilizzando Cloudera Navigator per la governance e la sicurezza utilizzando Apache Sentry per il controllo degli accessi. Se i dati della business unit sono ritenuti utili ad altri, sono legati al core e condivisi secondo principi di governance.


Il modello di contributo ci consente di sfruttare set di dati puri creati in modo indipendente da diverse unità aziendali e team di prodotto. Se questi dati sono preziosi per il resto dell'azienda, abbiamo la capacità di portarli nel Data Vault come cittadino di prima classe attraverso l'utilizzo di tabelle di collegamento. Volevamo replicare l'approccio della comunità Apache al software open source per i sistemi di dati nella nostra organizzazione per migliorare l'innovazione attraverso la collaborazione.

    – Nicolette Bullivant – Head of Data Engineering, Santander UK

Multi-destinazione:un flusso per dominarli tutti

I flussi di eventi non elaborati generati dai sistemi legacy sono considerati canonici e sono generalmente richiesti da altre parti interessate che utilizzano il cluster. Il Santander UK Data Innovation Team ha adottato il principio di garantire che questi flussi di eventi siano disponibili per l'utilizzo da diversi casi d'uso e tecnologie; quindi, un flusso di eventi canonico può essere ridistribuito a destinazioni diverse; filesystem HDFS, Apache HBase o Apache Kudu. Questo aiuta a generare un'unica versione della verità per tutte le parti interessate, evitando al contempo una contropressione sui sistemi legacy.

Conclusione

In breve, Santander UK sta innovando direttamente sullo stack Cloudera, accoppiando dati in streaming, principi e framework avanzati di ingegneria del software e moderni principi di progettazione del data warehouse per generare informazioni in tempo reale per migliorare l'esperienza del cliente e il benessere finanziario del cliente. Questa innovazione è stata recentemente riconosciuta in quanto una giuria di terze parti ha votato Santander come finalista del Data Impact Award.

Nicolette Bullivant è Head of Data Engineering presso Santander UK.
Rob Siwicki è un Senior Solutions Architect per i servizi professionali di Cloudera, EMEA.