Utilizzo di Cloudera Data Engineering per analizzare i dati del programma di protezione della busta paga

Il Paycheck Protection Program (PPP) è implementato dal governo federale degli Stati Uniti per fornire un incentivo diretto alle aziende a mantenere i propri dipendenti sul libro paga, in particolare durante la pandemia di Covid-19. PPP aiuta le aziende qualificate a trattenere la loro forza lavoro e aiuta a pagare le relative spese aziendali. I dati del sito web del Tesoro degli Stati Uniti mostrano quali aziende hanno ricevuto prestiti PPP e quanti posti di lavoro sono stati mantenuti. Il Tesoro degli Stati Uniti ha approvato circa un milione di prestiti PPP negli Stati Uniti.

L'analisi di questi dati presenta tre sfide. Innanzitutto, la dimensione dei dati è significativa. La quantità di tempo per estrarre, curare, trasformare, recuperare e creare report su tali dati richiede molto tempo. In secondo luogo, è probabile che il set di dati si evolva, il che consumerà tempo e risorse di sviluppo aggiuntivi. Infine, in un processo a più stadi come questo, c'è la possibilità che le cose si rompano. Avere la capacità di determinare rapidamente errori o colli di bottiglia aiuterà a rispettare costantemente gli SLA.

Questo blog illustra come Cloudera Data Engineering (CDE), utilizzando Apache Spark, può essere utilizzato per produrre report basati sui dati PPP affrontando ciascuna delle sfide descritte sopra.

Obiettivo

Di seguito viene impostato uno scenario fittizio per il Texas Legislativo Budget Board (LBB) per aiutare un ingegnere di dati a gestire e analizzare i dati PPP. L'obiettivo principale di questo ingegnere dei dati è fornire all'LBB due rapporti finali:

Rapporto 1:ripartizione di tutte le città del Texas che hanno mantenuto posti di lavoro
Rapporto 2:ripartizione del tipo di azienda che ha mantenuto posti di lavoro

Ingegneria dei dati Cloudera (CDE)

È qui che Cloudera Data Engineering (CDE) con Apache Spark può essere d'aiuto. CDE è uno dei servizi in Cloudera Data Platform (CDP) che consente ai data engineer di creare, gestire e pianificare i lavori Apache Spark, fornendo al contempo strumenti utili per monitorare le prestazioni dei lavori, accedere ai file di registro e orchestrare i flussi di lavoro tramite Apache Airflow. Apache Spark è un framework per l'elaborazione dei dati in grado di eseguire rapidamente l'elaborazione dei dati su larga scala.

Il Tesoro degli Stati Uniti fornisce due diversi set di dati, uno per i prestiti approvati superiori a $ 150.000 e uno per i prestiti approvati inferiori a $ 150.000. Per produrre i due rapporti finali per LBB, sono stati seguiti questi passaggi (vedi Fig. 1).

Il primo passaggio è stato caricare i due set di dati separati in un bucket S3.
È stato creato un processo Spark per ogni set di dati per estrarre e filtrare i dati dal bucket S3.
Questi due processi Spark hanno trasformato e caricato i dati puliti in un data warehouse Hive per il recupero.
È stato creato un terzo processo Spark per elaborare i dati dal data warehouse di Hive per creare i due report.

Una volta completate le esecuzioni del lavoro, CDE ha fornito una rappresentazione grafica delle varie fasi all'interno di ciascun lavoro Spark (vedere Fig. 2). Ciò ha consentito al tecnico dei dati di vedere facilmente quali parti del lavoro richiedevano più tempo, consentendo loro di perfezionare e migliorare facilmente il proprio codice per soddisfare al meglio gli SLA dei clienti.

Fig. 1:Percorso dei dati per produrre i due report finali.

Fig. 2:Rappresentazione grafica CDE dei vari stadi Spark.

Risultati

L'obiettivo principale di produrre i due rapporti finali dal record di un milione di candidati approvati è stato raggiunto. Il riepilogo grafico del primo rapporto (vedi Fig. 3) mostra i primi 10 campioni del numero di posti di lavoro mantenuti per città in Texas, e il secondo rapporto (vedi Fig. 4) mostra i primi 5 campioni del numero di posti di lavoro mantenuti per tipo di azienda. Con questi rapporti, il Consiglio legislativo per il bilancio del Texas, ad esempio, può dedurre che le città con il minor numero di posti di lavoro pro capite potrebbero aver bisogno di risorse per ridurre l'impatto economico.

Fig. 3:Le prime 10 città che hanno mantenuto il maggior numero di posti di lavoro, Stato del Texas, 2020

Fig. 4:I 5 principali tipi di società che hanno mantenuto il maggior numero di posti di lavoro, Stato del Texas, 2020

Passaggi successivi

Per vedere tutto questo in azione, fai clic sui collegamenti sottostanti ad alcune fonti diverse che mostrano il processo che è stato creato.

Video:se desideri vedere e ascoltare come è stato realizzato, guarda il video al link.
Tutorial:se desideri farlo al tuo ritmo, guarda una procedura dettagliata con schermate e istruzioni riga per riga su come configurarlo ed eseguirlo.
Meetup – Se vuoi parlare direttamente con gli esperti di Cloudera, partecipa a un meetup virtuale per vedere una presentazione in live streaming. Alla fine ci sarà tempo per domande e risposte dirette.
Pagina Utenti CDP – Per ulteriori informazioni su altre risorse CDP create per gli utenti, inclusi video aggiuntivi, tutorial, blog ed eventi, fai clic sul link.