La profilazione dei dati, o rilevamento dei dati, si riferisce al processo di ottenimento di informazioni e statistiche descrittive su varie fonti di dati. Lo scopo della profilazione dei dati è di ottenere una migliore comprensione del contenuto dei dati, nonché della loro struttura, delle relazioni e degli attuali livelli di accuratezza e integrità.
La profilazione dei dati può rivelare errori o false conclusioni sui metadati (dati sui dati). L'individuazione precoce di questi problemi consente di migliorare la qualità dei dati di origine prima di integrarli o archiviarli in un data warehouse. La comprensione degli attributi dei dati in una tabella di database o in un file estratto e l'ispezione dei valori dei dati aiuta a convalidare che il contenuto dei dati corrisponda effettivamente alla definizione dei metadati. La visualizzazione dei dati e dei metadati aiuta anche a identificare quali elementi sono sensibili o contengono informazioni di identificazione personale (PII), in modo che alcune colonne possano essere contrassegnate per misure di protezione. La profilazione dei dati scopre così le caratteristiche dei dati di origine necessarie per l'identificazione, l'uso e la derivazione dei dati nell'integrazione, nella sicurezza, nel reporting e negli altri processi che seguono.
Sebbene i dati raccolti possano spesso sembrare benigni o inutili, specialmente se raccolti da più fonti, tieni presente che tutti i dati possono essere utili con l'applicazione o l'algoritmo corretti. La profilazione dei dati è quindi anche un primo passo per determinare tale utilità (migliorando la comprensione dei dati stessi).
Poiché molte aziende in ultima analisi si affidano a fonti di dati grezzi per ottenere informazioni su cose come inventari dei prodotti, dati demografici dei clienti, abitudini di acquisto e proiezioni di vendita, la capacità di un'azienda di trarre vantaggio competitivo da volumi di dati sempre crescenti può essere direttamente proporzionale alla sua capacità di sfruttare tali dati risorse. L'acquisizione/la perdita di clienti e il successo/il fallimento di un'azienda potrebbero benissimo essere determinati dalla conoscenza specifica impartita dai dati raccolti di un'organizzazione. Pertanto, l'identificazione dei dati corretti, la determinazione della loro utilità al livello corretto e la determinazione di come gestire le anomalie sono elementi essenziali nella progettazione delle operazioni di data warehousing e delle applicazioni di business intelligence.
Secondo Doug Vucevic e Wayne Yaddow, autori di Testing the Data Warehouse Practicum, "...lo scopo della profilazione dei dati è sia quello di convalidare i metadati quando sono disponibili sia di scoprire i metadati quando non lo sono. Il risultato dell'analisi viene utilizzato sia strategicamente, per determinare l'adeguatezza dei sistemi di origine candidati e fornire le basi per una decisione go/no-go precoce, ma tatticamente, per identificare i problemi per la progettazione di soluzioni successive e per livellare le aspettative degli sponsor. ”
Le autorità competenti in materia di dati raccomandano di eseguire la profilazione dei dati in modo casuale e ripetitivo su quantità limitate di dati, invece di cercare di affrontare volumi grandi e complessi tutto in una volta. In questo modo le scoperte possono essere fattori determinanti per ciò che dovrebbe essere profilato in seguito. L'identificazione di regole, restrizioni e prerequisiti per i dati garantisce l'integrità dei metadati su cui viene eseguita la profilazione futura. Sapere cosa è supposto essere in determinati file di dati e cosa è effettivamente potrebbe non essere la stessa cosa. Pertanto, ogni volta che la qualità o le caratteristiche di una nuova fonte sono sconosciute, gli esperti suggeriscono prima la profilazione dei dati, prima di qualsiasi integrazione in un sistema esistente.
Le fasi del processo di profilazione dei dati includono: l'importazione di tutti gli oggetti, la creazione dei parametri di configurazione, l'esecuzione della profilazione effettiva e l'analisi dei risultati; nessuno dei quali è facile come sembra! Quindi, sulla base dei risultati, possono essere implementate correzioni di schemi e dati, nonché altre messe a punto per il successivo miglioramento delle prestazioni della profilazione dei dati.
Strumenti di profilazione IRI
A metà del 2015, IRI ha rilasciato una serie di strumenti gratuiti per il rilevamento di dati di database, strutturati e non strutturati (oscuri) nella sua GUI di Eclipse, IRI Workbench. Sono riepilogati su http://www.iri.com/products/workbench/discover-data e rimandano ad altri articoli in questo blog che approfondiscono maggiormente.