Il 2020 è stato inevitabilmente l’anno in cui la dematerializzazione è diventata un aspetto fondamentale nelle attività di persone e aziende, consacrando di conseguenza la centralità delle informazioni digitali. Oggi più che mai i dati sono la merce di scambio con più valore e sono diventati così tanti e così complessi, da richiedere una nuova locuzione per identificarli: Big Data.
Nonostante il termine sia ormai inflazionato, per chi si occupa di innovazione e digitalizzazione è utile comprendere il reale stato dell’arte riguardo il trattamento di grandi moli di dati e i trend previsti in materia per questo 2021.
Prima di tutto, è d’obbligo una definizione di Big Data, anche perché spesso il termine viene utilizzato in modo improprio, semplicemente come sinonimo di grande quantità di dati.
Questo concetto si riferisce infatti ad enormi moli di dati dislocate su più server, spesso in aziende diverse e in formati differenti (Database, file ..). A rendere dei dati “Big”, oltre alla numerosità, al volume entrano infatti in gioco fattori come velocità, varietà, veridicità e valore.
A venire in supporto per una definizione convenzionalmente condivisa di Big Data è il McKinsey Global Institute che li identifica come: «Un sistema che si riferisce a dataset il cui volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare».
Nel 2001, Doug Laney, allora vice presidente e Service Director dell’azienda Meta Group, ideò il 3V, un modello di descrizione dei dati generati dall’aumento delle fonti informative e dall’evoluzione delle tecnologie: Volume, Velocità e Varietà, un paradigma che è stato arricchito dalle variabili di Veridicità e Variabilità.
Ragionando quindi in termini di utilizzo dei Big Data per il business, si tratta quindi di aspetti di complessa gestione per le aziende che richiedono elevate competenze specifiche e costi spesso non trascurabili.
Big Data a misura di azienda
Per quanto riguarda l’utilizzo dei Big Data per incrementare la qualità delle analisi aziendali, la più importante attività da implementare e automatizzare riguarda la preparazione dei dati in modo che possano essere convertiti in informazioni fruibili agli utenti.
Un completo repository di Big Data necessita infatti di essere affinato, aggregato e/o analizzato prima di poter essere utilizzato e condiviso.
Per quanto riguarda l’aggregazione dei dati si tratta di un concetto semplice e noto che equivale a riportare il concetto delle tabelle pivot ad una base dati molto più estesa e complessa.
Per quanto riguarda l‘analisi, la scelta tra le numerose tecniche, dall’intelligenza artificiale a indagini statistiche standard, varia in base agli obiettivi da raggiungere e alla tipologia di informazioni da estrarre dai dati. In questa fase del processo la decisione spetta all’analista.
Per quanto riguarda invece il processo di affinamento del repository ci si riferisce alla correzione dei dati contenuti nel database, ma anche all’attività che porta ad uniformare la natura delle informazioni per renderle realmente fruibili. Avere i dati in molti server e formati diversi rende infatti complessa qualunque analisi.
L’affinamento dei dati
Esistono molti algoritmi e piattaforme che supportano le aziende nell’attività di “preparazione” dei dati e sembra risiedere proprio in questo processo la più grande sfida del 2021 in ambito di Big Data. Anche se gli sviluppi e le innovazioni si concentrano maggiormente sulla parte di analisi, più di impatto perché in grado di fornire un risultato tangibile, spesso si sottovaluta però il fatto che per arrivare ad ottenere un risultato corretto è necessario partire da dati realmente pronti per essere analizzati.
Molte aziende decidono di avviare progetti di analisi dei loro repository (di Big Data e non), senza prima verificare la qualità delle loro basi dati. L’attenzione dovrà quindi concentrarsi sull’ottimizzazione di questo aspetto, a volte a discapito dell’immediatezza del risultato finale, ma tutelando la qualità dell’output dell’analisi, come già descritto in questo articolo sulla trasformazione dei dati in informazioni utili per il business.
Ma, cosa vuol dire in dettaglio affinare il proprio repository? Molto spesso i dati che si hanno a disposizione contengono alcune imperfezioni che rendono difficile il loro utilizzo:
- Duplicazioni
- Chiavi non univoche
- Caratteri “sporchi” come spazi in posti in cui non ci dovrebbero essere
- Diversi formati dello stesso dato in diverse fonti (ad esempio due database che trattano numeri con la virgola con un diverso numero di cifre decimali)
- ..
Per tutte queste problematiche è utile investire tempo e risorse nell’automatizzazione del processo di pulizia.
Un’altra tematica di interesse crescente riguarda la creazione di software in grado di incamerare in modo automatizzato i dati provenienti da sorgenti diverse in un unico output (o anche più di uno, purché in quantità ragionevole).
Partendo dal presupposto che la maggior parte della realtà collezioni i propri dati su diversi database, server e file, che sono sviluppati secondo linguaggi e logiche differenti, sono richieste competenze diverse per uniformarne i dati in uscita. Sul mercato sono disponibili strumenti, in cloud e non, che permettono di gestire repository eterogenei, ma che riportano ancora alcuni limiti in termini di accuratezza del risultato, costi e tempistiche.
Nel futuro dell’intelligenza artificiale e delle altre tecniche questa attività giocherà un ruolo sempre più centrale e necessiterà di nuovi sviluppi e automatizzazioni.