La modellazione dei dati è il processo di analisi delle diverse tipologie di dati che un’azienda può produrre e delle relazioni esistenti tra di essi. Un modello di dati consiste in una rappresentazione astratta delle strutture dei dati di un database. L’atto di creazione di un modello prende il nome di modellazione dei dati (o data modelling). Le strutture dei dati sono tutti gli oggetti del database e le regole che regolano le operazioni tra i dati. La modellazione dei dati si traduce quindi nell’elaborazione di diagrammi di flussi di dati, uno strumento funzionale all’identificazione dei i flussi di entrata e uscita dei dati, la relazione trai i diversi flussi e in generale rappresenta una guida per comprendere l’intera architettura del database.
Modellazione dei dati, l’utilità dell’attività
Tale strumento diventa molto utile anche per definire le caratteristiche dei formati di dati e le funzioni di gestione del database. Rappresenta quindi un metodo standardizzato per la costituzione e formattazione dei contenuti del database, consentendo a fonti e sorgenti diverse di accedere e lavorare sugli stessi dati in modo efficiente.
Modellazione dei dati, i tre modelli più frequenti
Tra i vari modelli dati utilizzati, i tre più frequenti sono: relazionale, dimensionale ed Entità-Relazione. In base al modello utilizzato si definiscono di conseguenza la modalità di organizzazione dei dati, di archiviazione e di recupero degli.
- Il modello relazionale è l’approccio più antico e comune. Consiste nell’archiviare i dati in formato fisso attraverso l’uso di misure e dimensioni. Le misure sono valori numerici usati in calcoli aritmetici, le dimensioni invece posso avere un formato numero o testuale e servono per includere descrizioni o posizioni. Un database relazionale è definito da termini e requisiti strutturali, ma il fattore importante è rappresentato dalle relazioni definite all’interno di tale struttura. In queste tipologie di modelli gli elementi dati comuni, ovvero le chiavi, collegano le tabelle e i set di dati.
- L’approccio dimensionale, invece, si caratterizza per il fatto di essere meno rigido e strutturato del precedente. Per questo motivo si tende ad utilizzarlo prevalentemente in contesti aziendali per le query online e gli strumenti di data warehousing. I dati fondamentali, per esempio una quantità di transazione, sono definiti “fatti” e sono accompagnati da informazioni di riferimento chiamate “dimensioni. Una tabella di “fatti” è una tabella primaria in un modello dimensionale. Il recupero può essere rapido ed efficiente – perché i dati di un determinato tipo di attività sono archiviati insieme – ma la mancanza di collegamenti relazionali può rendere più complicato l’utilizzo dei dati. Infatti, visto che la struttura dei dati è legata alla funzione aziendale che produce e utilizza i dati, la combinazione dei dati prodotti da sistemi diversi può essere
- Infine, un modello Entità-Relazione rappresenta una struttura di dati aziendali in formato grafico contenente caselle di varie forme che rappresentano attività, funzioni o “entità” e righe che rappresentano associazioni, dipendenze o “relazioni“. Il modello E-R viene quindi utilizzato per creare un database relazionale in cui ogni riga rappresenta un’entità e i campi in quella riga contengono attributi. Come in tutti i database relazionali, gli elementi dati chiave vengono utilizzati per collegare le tabelle tra loro.
Modellazione dei dati, le tipologie di data modeling
Inoltre, durante l’elaborazione dei dati è possibile utilizzare tre principali tipologie di modellazione, ovvero di layout possibile per rappresentare livelli di pensiero:
- Modello di dati concettuale: è utilizzato per definire la struttura e il contenuto dei dati a livello macro, senza andare nel dettaglio. È generalmente utilizzato come modello generale per poi sviluppare modelli logici e fisici.
- Modello di dati logico: descrive il flusso di dati e il contenuto del database. Il modello logico aggiunge dettagli alla struttura complessiva del modello concettuale, ma non include specifiche relative allo stesso database, poiché il modello può essere applicato a varie tecnologie e a vari prodotti di database.
- Modello di dati fisico: descrive le specifiche della modalità di realizzazione del modello logico. Esso deve contenere dettagli a sufficienza per consentire ai tecnici di creare l’effettiva struttura del database in hardware e software a supporto delle applicazioni che lo utilizzeranno.
Dunque, come è emerso dalle caratteristiche dei modelli, l’attività di modellazione dei dati tende ad aver un approccio di tipo top-down: si parte dal modello concettuale per definire la visione globale, si passa al modello logico che definisce i flussi e il contenuto del database per poi passare al modello fisico che contiene i dettagli tecnici fondamentali.
Modellazione dei dati, i vantaggi per l’azienda
A livello aziendale la modellazione dei dati consente la collaborazione tra il reparto IT e i vari team aziendali, riduce le possibilità di errore e permette di migliorare l’integrità dei dati, oltre che aumentare la velocità e le prestazioni di archiviazione e recupero degli stessi.
Un solido modello di dati, inoltre, determina prestazioni di analisi ottimizzate, indipendentemente da quanto grande e complesso sia il patrimonio di dati di cui si dispone. Quando i dati sono definiti e raccolti in maniera chiara, l’analisi degli stessi diventa molto più semplice e si riducono notevolmente i margini di errore.
Una corretta modellazione dei dati è proprio alla base del lavoro di acquisizione, arricchimento e analisi dei dati effettuata dai nostri esperti all’avvio di un progetto per supportare le aziende nelle scelte di pricing.