Le Tre V dei Big data e le tante altre qualità che li contraddistinguono

Volume, velocità, varietà: si parla da tempo delle tre V dei Big Data, ma ci sono molte altre caratteristiche che definiscono questo settore.

Big Data è la parola d’ordine con cui si propongono corsi di formazione, servizi di consulenza, software innovativi, nuovi rami di attività per le aziende. Per circoscrivere il campo dei Big Data e capire con esattezza di che cosa si tratti, si parla ormai da anni delle tre V dei Big Data, che derivano da un’azzeccata intuizione di Gartner. Ma le caratteristiche dei Big Data, in realtà, sono molte di più. Scopriamole grazie a due fonti:

Le tre V dei Big data

Volume

Questa caratteristica è in assoluto la più semplice da notare e assimilare: “Big Data” significa avere a che fare con un’enorme quantità di dati. Vediamo qualche esempio che lo dimostra:

  • Nel 2016 nel mondo 2.08 miliardi di persone hanno un telefono cellulare. La popolazione totale è di circa 7 miliardi di persone.
  • Si stima che ogni giorno nel mondo vengano creati 2,5 quintilioni di byte (pari a 2,3 trilioni di gigabyte) che sono sufficienti per riempire 10 milioni di dischi Blu-Ray.
  • Il 90 per cento dei dati disponibili ad oggi è stato prodotto nel corso degli ultimi due anni.
  • Facebook conta 1,71 miliardi di utenti attivi. Ogni giorno nella piattaforma vengono visualizzati 8 miliardi di video.
  • Twitter ha 320 milioni di utenti attivi. Si contano in media 500 milioni di tweet al giorno.

Velocità

Il volume è fondamentale, ma non è tutto. Nella storia si contano già innumerevoli esempi di raccolta di immense quantità di dati, ma non per questo si può parlare di Big Data: altrimenti anche il Censimento nazionale della popolazione, di cui si parla già nella Bibbia, rientrerebbe nella categoria! Se una delle tre V dei Big Data è la velocità è perché i dati devono essere raccolti, elaborati, archiviati e analizzati in tempi estremamente rapidi. Tutto questo, a livello di progettazione del database, è tutt’altro che un dettaglio: come sanno gli addetti ai lavori, uno dei problemi classici è il tempo di accesso ai dati.

Per capire cosa si intende per velocità, basti pensare che:

  • Si stima che nel 2018 il traffico internet globale raggiunga i 50 mila GB al secondo.
  • Ogni 60 secondi, si spediscono 204 milioni di email e si caricano 72 ore di video su YouTube e 216 mila post su Instagram.

Varietà

L’universo dei dati si può suddividere in tre tipologie:

  • Dati strutturati: devono rispettare uno schema preciso, come ad esempio la stringa alfanumerica che forma il codice fiscale.
  • Dati semi-strutturati: non sono dotati di schemi prefissati ma seguono comunque delle grammatiche, come i tag del codice HTML o dei file XML.
  • Dati non strutturati: sono “aperti”, come il testo libero.

Tradizionalmente i dati presenti in un database hanno un certo grado di omogeneità, ma analizzare i contenuti in Rete significa trovarsi di fronte a un mosaico di immagini, testi, video, suoni, metadati ecc. Si stima addirittura che il 90% dei dati attualmente sia non strutturato. È evidente, dunque, che per aggregarli, analizzarli e rappresentarli non si può più fare affidamento sulle soluzioni tradizionali.

Le altre caratteristiche dei Big Data

Ma le tre V dei Big Data non spiegano tutto: nel tempo, sono state individuate altre caratteristiche utili a descriverli.

Valore

I Big Data possono essere utilizzati per prevedere eventi e processi attraverso strumenti di computazione avanzata come il machine learning, i modelli statistici e gli algoritmi basati su grafi.

Veridicità

Visto che i dati sono la base per analisi molto avanzate e decisioni importanti, non devono essere errati, rovinati o compromessi.

Predittività

Raccogliere ed elaborare una grande massa di informazioni permette di fare previsioni su eventi futuri.

Esaustività

La portata dei Big Data si può estendere a tal punto da comprendere potenzialmente la popolazione (o il sistema da analizzare) nella sua interezza e non solo un campione.

Natura relazionale

I Big Data contengono campi comuni che permettono l’integrazione di differenti set di dati.

Flessibilità

I Big Data sono sia scalabili (possono crescere o diminuire di scala in funzione delle necessità e delle disponibilità) sia estensibili (possono essere ampliati aggiungendo nuovi campi).

**

Potrebbero interessarti anche i seguenti articoli: