Big Data is the new data base

Roberto Maria Cocomazzi   Scritto da • Roberto Maria Cocomazzi Data • 18 giugno 2018

Partendo, come spesso facciamo, da Wikipedia, il termine Big Data (“grandi dati” in inglese) descrive l’insieme delle tecnologie e delle metodologie di analisi di dati massivi, ovvero la capacità di estrapolare, analizzare e mettere in relazione un’enorme mole di dati eterogenei, strutturati e non strutturati, per scoprire i legami tra fenomeni diversi e prevedere quelli futuri.

L’approccio di energicrea è rimarcare che per la prima volta queste masse di dati sono disponibili ed abbiamo la capacità tecnologica di trattarli; per fare un esempio: abbiamo i dati del genoma umano e computer capaci di confrontare più DNA fino al punto di capire in cosa differisca uno sano da uno malato e suggerire la soluzione.

Questa enorme novità porterà alla necessità di sviluppare nuove competenze all’interno di ogni business; ad esempio, il piano digitale della PA di cui abbiamo parlato, prevede che addirittura ogni Comune dovrà dotarsi di Data Architect e Data Scientist.

E tutto dovrà avvenire sempre più vicino al business. Molta acqua è passata sotto i ponti da quando, negli anni 80, il modello macroeconometrico su cui il nostro socio Giacomo ha fatto la tesi mandava i dati in America per ricevere la risposta ad una elaborazione via posta (ebbene sì, cartacea 🙂 ); ora si dovranno avere i risultati quasi contemporaneamente alle scelte che compie il Consumatore.

In questo i computer ed il saperci interagire saranno fondamentali ma se non sarà il buon senso Umano a guidarli finiremo per impantanarci nella paralisi per analisi.

Quando saliamo a livello di Big Data si può entrare in ambienti dove Excel non è più lo strumento migliore. Sono disponibili molti softwate interfaccia utente tra cui, ad esempio, uno dei più noti è Matlab (abbreviazione di Matrix Laboratory) ma energicrea preferisce suggerire il programma di statistica Minitab, sviluppato nell’Università USA, anche per l’immediato collegamento alla metodologia Lean Six Sigma (guarda il tutorial)

Con questi software è estremamente semplice trovare i legami di cui parlavamo all’inizio (indici di correlazione) ed addirittura immediato e completamente automatico effettuare test che altrimenti richiederebbero ore (se non giorni) come, ad esempio, un Anova Test (banalizzando, verificare se vi sia una qualche relazione tra due gruppi di dati).

Se si vuole fare il salto di qualità, si dovrà passare dai software interfaccia ai linguaggi di programmazione in grado di andare ad alimentarsi direttamente delle enormi moli di dati che servono e di elaborarli per le nostre specifiche necessità.

Anche in questo caso, i linguaggi sono molti tra cui i relativamente diffusissimi Python e Ruby (il primo prende il nome dal gruppo di comici Inglesi Monthy Python e spero che il secondo non faccia altrettanto dalla nostra recente cronaca giudiziaria 😮 ) ma la scelta di energicrea ricade ancora ( un recente nostro blog lo ha citato ) su “R” che ricordiamo essere completamente gratuito.

Per cercare di far capire ai non addetti ai lavori cosa è “R” suggeriamo di immaginare una tabella in Excel; ecco ora immaginatela con righe e colonne infinite; ecco ora immaginate che sopra e sotto la tabella iniziale ve ne siano altre due identiche per il formato infinito ma con dati diversi; ecco ora immaginate che le tabelle aggiunte sopra e sotto non siano due ma anche loro infinite; ecco ora immaginate che in ogni cella non ci sia un valore ma un numero infinito; ecco ora sostituite a vostra scelta ogni numero con un testo, un vettore, una matrice, un array (matrice tridimensionale) o un data frame (data base); ecco, R funziona anche così e senza rallentamenti di performance 🙂

Concludiamo questo blog con due spunti di riflessione, uno piccolo ma dal grande impatto ed uno infinito ma, per noi, troppo vasto:

  • più i sistemi sono complessi e più ricordatevi di concentrarvi sulla varianza piuttosto che sulla media (ad esempio ANOVA trae proprio il nome da ANalysis Of VAriance)
  • “scoprire i legami tra fenomeni diversi e prevedere quelli futuri” porta al tema delle learning machine ovvero a computer in grado di apprendere in maniera autonoma che è la vera sfida