Recensioni

Perché dovresti conoscere meglio i dati che non puoi conoscere

La conoscenza dell’inconoscibile migliora i risultati delle ricerche, e talvolta salva la vita.

Titolo:  Dark Data: Why What You Don’t Know Matters
Autore: David J. Hand
Editore: Princeton University Press
URL: https://darkdata.website/
ISBN: 0691198853, 9780691198859
Data di pubblicazione: 2020

« Ci sono incognite note, cioè sappiamo che ci sono cose che non conosciamo. Ma ci sono anche incognite sconosciute, quelle che non sappiamo di non sapere.». In una famosa conferenza stampa del 2002, l’allora segretario della difesa Donald Rumsfeld fece questa affermazione.1 Fu ridicolizzato a lungo sulla stampa statunitense, ma le critiche erano ingiuste: Rumsfeld non aveva detto nulla di errato e, anzi, la sua era un’affermazione di grande buon senso.

Non è solo il sapere che determina i risultati di una buona ricerca ma, con una certa eco della filosofia socratica, anche il sapere di non sapere e addirittura sapere di non sapere ciò che in effetti non si sa.

Se di ciò che sappiamo, i dati e le informazioni che abbiamo a disposizione, si può farne un uso adeguato per ottenere dei buoni risultati, è fuor di dubbio che bisogna anche utilizzare adeguatamente la conoscenza di ciò che non si sa. Trascurare l’ignoto può portare ad errori grossolani e costosi e il libro Dark Data: Why What You Don’t Know Matters è dedicato a questo « non sapere » così importante nella ricerca.

Il titolo deve tutto alla fisica: nello studio della rotazione delle galassie si è notato che le stelle più lontane non si muovevano più lentamente di quelle più vicine al centro e ciò contraddiceva ciò che i fisici si sarebbero aspettati dalla legge di gravità. L’unico modo per risolvere quest’enigma è stato supporre la presenza di una « materia oscura » avente massa tale da incidere sulla rotazione delle galassie. La materia oscura è invisibile agli strumenti ma raggiunge ben il 27% di tutta la massa dell’universo. L’impatto della materia oscura è tanto rilevante che la nostra stessa galassia, la Via Lattea, dovrebbe piuttosto essere chiamata Via Oscura dato che la materia oscura è presente in una misura oltre dieci volte superiore a quella ordinaria.

« I dati oscuri e la materia oscura si comportano in modo analogo: non li vediamo, non sono registrati, eppure possono avere un effetto importante sulle nostre conclusioni, decisioni e azioni. E […] se non siamo consapevoli della possibilità che ci sia qualcosa di sconosciuto in agguato, le conseguenze possono essere disastrose, persino fatali. »

L’autore di Dark Data, David J. Hand, è professore emerito di matematica e ricercatore senior all’Imperial College di Londra, ex presidente della Royal Statistical Society e Fellow della British Academy. Tra i suoi libri precedenti ricordiamo The Improbability PrincipleMeasurement: A Very Short IntroductionStatistics: A Very Short IntroductionThe Wellbeing of Nations e Principles of Data Mining.

La mancata conoscenza dei dati sconosciuti è il tallone d’Achille anche della ricerca meglio condotta. I dati che non ci sono, o di cui non si è a conoscenza neppure che dovrebbero esserci, possono infatti falsare in modo tanto drastico i risultati da renderli del tutto inutili, o addirittura controproducenti.

Il libro prende in esame alcuni casi molto noti in cui aver trascurato dei dati, apparentemente insignificanti, ha portato a catastrofi.

Quello emblematico fu la distruzione della navetta Challenger che portò alla morte dei sette astronauti, tra cui due civili. Responsabile fu la decisione di lanciare il vettore fuori dalle condizioni di temperatura previste, che generò l’espansione di una guarnizione di meno di cinquantasei millesimi di pollice per un tempo non superiore a sei decimi di secondo. La decisione venne dopo numerosi tentativi e ritardi, quindi sotto una forte pressione dell’opinione pubblica, e fu presa da un comitato a cui fu fornito un grafico dei lanci che avevano avuto problemi a questa guarnizione per valutare se operando fuori dalle specifiche di temperatura avrebbe potuto guastarsi. Dal grafico non risultava una chiara correlazione tra temperatura e problemi, anzi i problemi alla guarnizione si erano verificati anche a temperatura molto più alte. Il lancio fu così autorizzato. Se nel grafico fossero stati riportati anche i dati relativi a tutti i lanci senza problemi, cioè la maggioranza, sarebbe stato evidente che la temperatura aveva un ruolo determinante nella riuscita dei lanci poiché quelli senza problemi si addensavano tutti, senza esclusione, oltre una certa temperatura. I dati che rappresentavano il buon funzionamento,però, furono esclusi dal grafico perché ritenuti ininfluenti per valutare i malfunzionamenti. Con il senno di poi, invece erano essenziali.

Il caso del Challanger espone con chiarezza solo tre dei ben 15 tipi di Dark Data che Hand cataloga, il tipo DD-3 (la scelta di alcuni casi), ma anche DD-2 (dati che non sappiamo essere mancanti) e il tipo DD-15 (estrapolazioni oltre i dati disponibili).

L’intero elenco preso in considerazione da Hand (che però non lo considera esaustivo) è:

  • DD 1: Dati che sappiamo essere mancanti
  • DD 2: Dati che non sappiamo essere mancanti
  • DD 3: Scelta di alcuni casi
  • DD 4: Autoselezione
  • DD 5: Mancanza di dati importanti
  • DD 6: Dati che avrebbero potuto esserlo
  • DD 7: Cambiamenti nel tempo
  • DD 8: Definizioni di dati
  • DD 9: Sintesi dei dati
  • DD 10: Errore di misura e incertezza
  • DD 11: Feedback e azzardi
  • DD 12: Asimmetria informativa
  • DD 13: Dati intenzionalmente oscurati
  • DD 14: Dati inventati e sintetici
  • DD 15: Estrapolazione al di là dei propri dati

Per ognuno di questi tipi Hand fornisce esempi e indica i migliori strumenti di scoperta e strategie per il trattamento.

Chiunque faccia analisi dei dati in modo professionale si è certamente trovato di fronte a tutti queste situazioni e le ha dovute trattare, di volta in volta, con tecniche o strategie ad hoc, spesso senza neppure pensarci troppo. Alcune soluzioni a questi problemi sono talmente comuni da essere nel DNA di molti data-scientist e talvolta sono gestite direttamente nei metodi tecnici adottati nelle analisi.

Il lavoro di Hand è interessante perché a questi automatismi spesso non è collegata una adeguata consapevolezza delle conseguenze. Talvolta l’adozione di strategie differenti per trattare differenti tipi di dark data, usate in contemporanea, invece di migliorare, rovina irrimediabilmente, la qualità dei dati, e le ricerche sono fatalmente compromesse in modi non chiaramente verificabili.

La comprensione dei dati oscuri cresce lentamente e spesso le sfide sono tutt’altro che banali. Hand trae esempi dalla ricerca medica, l’industria farmaceutica, il governo e le politiche sociali, il settore finanziario, l’economia, la produzione e molti altri settori. « Nessun settore è esente dai rischi dei dati oscuri. » dice Hand che fa anche notare che la parola dato è diventato sinonimo di evidenza e l’evidenza è il cuore del progresso economico e dell’approccio illuminista che ha permesso alle economie e alle società avanzate di crescere negli ultimi secoli.

Ma i dati, oggi paragonati ai petrolio (data is the new oil si dice), promettono grandi fortune a chi li controlla e sa usarli ma, proprio come il petrolio, hanno la necessità di essere raffinati, puliti e preprocessati, in modo da renderli efficaci. Conoscere adeguatamente il rapporto che i dati disponibili hanno con quelli oscuri è un aspetto fondamentale di questo processo di raffinamento.

L’espressione « data is oil » però ha i suoi limiti. « A differenza del valore del petrolio, che può essere riscosso da chiunque, il valore dei dati dipende da ciò che si vuole sapere. Inoltre, sempre a differenza del petrolio, i dati possono essere venduti o ceduti senza che l’utente vi rinunci. Infatti, i dati possono essere copiati e riprodotti un numero illimitato di volte. E, naturalmente, i dati possono essere oscuri: i dati che non si hanno potrebbero rendere quelli che si hanno di valore molto limitato. Inoltre, ci sono questioni come la privacy e la riservatezza che semplicemente non hanno analogie nel mondo del petrolio. »

La comprensione dei dati oscuri può portare a innovazioni nella capacità di analisi, ma anche impedire l’accesso alla conoscenza sottostante. Un esempio esposto da Hart, diventato un classico nel genere, è l’estrazione dell’inflazione da un indice dei prezzi (il Billion Prices Project) estratti con lo scraping dal web. L’inflazione così calcolata è risultata, sia per livelli che per dinamica, compatibile coi trend ufficiali in alcuni paesi del Sud America, mentre in Venezuela, senza alcun motivo apparente, ha mostrato delle differenze così tanto inspiegabili da portare uno degli autori, Alberto Cavallo della Sloan School of Management, ad affermare che « i risultati dell’Argentina, invece, confermano il sospetto che il governo stia manipolando le serie ufficiali dell’inflazione. È l’unico Paese in cui l’inflazione online si discosta significativamente dalle stime ufficiali nel corso del tempo. »

In definitiva Dark Data si spinge ben oltre la ragionevole distinzione tra incognite note e incognite sconosciute. I dati oscuri possono essere questo, ma anche dati che non potevano esistere, che esistevano ma sono spariti o cambiati, o addirittura inventati. « La prospettiva dei dati oscuri inverte il normale modo di guardare le cose, portando a semplificazioni e a una comprensione più profonda quando i dati osservati vengono inseriti in un contesto più ampio che include i dati oscuri. »

Attraverso un numero molto ampio di situazioni esposte nel libro, è possibile rafforzare la propria consapevolezza sui rischi nelle analisi, comprendere cosa bisogna tenere in conto e quali metodi usare per identificare i dati oscuri, come correggerli e come, attraverso la conoscenza di ciò che non è conoscibile, riportare alla luce intere aree delle ricerche che rischierebbero di essere oscurate da semplificazioni comode, adottate talvolta con superficialità dai ricercatori.

Note a piè di pagina:

1 D. Rumsfeld, Department of Defense News Briefing, 12 Febbraio 2002.