Articoli

K-BERT, RAG, knowledge graph e il paradosso epistemologico dell’ancoraggio perenne

L’OltreGPT: Verità vo cercando! Come ChatGPT cerca la verità fuori da sé

Nel tentativo di persuadere, fornendo risposte più adeguate alle domande, alcuni modelli di GPT ricercano evidenze all’esterno da sé. Il sistema base di trasformazione statistica dei testi non è in grado di produrre testi veritieri, ma solo ben formati. Per ovviare a questa limitazione si usano differenti tecniche come ad esempio modelli che seguono piani “razionali” di risposta parziale che però aiutano solo a migliorare le produzioni, provando a non discostarsi troppo dalle fonti, ma non aggiungono « valutazioni di verità » dei contenuti. Si adottano anche a strumenti di etica che, messi a valle della generazione dei testi, censurano ed escludono le produzioni non in linea con standard morali pre-supposti, ma anche in questo caso, i sistemi non producono qualcosa di vero, escludono solo quello che non piace ai loro creatori.

In definitiva, i GPT non conoscono cos’è la verità. Ma neppure noi umani sappiamo veramente cos’è la verità.

Per il genere umano, la verità è chiara e indubitabile solo se si ha fede in imposizioni di natura metafisica, come quelle della teologia o di qualche ideologia, compreso alcuni processi di determinazione delle evidenze scientifiche (su questo si consulti la recente ristampa di George Canguilhem, Ideologia e razionalità nelle scienze della vita. Mimesis. 2025). In definitiva, se si escludono alcuni specifici domini formali come la matematica, anche a noi sfugge ciò che è vero, a meno di non crederci.

Per « spiegare oggettivamente » la verità senza rifarci a forme di credenza, abbiamo dato luogo ad una grande quantità di teorie. Non siamo giunti ad un accordo sufficiente per decretare vera una di queste teorie sulla verità. Anche in campo scientifico, cioè l’ambito in cui sentiamo di poter trarre ciò che oggi è più vicino alla verità, ovvero la certezza, ci fidiamo più del processo di determinazione che non del risultato stesso, che sappiamo essere valido fino a prova del contrario.

Nel pensiero classico, Aristotele intendeva la verità come « adeguatio intellectus ad rem », cioè come concordanza fra la rappresentazione mentale e la realtà oggettiva (Aristotele, 2009). Quella visione “corrispondentista” aspira ad ottenere verità valide universalmente, ma poi fatica a tradursi in procedure operative quando il linguaggio si fa meno rigoroso.

Si sono moltiplicate così teorie filosofiche alternative – coerentismo, inflazionismo, deflazionismo – che offrono strumenti di analisi diversi e non necessariamente contraddittori rispetto all’idea di una verità ultima. Tuttavia, nessuna giunge a una conclusione universalmente accettata.

Ma se la verità “una e definitiva”, valida per sempre e per tutto, sembra essere alquanto al di là della nostra portata, non possiamo trascurare quelle pratiche epistemiche che, pur fallibili, permettono di avvicinarci a ciò che chiamiamo “la verità”, almeno in specifici ambiti di applicabilità e con limiti stringenti.

Ad esempio, le teorie di verificazione come quella di Alfred Tarski non sono meri esercizi astratti privi di ricadute concrete, ma strumenti che hanno trovato applicazione pratica nella verifica dei sistemi formali, e in particolare per la correttezza dei programmi informatici. La loro efficacia dimostra che un approccio rigoroso, seppure circoscritto, può produrre risultati riproducibili e confrontabili (Tarski, 1983).

È proprio sulla base di questi « modelli di verità parziali » che si muovono i tentativi dei GPT di dare consistenza veritativa alle produzioni, affidandosi alla costruzione di quelle che possiamo chiamare « bolle di verità contestuali ». In realtà queste bolle, calano l’utente in un guazzabuglio di opinioni fornite come certezze assolute da cui deve trarsi in salvo da solo esercitando una cospicua dose di giudizio.

Secondo Jürgen Habermas la verità di un enunciato si stabilisce solo attraverso pratiche discorsive in cui gli interlocutori, liberi da coercizioni, giustificano e validano reciprocamente le loro pretese di validità (Habermas, 2022); Michael Lynch, invece, non esclude l’esistenza di una sola verità che si declini con modalità diverse a seconda dei contesti epistemici, distinguendo fra la manifestazione per corrispondenza alla realtà e quella per coerenza interna (Lynch, 2009). Insomma il metodo frammentario adottato dai GPT potrebbe avere basi filosofiche più solide di quello che sembra a prima vista.

1. « I fatti sono fatti. »

Se, forse, siamo pronti ad accettare un certo grado d’incertezza nella definizione di un concetto complesso come quello di verità, siamo invece mal disposti a non considerare assodati senza contestazioni i meri fatti da cui far discendere una verità.

I fatti dovrebbero essere definiti con precisione, inoppugnabili e disponibili in maniera tale da potervi costruire sopra il castello di carte di una possibile verità. “Piove” o “non piove” non sono fatti che possano essere aperti all’interpretazione personale.

Eppure anche i semplici fatti hanno i loro problemi.

Il sentimento di sicurezza che accompagna la nozione di fatto è illusorio: ciò che chiamiamo fatto non emerge mai in modo neutro, ma è sempre il risultato di pratiche di osservazione, misurazione e classificazione che presuppongono teorie o strumenti.

Norwood Hanson, sistematizzando le intuizioni di Kant e Duhem, ha mostrato come ogni nostra percezione sia in realtà « carica di teoria » (theory-laden): ciò che vediamo è già orientato ai presupposti con cui ci eravamo posti di fronte al fenomeno (Hanson, 1958). In questo senso, il dato non precede mai completamente il linguaggio o l’apparato concettuale con cui viene interpretato, e l’idea di fatti innocenti va messa in discussione fin dall’inizio.

Édouard Le Roy adotta il gioco di parole: « I fatti sono fatti », cioé fabbricati (Le Roy 1899, p 515) come peraltro spiega Gaston Bachelard che, analizzando la fisica, parlerà di « fenomenotecnica », ovvero di quella capacità della scienza di generare fatti artificiali, attraverso gli strumenti di misura, laddove i fatti naturali sono piuttosto irrilevanti (Bachelard, 2019). Insomma, scomodando un linguaggio kantiano, se il noumeno resta inconoscibile e il fenomeno (naturale, empirico) è incerto, si può solo confidare nella tecnica che produce il fenomeno sperimentale che è certo ma dipende da quello che vogliamo leggerci dentro.

Quindi sia modelli teorici che pratiche tecniche diverse producono fatti sperimentali differenti per la stessa realtà.

Il che, se possibile, rende ancora più lontana una verità una e definitiva e ancora più rilevanti le pratiche epistemiche per la generazione di verità locali.

Questo spiega perché lo stesso motore di trasformazione (GPT) potrebbe fornire, interrogato più volte sullo stesso argomento, risposte diamentralmente differenti e perché tenda a essere condiscente con l’utente e non contraddirlo: assume il suo « punto di vista » nella modellazione dei riferimenti attraverso le cui lenti raccogliere i fatti.

2. Fatti, tecnicamente parlando

I fatti possono essere raccolti in asserzioni in formato testuale rappresendoli tecnicamente come grafi di triple descritti nel Resource Description Framework (RDF). Ogni tripletta è composta da soggetto, predicato e oggetto e i valori di questi campi sono identificatori unici (IRI) mentre solo l’oggetto può anche essere un nodo anonimo (blank node) o un dato di base (numero, stringa, ecc), ad esempio (CHI-->FA-->COSA). Il grafo supera i limiti delle strutture tabellari tradizionali, perché è intrinsecamente direzionale e etichettato, consentendo di descrivere risorse e le loro relazioni in modo flessibile ed estendibile.

Un nuovo fatto aggiunto ad una base preesistente crea, attraverso gli identificatori che sono puntatori navigabili, delle relazioni implicite con le altre risorse presenti nella base di conoscenza.

Sulla base di queste fondamenta si definiscono concetti come classi (tutti gli elementi di uno stesso tipo), proprietà (le caratteristiche di un elemento o di una classe), vincoli di dominio e di intervallo (cosa si può o si deve fare con uno o più elementi o classi). Con questo si costruiscono vocabolari lessicali adatti a modellare ontologie (ovvero reti di conoscenze formalizzate).

È così possibile definire pezzi di mondo ma anche creare controlli di coerenza logica, correggere errori e fare ragionamenti logici per scoprire conoscenze non esplicitamente introdotte nelle triple iniziali (Fensel et al., 2020).

Un testo letto dai sistemi di analisi semantica non viene quindi capito nello stesso senso in cui lo capirebbe un uomo, ma viene piuttosto sminuzzato in token (che possiamo immaginare come astrazioni delle parole) e poi alcuni di questi token sono riconosciuti come Nomi, Entità (date, luoghi, concetti astratti, ecc.) o Relazioni (NER). La loro giustapposizione nelle frasi dà indizi (probabilistici) sulla presenza di un fatto (o anche di fatti alternativi tra loro). I blocchi (NER) sono quindi trasformati in fatti RDF.

L’algoritmo quindi non capisce il testo ma, dopo averlo trasformato in rete semantica, lo «mette a sistema», conservandolo nella memoria di lavoro.

Poiché tutto questo viene fatto senza supervisione umana, molte cose possono andare male in questo processo, (errori di riconoscimento delle entità, concetti trascurati, collegamenti tra concetti inesatti, ecc.) ma i possibili errori sono mediati dal fatto che si trasformano una grande quantità di testi che, riconosciuti correttamente o con errori differenti, finiscono per rinforzare i collegamenti veri e attutire quelli errati.

La certezza di queste relazioni, ammesso che siano state ben comprese dal processo di scoperta, si fa strada così anche nei modelli semantici più avanzati che possono quindi dire cose, se non veritiere, almeno coerenti a livello concettuale e non solo a livello di produzione linguistica, come i GPT di base puramente stocastici.

All’interno del motore GPT stocastico non esiste un grafo concettuale: la conoscenza è distribuita solo nei pesi del modello e nei tensori di attenzione. È necessario potenziare il GPT con un meccanismo semantico che, ad esempio, recuperi documenti esterni e li incorpori al prompt di generazione, oppure tramite chiamate a servizi esterni di knowledge graph.

In assenza di questi moduli semantici, l’algoritmo GPT non ha alcuna capacità di trattare entità o relazioni come concetti, ma li elabora unicamente sequenze statistiche di token.

3. La verità è fuori di sé

La capacità di produrre testi fluidi e coerenti dei grandi modelli basati su trasformatori viene a volte integrata con strumenti semantici che aumentano l’affidabilità dei dati strutturati. Ma come si fa tecnicamente?

Il metodo forse più potente, ma meno usato, è denominato K-BERT (Knowledge — Bidirectional Encoder Representations from Transformers) adotta un approccio simile a un’iniezione diretta di conoscenza. L’algoritmo non consulta documenti esterni, ma riconosce nel testo le entità chiave (persone, date, luoghi, concetti) e recupera per ciascuna entità un piccolo sotto-grafo tratto da una base di conoscenza già strutturata in formato RDF.

Per così dire, K-BERT integra il prompt con un contesto già semantico in cui calare la trasformazione.

Queste piccole porzioni di rete semantica vengono inserite direttamente nel flusso di elaborazione del trasformatore, mantenendo sotto controllo la complessità tramite una griglia che limita le connessioni fra token e frammenti di grafo.

Il risultato è un modello che elabora non solo i numeri presenti nelle probabilità di transizione tra le parole, ma anche su fatti organizzati e potenzialmente verificati, migliorando la precisione delle risposte a domande complesse (Liu et al., 2020).

Esiste però un metodo più comunemente usato per integrare i GPT puramente stocastici che è chiamato Retrieval-Augmented Generation (RAG). A differenza del precedente integra un vero e proprio “motore di ricerca” collegato a una biblioteca digitale di testi, accuratamente revisionati. Quando ad un sistema RAG l’utente pone una domanda, il sistema cerca in tempo reale i documenti più pertinenti e li fornisce al generatore di testo, che ne utilizza i contenuti per costruire risposte fondate su fonti concrete.

Si crea in questo modo un contesto esteso per la richiesta, che unisce al prompt anche documenti rilevanti, con la speranza di attenuare l’incidenza delle affermazioni errate o inventate perché la generazione è guidata da pezzi di testo già esistenti e verificati (Lewis et al., 2020).

Il contesto così esteso ha però limiti significativi sia nella fase di recupero delle informazioni sia in quella di generazione della risposta. La qualità delle risposte dipende in modo rilevante dalla pertinenza e dall’equilibrio del corpus che si interroga. L’interrogazione sulla preesistente base di conoscenza per la selezione dei testi rilevanti avviene attraverso una domanda generata dallo stesso sistema, così è probabile che sia formulata in modo non neutro, e includa pregiudizi verso una determinata tesi, o sia condiscendente con il punto di vista dell’utente. Quindi è possibile che i documenti selezionati vengano estratti in modo intrinsecamente sbilanciato. La richiesta può, all’opposto, fornire documenti solo parzialmente correlati, anche a causa delle preferenze dei produttori del modello, o confondere concetti tra loro assonanti ma differenti. A quel punto invece di aiutare la generazione, la contestualizzazione semantica svierà verso risposte distorte o parziali, o appiattite sui bias presenti nei testi di partenza.

Inoltre, da un lato un corpus già in partenza squilibrato, che esclude ad esempio in modo sistematico informazioni di un certo tipo, amplifica questi errori, dall’altro un sistema poco curato rischia di produrre «più rumore che segnale», rendendo la generazione eccessivamente generica.

A differenza di RAG, K-BERT, supera il divario fra testo e knowledge graph, ma introduce un problema differente, denominato “knowledge noise”: possono essere innestati pochi frammenti di grafo, e risultare ininfluenti, oppure può essere innestato nel flusso dei token un eccesso di frammenti di grafo e la richiesta originale può così addirittura cambiare significato. Il sistema non conosce in anticipo cosa è effettivamente rilevante per la domanda nel grafo di conoscenza. Non può fare una selezione ragionata. Se troppi fatti, pur veri, vengono introdotti, il significato stesso della richiesta viene modificata poiché non tutti i percorsi di inferenza sono realmente pertinenti al contesto specifico.

In un certo senso, calata in un mare troppo ampio, la richiesta rischia più facilmente di andare alla deriva abbacinata da troppi punti di riferimento che si rivelano essere in realtà miraggi.

Con l’uso di queste tecniche, comunque, ci si avvicina alla verità, quantomeno quella locale, ma si accresce la fragilità complessiva delle risposte: ogni passaggio con supporto semantico diventa un potenziale punto di fallimento che richiede strumenti dedicati per il monitoraggio.

L’aspetto forse peggiore è che, sebbene questi sistemi diano l’impressione di essere più veritieri di quelli puramente stocastici, l’interpretazione dei risultati è completamente opaca: è arduo e anzi spesso del tutto impossibile rintracciare il motivo per cui un fatto, un documento o un pezzo di rete semantica, sia stato recuperato o come un sotto-grafo abbia influenzato la generazione. Non è facile, ammesso che sia addirittura possibile, stabilire i processi di verifica o audit indipendente che sarebbero necessari in utilizzi .

Nel caso dei RAG è possibile indirizzare l’utente ai testi che, con una certa probabilità, sono stati più rilevanti nella generazione del testo. È il metodo che alcuni modelli usano per rappresentare link alle fonti. Il sistema, in verità, non saprebbe trovare un diretto riferimento tra le proprie affermazioni e il documento indicato come fonte, ma l’utente può farlo agevolmente (o quantomeno convicersi che una relazione esista). Questa rappresentazione di trasparenza aumenta la fiducia nel risultato, ma sotto un certo punto di vista è solo un’altro dei trucchi adottati da questi sistemi per sembrare adeguati e persuadere gli utenti di una veridicità dei contenuti che, però, nei fatti non possono garantire.

4. I rischi

L’integrazione di fonti esterne nei LLM si propone come soluzione per mitigare i limiti dei modelli puramente autoregressivi, ma presenta al contempo alcune criticità che meritano di essere esaminate con attenzione.

In primo luogo c’è il «bias di fonte»: se il corpus interrogato riflette distorsioni culturali, ideologiche o semplicemente squilibri di copertura, il generatore riprodurrà e amplificherà tali pregiudizi, come dimostrano diversi studi sulla proliferazione di stereotipi di genere e razziali nei sistemi NLP (Bender & Koller, 2020).

Tra i problemi dei sistemi semantici, in particolare RAG, c’è la dipendenza da un sistema di recupero dell’informazione e da un indice vettoriale di significatività. Questi elementi possono infatti sottostare a politiche di concessione dei dati, e introducono un altro problema rilevante: un errore, o anche solo una scelta, di ranking o di indisponibilità, voluta o causale, anche solo transiente, di uno o più documenti possono deformare in modo sostanziale la risposta, rendendo fragile l’intera catena di generazione.

Le basi documentali di riferimento vengono considerate ad alto livello di attendibilità quindi è possibile che visioni di parte, disinformazione voluta o anche solo semplici errori editoriali possano essere trattati come fatti acquisiti e inoppugnabili.

Ma il bias di fonte e le distorsioni sulle dipendenze esterne, potrebbero non essere considerate un problema o un errore: addirittura possono essere visti come una strategia per adeguarsi all’utente dopo aver profilato lui, o la sua comunità, o azienda. Ad esempio, un utente profilato come comunista potrebbe (voler) essere esposto ad analisi marxiste sulla realtà, che un utente liberale potrebbe voler escludere, e così via.

D’altro canto già oggi taluni produttori di sistemi puramente stocastici fanno vanto di prediligere un’accurata selezione dei testi dati in input per meglio rappresentare una data comunità di utilizzatori ed evitare la predominanza di stereotipi stranieri, il che in effetti significa prediligere stereotipi differenti, non l’assenza di stereotipi.

Gli utenti di questi sistemi vivrebbero (o già vivono adesso) in una bolla di conoscenze, di fatti appositamente fabbricati o di stereotipi. A lungo andare questa bolla puø diventare insuperabile diventando fonte di conflitto invece che strumento di condivisione, come una riedizione dell’approccio scientista che talvolta inquina le discussioni pretendendo di generalizzare risultati scientifici che sono, nella realtà, legati ad ipotesi ben precise.

I GPT si impiegnano molto per dare l’impressione di essere neutrali e trasparenti, ad esempio esponendo le proprie fonti. Anche questa illusione di trasparenza può diventare un’arma a doppio taglio: avere a disposizione in un testo un collegamento o un riferimento ad una fonte terza e quindi sapere da quale documento proviene un passaggio della produzione, non garantisce che quel testo sia privo di parzialità o corretto, e neppure che l’algoritmo lo stia usando correttamente e non ne stia travisando i contenuti. Questo impegna l’utente in un controllo ulteriore: oltre a controllare il testo generato dal GPT sulla base della fonte, sarà necessario controllare la veridicità della fonte, la non pazialità, la non manipolazione e, come purtroppo spesso accade, addirittura la sua effettiva esistenza.

Andrebbero affiancate al retrieval dei RAG, tecniche affidabili di validazione del contenuto come ad esempio classificatori di veridicità o metodi di consenso basati su aggregazione di fonti diverse, e promuovere un ruolo attivo dell’utente nel processo di verifica, anziché limitarsi a presentare un’unica “fonte di verità”, eventualmente addomesticata.

Senza procedure di verifica incrociata di fact-checking capace di mettere a confronto più fonti e strategie di “source tracing” che ne ricostruiscano la genealogia, un LLM può presentare informazioni errate con la stessa sicurezza e sicumera di quelle corrette, rendendo arduo discernere tra enunciati fondati e totali invenzioni (Paulheim, 2017). Esistono già alcune interessanti ricerche in questo campo.

5. Conclusioni: un aspetto ironico

L’adozione di meccanismi di retrieval e di knowledge graph per “rinvigorire” i GPT si pone, in chiave epistemologica, come un ironico paradosso: da un lato chi costruisce i GPT riconosce esplicitamente che la verità scientifica non è, e non può mai essere, una verità assoluta, un dato statico, un mero calcolo positivista, ma nasce da una costante successione di ricostruzioni critiche della base di dati e fatti calati in un contesto teorico o operativo; dall’altro, questi stessi produttori realizzano strumenti che tendono a cristallizzare in strutture discrete (indici vettoriali, triple RDF, ontologie) la fetta di sapere su cui operano, presentandola come se fosse un blocco stabile di fatti da non mettere in discussione ma solo da usare come riferimento in un mero calcolo dei contenuti.

Anche se molte implementazioni RAG e di knowledge graph adottano strategie di aggiornamento continuo (versioning, pipeline CI/CD, metadati temporali) i pre-giudizi presenti saranno sempre più complessi da superare con l’aggiunta di nuovi fatti dissonanti, ammesso che, come detto, inforcati gli occhiali semantici della rete di conoscenza quei fatti dissonanti potranno mai essere scoperti.

Riprendendo il lavoro di Gaston Bachelard, lo spirito scientifico (quindi la maggiore tensione alla verità fattuale che oggi conosciamo, pur con tutti i suoi limiti) progredisce attraverso successive « rotture epistemologiche », cioè momenti in cui le categorie concettuali consolidate non sono più in grado di spiegare i dati del mondo reale; vengono messe in crisi e poi sostituite con nuove formulazioni, nuove teorie, nuove pratiche operative, nuove visioni, capaci di liberare la ricerca da quegli « ostacoli epistemologici » imposti dal passato che impediscono il progresso scientifico stesso (Bachelard, 1995).

Anche se vengono messe in atto metodologie di monitoraggio epistemico e di diversificazione delle fonti (retrieval multi-corpus, pesi basati su metriche di affidabilità) e non necessariamente ci si affidi completamente a un singolo grafo della conoscenza; cogliere le discontinuità teoriche in atto, le rotture epistemologiche, dai dati stessi, appare essere ancora fuori dalla portata di questi sistemi a verità locale.

RAG e K-BERT innalzano un’infrastruttura che, seppure costantemente aggiornata, resta ancorata a fotografie statiche di documenti e grafi che riflettono esattamente gli schemi teorici che le hanno prodotte e spesso non hanno alcuna tensione critica.

Questi sistemi istituzionalizzano fatti che rimangono al riparo da possibili revisioni interne al modello, trasferendo la storicità del sapere dall’LLM (che l’ha appresa nei pesi) all’archivio esterno (che resta intoccabile fino all’aggiornamento successivo). Inoltre tendono a prediligere teorie stabili solo perché più diffuse, in luogo di quelle più moderne e radicali. Architetture di retrieval multi-source e di graph embedding multilivello consentirebbero di pesare le fonti non solo in base alla popolarità, ma anche alla loro centralità in una rete epistemica dinamica, favorendo il riconoscimento di teorie alternative o radicali quando acquisiscono consistenza empirica o condivisione intersoggettiva ma il riconoscimento di queste eccezioni resta collegato ad un intervento umano di selezione, sempre meno probabile.

L’ironia sta in questo: Bachelard ci invita a vedere il sapere come un continuo cantiere dove ogni generazione corregge e rilancia le fondamenta epistemiche del passato in un futuro aperto; le architetture RAG/K-BERT, da un lato imbracciano un’idea scientifica perfettamente coerente con l’approccio di epistemologia storica di Bachelard, traendo dai documenti storici la base per la valutazione della verità delle asserzioni, ma poi realizzano in sostanza un’ancoraggio anti-storico al passato che tende a cristallizzare quei fatti che dovrebbero essere storici e quindi superabili dalle novità.

Il modello viene così spinto a credere che i fatti esterni, una volta recuperati e inseriti, costituiscano un orizzonte definitivo, privato della tensione critica che li ha generati. In ultima analisi, si implanta un meccanismo che valorizza la storicità della conoscenza solo fino al punto in cui diventa comodo congelarla in triple e indici, delegando al curatore del grafo l’onere – e la responsabilità – di riconoscere e attuare le vere discontinuità epistemiche.

In un certo senso questi sistemi nascono odierni e anti-scientifici (almeno per chi si riconosce in un approccio storico alla scienza), e quindi saranno presto vecchi, tendendo a normalizzare le produzioni sulla base delle conoscenze cristallizzate e difficilmente mutabili. Da fonti del progresso normativo della scienza potrebbero trasformarsi in strumenti di normalizzazione sull’attualità scientifica.

6. Riferimenti bibliografici