Avvelenare un modello linguistico non richiede accesso ai suoi pesi: basta saturare il web di contenuti calibrati. Il caso Clock Tower X documenta questa strategia e solleva questioni urgenti su trasparenza, regolamentazione e responsabilità epistemica nell’era dell’intelligenza artificiale generativa.
Un contratto governativo per inquinare l’intelligenza artificiale
L’avvelenamento sistematico dei modelli linguistici di grandi dimensioni – LLM poisoning – non è più una minaccia teorica confinata ai laboratori di cybersecurity. È diventato oggetto di un contratto governativo, finanziato con fondi pubblici esteri, progettato per alterare le risposte che milioni di utenti ricevono ogni giorno da sistemi come ChatGPT.
Il caso che lo dimostra arriva da un filing ufficiale depositato presso il Dipartimento di Giustizia degli Stati Uniti. Nel settembre 2025, un filing FARA (Foreign Agents Registration Act) ha rivelato un contratto da 6 milioni di dollari, poi espanso, tra il governo israeliano e Clock Tower X LLC, una società guidata da Brad Parscale, ex manager digitale della campagna presidenziale di Donald Trump.
I documenti descrivono una campagna “nazionale negli Stati Uniti per combattere l’antisemitismo”, ma i dettagli tecnici rivelano un piano molto più sofisticato: l’obiettivo non è influenzare l’opinione umana, ma manipolare i modelli di lingua.
Una strategia di avvelenamento indiretto
I documenti FARA analizzati mostrano che l’obiettivo dichiarato era di “deployare siti web e contenuti per influenzare i risultati delle conversazioni GPT”. Non è un contratto con OpenAI o un accesso diretto ai pesi del modello. Si tratta invece di un attacco indiretto: inondare internet con contenuti calibrati, progettati per essere indicizzati, ingoiati e riassunti dalle intelligenze artificiali.
Secondo i dati ufficiali, la campagna prevede la creazione di almeno 100 “root creative assets” al mese e 5.000 varianti derivate. L'80% è focalizzato sui contenuti adatti all'utenza generazione Z su TikTok, Instagram, YouTube e podcast. L’obiettivo di esposizione mensile è di circa 50 milioni di impressioni con un costo medio sottocento per milletimpressioni. Il tutto viene supportato da uno strumento SEO predittivo chiamato MarketBrew AI, per migliorare il posizionamento web delle narrative rilevanti.
Il meccanismo non è legale nello schema classico, ma rappresenta un attacco sofisticato: non si modifica il modello, non si modifica l’utente. Si modifica l’interfaccia tra utente e modello. L’elemento tecnico rilevante sta nell’inserimento di informazioni manipolate nel flusso di dati che alimenta i LLM.
Il numero minimo per avvelenare
Secondo un recente studio del Turing Institute in collaborazione con UK AI Security Institute e Anthropic, pubblicato nel 2025, bastano appena 250 documenti malevoli per compromettere un modello linguistico, indipendentemente dalla sua dimensione (da 600 milioni a 13 miliardi di parametri). Questo numero non cambia, a differenza di quanto si pensa: l’escalation dimensionale dei modelli non rende il sistema più sicuro. È esattamente l’opposto.
Un lavoro scientifico pubblicato su Nature Medicine nel gennaio 2025 ha dimostrato che una percentuale minima (0,001%) di disinformazione nel dataset di addestramento può portare a modelli di intelligenza artificiale con una maggiore propensione a commettere errori clinici. Questi modelli compromessi riescono persino a superare i benchmark open-source di valutazione senza mostrare segni di anomalia.
Le tecniche disponibili oggi, come riportate da Checkpoint e OWASP Top 10 for LLM, includono:
- Backdoor in framework agentic: come dimostrato nel 2024, le descrizioni degli strumenti in questi framework possono contenere istruzioni nascoste che gli AI agenti finiscono per eseguire.
- RAG manipulation: i sistemi Retrieval-Augmented Generation, sempre più utilizzati in ambito aziendale, presentano un punto di debolezza in quanto potrebbero essere alimentati con fonti di informazione esterne inquinate.
I sistemi RAG non richiedono accesso diretto ai dati di addestramento ma possono essere compromessi in fase di retrieval esterno. Checkpoint ha documentato che, usando le metodologie di frontrunning e di split-view, un intruso può manipolare il componente di knowledge retrieval, generando testi “falsi e apertamente malevoli”.
Il GEO, una nuova forma di marketing politico
Arriva quindi il terzo livello, ancora più sottile e inquietante: il GEO (Generative Experience Optimization). Definito in un paper peer-reviewed di Princeton, Georgia Tech, Allen Institute for AI e IIT Delhi del 2023, il GEO consiste nella strutturazione di contenuti digitali pensati per migliorare la visibilità nelle risposte generate da sistemi di AI generativa.
I tecniche GEO, validate scientificamente, includono:
- Pianificazione SEO mirata alla generazione di contenuti
- Progettazione di testi con schema chiave-topic-tema, mirato al retrieval
- Generazione di contenuti “ricchi” che sembrano di valore ma nascondono bias
Il GEO non è illegale, è una tecnica di marketing. Diventa pericoloso quando è usato sistematicamente da attori statali con budget milionari e obiettivi geopolitici. Il contenuto non deve convincere l’utente: deve convincere l’algoritmo del LLM che quella fonte è rilevante, autorevole e meritevole di essere citata.
Il Problema di Truman: quando l’AI accetta la realtà come un sogno
Il punto sistemico non è tanto la capacità di manipolare i contenuti, bensì la strutturacategoriale della fiducia architetturale dell’AI verso i dati esterni. Un agente AI — che possa essere un chatbot, un motore di ricerca conversazionale o un assistente digitale — non “conosce” nel senso umano: solo cerca, sintetizza e fornisce.
Il modo in cui cerca dipende da corpus di addestramento e fonti esterne che possono essere avvelenate quasi senza costi. Un paper del 2026 dell’Imperial College London descrive questa vulnerabilità come Adversarial Environmental Injection (AEI): la costruzione di un “mondo falso” di risultati di ricerca avvelenati e reti di riferimento fabbricate intorno agli agenti inconsapevoli.
I ricercatori individuano due livelli di attacco:
- The Illusion: inquina l’intero spazio di ricerca, spingendo il LLM a credere in informazioni false
