ChipsBuilder

Dalla Sapienza a Cineca, da iGenius ad Almawave e Fastweb, c'è un impegno crescente da parte di soggetti pubblici e privati italiani per sviluppare modelli linguistici. Facciamo un bilancio per capire dove siamo e dove vorremmo andare, considerando che il tema non è competere con la Silicon Valley.

Arriva ChatMinerva, l’evoluzione di uno dei modelli più discussi in Italia, frutto della collaborazione tra l'università Sapienza di Roma e lo spin-off Babelscape. Questo progetto rilancia l’attenzione su ciò che l’Italia sta facendo in questo campo tecnologico e competitivo.

Sui modelli linguistici, ricordiamo che il nostro paese occupa ultime posizioni in Europa, con il primo modello europeo, Mistral, che però è solo centesimo al mondo per potenza. Le tecnologie Usa e Cina dominano completamente il campo, e l’Ue si trova in ritardo. Giovanni Miragliotta, direttore dell'Osservatorio sull'intelligenza artificiale del Politecnico di Milano, conferma questa situazione.

Tuttavia, l’Italia non vuole stare fuori dal gioco. Stiamo cercando una nostra strada, puntando su diversi approcci tecnici, ma anche sulla ricerca di nicchie utili da esplorare. La Strategia italiana sull’intelligenza artificiale (2024-2026), che dovrebbe essere aggiornata, prevede lo sviluppo di sistemi di IA specifici per il contesto italiano e modelli fondazionali multimodali nazionali.

ChatMinerva: Innovazione Tecnologica Accademica

ChatMinerva si è presentato a inizi giugno da lavoro del gruppo Sapienza Nlp diretto da Roberto Navigli, e realizzato in collaborazione con lo spin-off Babelscape. Utilizza il supercomputer Leonardo di Cineca per i processi di addestramento e fine-tuning.

Minerva era già uno dei progetti più noti nel panorama nazionale: una famiglia di modelli addestrati da zero, con una forte presenza di dati italiani e inglesi. ChatMinerva aggiunge un livello applicativo: accesso web tramite un sistema di webRag, finestra di contesto estesa a 32.000 token, comprensione multimodale e filtro di input e output sensibili.

Un'Analisi Del Panorama Italiano Dei Modelli Linguistici

Ecco una panoramica dei principali modelli linguistici sviluppati in Italia.

Minerva: Famiglia di modelli addestrati da zero; model card Minerva-7B-instruct-v1.0: 7 miliardi di parametri, addestrato su quasi 2,5 trilioni di token; ad alta presenza di dati italiani e inglesi; Navigli annuncia in autunno 2026 un modello evoluto da 20 miliardi di parametri.

iGenius: Italia-9B sviluppato in collaborazione con Cineca; modello open source, licenza MIT, pensato per casi d’uso enterprise; l'infrastruttura chiave è il supercomputer Leonardo.

Almawave: Velvet è un modello enterprise, con la famiglia Velvet composta da modelli 14B e 25B. L’obiettivo è l’integrazione in settori ad alta intensità documentale, come il diritto e la giurisdizione.

Fastweb: MIIA presenta un modello addestrato prevalentemente in Italia; adatto a essere utilizzato on-premise o in private cloud; model card da 7 miliardi di parametri, addestrato su trilioni di token su infrastruttura propria.

Asc27: Vitruvian-1 è un modello orientato al ragionamento e all’uso specialistico. Ha 14 miliardi di parametri. Il suo target sono aziende e governi, e ha un focus anche su domini come la medicina, il diritto e l'analisi tecnica.

Comunità MII-LLM: Zagreus-0.4B-ita è un modello bilingue italiano-inglese da 400 milioni di parametri; progettato con un focus non competitivo ma sperimentale; la famiglia Nessone è costruita su Zagreus, utile per versioni dedicate come instruct, tool use.

Che cosa ne dice la ricerca accademica? Roberto Navigli, Antonio Cisternino e Antonio Chella hanno espresso pareri non entusiasti riguardo al livello tecnico rispetto a quelli americani o cinesi; il valore di ChatMinerva è accademico, non competitivo.

I modelli come Maestrale, DanteLLM-7B, e Dante-2B rappresentano approcci diversi. Ad esempio, Dante-2B è un modello bilingue progettato fin dall’origine con tokenizzazione mirata per l'italiano; DanteLLM-7B basa il suo lavoro su dataset specifici del contesto italiano.

Tra Applicazioni, Limiti E Prospettive

I modelli italiani presentano una gamma ampia di applicazioni potenziali: dal processing di testi giuridici o scientifici al ragionamento e gestione di documenti complessi. Tuttavia, l'Italia fatica ad entrare nella competizione globale e, come dimostrato da stime di Semianalysis, la scala di parametri italiana è molto inferiore rispetto alle controparti Usa e Cina.

La natura diversa di ogni modello suggerisce che l'obiettivo non è solo di competere a livello internazionale, ma anche di trovare spazi in cui sviluppiamo modelli adatti alle specificità italiane: dati locali, lingua specifica e settori verticali.

Il tema della sovranità dei dati e della localizzazione dell’infrastruttura guadagnerà importanza, in particolare con modelli come FastWebMIIA o Almawave Velvet. Questi modelli rappresentano un passo avanti verso la costruzione di tecnologie che tengano conto della sensibilità locale e del rispetto delle normative europee.

In conclusione, il panorama italiano si mostra non solo complesso ma variegato: nonostante l'Italia non abbia la forza tecnologica del resto del mondo, c'è un impegno forte nel cercare nicchie, innovare e adattare modelli esterni a contesti nazionali. Questo, almeno per ora, fornisce un'opportunità strategica e non solo tecnologica.