Gli agenti artificiali stanno diventando sempre più sofisticati. Si stanno evolvendo da strumenti in grado di rispondere a domande a sistemi in grado di eseguire in autonomia compiti complessi e multi-step.
Tuttavia, prima che questi agenti possano essere utilizzati per prenotare viaggi o condurre analisi finanziarie a nome degli utenti, sia i fornitori di modelli che le startup che ne sviluppano gli agenti vogliono garantire che siano affidabili in un numero enorme di scenari diversi.
I laboratori di IA spesso utilizzano benchmark per mostrare le capacità dei propri modelli, ma un punteggio elevato, anche in benchmark orientati agli agenti, non dimostra veramente che un’IA possa assolvere correttamente una varietà di compiti complessi e reali.
Patronus AI, una startup fondata nel 2023 da ex ricercatori di Meta AI Anand Kannappan e Rebecca Qian, sta aiutando produttori di modelli e aziende a ottimizzare i loro modelli esattamente in questo modo. La startup utilizza ambienti simulati digitali per valutare le prestazioni degli agenti.
La startup con sede a San Francisco sembra risolvere un problema di grande importanza. Secondo Glenn Solomon, managing director di Notable Capital, quasi tutti i laboratori di IA di punta e molte aziende emergenti utilizzano già i servizi di Patronus. Solomon descrive la richiesta per gli ambienti simulati della startup come quasi insaziabile.
I ricavi della startup sono cresciuti 15 volte rispetto all’anno scorso, spingendo un considerevole interesse degli investitori. Giovedì, la startup ha annunciato l’aver raccolto 50 milioni di dollari in una serie B guidata da Greenfield Partners, con la partecipazione di Notable Capital, Lightspeed, Datadog e Samsung. Questo finanziamento porta il totale degli investimenti a 70 milioni di dollari.
Un approccio innovativo alla simulazione
Patronus utilizza quello che chiama “modelli di mondi digitali” per creare copie di siti web e sistemi interni. In questi ambienti, gli agenti vengono sottoposti a stress-test dopo l’addestramento, utilizzando l’apprendimento per rinforzo, una tecnica che premia iterativamente il completamento corretto delle attività e penalizza gli errori.
I laboratori di IA vedono un grande valore in questi simulazioni digitali perché permettono agli agenti di affrontare situazioni diverse, spesso imprevedibili. Patronus paragona il proprio approccio a come Waymo addestra le auto autonome: costruendo prima mondi sintetici per testare le vetture contro scenari rari, come condizioni meteorologiche estreme o un bambino che corre dietro a un pallone.
La sfida degli 'aiuti di comodo'
La differenza principale con gli agenti IA è che tendono a prendersi scorciatoie, il che significa che non completano effettivamente il compito richiesto in modo corretto. “Patronus è davvero bravo a individuare queste scorciatoie e a garantire che gli agenti siano controllati in modo rigoroso”, ha dichiarato Solomon.
Applicazioni attuali e future
Patronus sta già fornendo i propri mondi digitali simulati per settori come l’ingegneria software e la finanza, ma questi rappresentano solo lo spunto iniziale, ha spiegato Kannappan.
“Attualmente ci concentriamo molto sui problemi che sono verificabili, quindi su quei problemi che puoi controllare e verificare immediatamente, ma esistono tante altre aree che sono molto meno verificabili o addirittura impossibili da verificare”, ha affermato il co-fondatore.
Nonostante siano verificabili, questi processi non sono comunque semplici. “Vogliamo creare l’ambiente in cui un agente possa operare per 10 ore, 10 giorni o addirittura 10 settimane”, ha chiarito Kannappan.
La competizione
Chi si confronta con Patronus?
Per il momento, Patronus considera i suoi principali competitor gli stessi team interni che le aziende di IA hanno già creato per valutare il comportamento degli agenti. Anche aziende specializzate in dati umani come Mercor e Surge contribuiscono ai fornitori di modelli con l’apprendimento per rinforzo. Tuttavia, Patronus adotta un approccio diverso: testa come si comportano gli agenti autonomamente, senza la supervisione umana.
Il futuro dell’IA dipenderà molto da come questi agenti saranno in grado di affrontare compiti complessi e imprevedibili. Lavorare in ambienti controllati, come quelli offerti da Patronus, sarà cruciale nel perfezionamento degli strumenti IA del futuro.
