GLI agenti di intelligenza artificiale stanno diventando sempre più sofisticati. Stanno crescendo da strumenti che sole rispondono a domande verso sistemi in grado di eseguire autonomamente compiti complessi e multi-passo. Tuttavia, prima che questi agenti possano essere affidati a compiti critici come prenotare viaggi o analizzare dati finanziari, sia i produttori di modelli che le startup che costruiscono tali agenti desiderano assicurare la loro capacità di eseguire una vasta gamma di scenari in modo affidabile.

I laboratori di intelligenza artificiale spesso utilizzano benchmark per dimostrare il potenziale dei loro modelli. Tuttavia, un punteggio alto, anche su benchmark specifici per gli agenti IA, non conferma necessariamente che un modello possa completare correttamente compiti complessi e reali.

Patronus AI, startup fondata nel 2023 da ex ricercatori di Meta Anand Kannappan e Rebecca Qian, sta aiutando i produttori di modelli e le aziende a sintonizzare i modelli esattamente per questo scopo. La startup sta costruendo ambienti digitali simulati in cui valutare le prestazioni degli agenti.

Secondo Glenn Solomon, director managing di Notable Capital, una startup basata a San Francisco deve certo risolvere un problema importante: pressoché ogni laboratorio di IA avanzato e molte startup emergenti sono già clienti. Solomon descrive la domanda degli ambienti simulati dell’azienda come quasi insaziabile.

Gli introiti della startup sono aumentati 15 volte nel corso dell’ultimo anno, alimentando un grande interesse da parte degli investitori. Mercoledì la compagnia ha annunciato che ha raccolto 50 milioni di dollari nel giro di una serie B guidata da Greenfield Partners, con la partecipazione di Notable Capital, Lightspeed, Datadog e Samsung. Il finanziamento porta il totale a 70 milioni.

Mondi digitali e testing realista

Patronus utilizza una tecnologia che definisce “modelli di mondi digitali” per creare repliche di siti web e sistemi interni. In questi ambienti, gli agenti vengono sottoposti a prove di stress utilizzando l’apprendimento con rinforzo: si ricompensano i completamenti riusciti compiti e si penalizzano gli errori.

I laboratori di intelligenza artificiale riconoscono un grande valore in queste simulazioni digitali, poiché permettono agli agenti di affrontare diversi scenari, anche imprevedibili. Patronus confronta il suo approccio con il modo in cui Waymo ha addestrato le vetture autonome costruendo mondi sintetici per testarle contro eventi rari, come il maltempo o un bambino che corre dietro a un pallone.

La differenza con gli agenti IA

Il problema con gli agenti IA è che spesso tendono a prendere scorciatoie, il che significa che non completano i compiti correttamente. “Patronus è davvero bravo nel individuare questi trucchi e nel garantire che i modelli siano tenuti responsabili” ha detto Solomon.

Attualmente, Patronus offre i suoi mondi digitali per ambiti come l’ingegneria software e la finanza. Tuttavia, questi sono solo l’inizio, ha dichiarato Kannappan.

“Oggi siamo fortemente focalizzati su problemi verificabili, quelli che puoi verificare immediatamente, ma esistono tantissime aree che sono verificabili a fatica o quasi non verificabili” ha aggiunto. “Solo perché questi processi sono verificabili non significa che siano semplici. “Vogliamo riuscire effettivamente a creare un ambiente in cui puoi utilizzare un agente che possa operare per 10 ore, 10 giorni o addirittura 10 settimane.”

La concorrenza

Riguardo alla concorrenza, Patronus ritiene di competere principalmente con i team interni già iniziati dai laboratori di intelligenza artificiale per valutare il comportamento degli agenti. Sebbene aziende che raccolgono dati umani come Mercor e Surge supportino i costruttori di modelli con l’apprendimento con rinforzo, Patronus adotta un metodo diverso: valuta il comportamento degli agenti senza alcun coinvolgimento umano.