Focus su mercati emergenti

Supporto al cliente e servizi sono tra i settori più promettenti per l’implementazione dell’AI vocale. Tuttavia, costruire soluzioni in grado di parlare con naturalezza e rispondere in tempo reale si rivela molto più complesso in alcune aree del mondo, in particolare in Africa e Medio Oriente, dove la maggior parte degli strumenti esistenti non è progettata per gestire dialetti locali. AethexAI, una startup fondata lo scorso anno con l’obiettivo di colmare questa lacuna, ha raccolto 3 milioni di dollari in finanziamenti di serie pre-seed, guidati da 4DX Ventures e con partecipazione di Enza Capital, Dorm Room Fund, Mojo Ventures e Stanford GSB 26 Fund. Tra gli investitori individuali figurano docenti di Stanford, esecutivi del settore delle telecomunicazioni e ricercatori di AI di Anthropic.

I fondatori

AethexAI è stata fondata da Mariama Diallo e Ayooluwa Odemuyiwa, due ex professionisti che hanno accumulato esperienza negli ambienti finanziari e tecnologici di alto livello. Diallo, in qualità di CEO, ha lavorato in Goldman Sachs, seguito da un ruolo come hire per prodotto e crescita presso ModelML, una startup supportata da Y Combinator. Odemuyiwa, che ha ottenuto la laurea da Caltech, ha lavorato presso Meta e ha frequentato la Stanford Business School prima di co-fondare la startup. Il loro obiettivo comune era sviluppare un prodotto adatto all’Africa e ad altri mercati emergenti, dove le soluzioni di AI vocale attualmente disponibili non soddisfano completamente le esigenze locali.

Problemi locali e soluzioni innovative

Molte aziende stanno cercando di applicare strumenti di AI per automazione e supporto vocale, ma i risultati non sempre sono positivi. Secondo i fondatori di AethexAI, i tempi di risposta e i ritardi nei chiamate automatizzate in Africa e nel Medio Oriente sono state problematici. In Egitto, ad esempio, un centro di assistenza ha automatizzato una buona parte delle chiamate, ma ha dovuto annullare il sistema successivamente a causa di prestazioni insufficienti. Inoltre, la difficoltà nell’assumere ingegneri in grado di automatizzare i servizi in modo economico è stata un ostacolo ricorrente in diverse aree africane. Per affrontare questi problemi, la startup ha scelto di progettare da zero un modello di piccole dimensioni e uno strato di orchestratone personalizzato, in grado di gestire dialetti locali come l’inglese, il francese e l’arabo delle sue aree di intere.

CTO Odemuyiwa ha spiegato a TechCrunch che se avessero utilizzato modelli esistenti, come Vapi o LiveKit, avrebbero potuto dipendere da modelli grandi ospitati all’esterno della regione, con conseguente aumento della latenza. Questa è la ragione per cui hanno deciso di sviluppare modelli a bassa latenza per adattarsi al mercato, mantenendo l'affidabilità e la velocità richieste per un'esperienza fluida del cliente.

Ispirazione tecnica

Più laboratori di AI dedicati alla creazione e al lancio di modelli avanzati dedicano milioni di dollari all'addestramento. AethexAI ha seguito un approccio diverso, focalizzandosi su modelli di piccole dimensioni per affrontare il problema centrale: la riduzione della latenza mantenendo comunque un alto livello di precisione. Questi modelli, chiamati serie Kora, hanno dimensioni che vanno da 300 milioni a 1,7 miliardi di parametri, una frazione di quelli normalmente utilizzati nei modelli LLM. Secondo la startup, questo permette di ottenere un buon equilibrio tra velocità, costo e efficienza tecnica su scala regionale.

Data collection e partner strategici

Per creare e perfezionare i loro modelli, AethexAI ha utilizzato registrazioni anonime ottenute attraverso uno dei loro partner call center, inoltre ha inviato hard disk a stazioni radio in tutta l’Africa per raccogliere ulteriore dati vocali. Per contenere i costi di annotazione, la startup ha creato una rete di studenti universitari che collaboravano al progetto, annotando i dati e pronunciando i nomi locali per raffinare la capacità di riconoscimento vocale. Il risultato finora è la gestione di oltre 17.000 chiamate al giorno, un livello operativo solido che la startup punta a espandere ulteriormente.

Prestazioni commerciali e partner strategici

Da un punto di vista commerciale, AethexAI accompagna i clienti, principalmente imprese non esperte in AI vocale, nel processo di adozione, offrendo dimostrazioni in loco, workshop sul campo e strumenti di aiuto nella selezione delle use case più adatti. Secondo Diallo, la startup non aspira ad essere “tutto per tutti” al momento, ma preferisce concentrarsi su casi specifici, partendo da uno o due usi essenziali per cliente. Questo approccio mirato e flessibile ha consentito loro di costruire una base di clienti soddisfatti e di migliorare le capacità di personalizzazione del loro sistema a ogni nuovo test.

Settori di applicazione

La startup è aperta all’utilizzo nelle più varie industrie, tuttavia una quota significativa delle sue attuali implementazioni riguarda call per la raccolta di crediti, l'attivazione dei clienti, o KYC (Know Your Customer), il processo standard utilizzato da banche e telecomunicazioni per verificare le identità. Per supportare questi casi, AethexAI si appoggia su ingegneri specializzati contrattualmente distribuiti in loco, in grado di rispondere alle esigenze locali, e ha costruito partnership canalizzate con fornitori di servizi telefonici. Queste alleanze sono essenziali in un mercato caratterizzato da un’infrastruttura telefonica esistente che spesso non è compatibile con soluzioni plug-and-play o modelli di AI globale.

Osservazioni del mercato

Walter Baddoo, co-fondatore e managing partner di 4DX Ventures, evidenzia che i mercati africano e del Medio Oriente sono profondamente diversi da quelli tradizionalmente serviti da aziende leader come ElevenLabs, Deepgram, Sierra o Cognigy. Lui spiega che le aziende in Africa e Medio Oriente gestiscono circa il triplo del volume di chiamate rispetto ai loro omologhi nei mercati occidentali, con il canale vocale rimane predominante per l’interazione con i clienti. Tuttavia, sistemi esistenti sono spesso sviluppati per aree con infrastrutture tecnologiche avanzate, dialetti standard e norme aziendali ben definite, che non rappresentano l’Africa o il Medio Oriente. Questo genera lacune concrete quando si tratta di gestire la varietà linguistica, l’alternanza linguistica e l’espressione non form