Home / News / Apple spiega come vengono insegnate nuove lingue a Siri

Apple spiega come vengono insegnate nuove lingue a Siri

Giuseppe Migliorino 9 Marzo 2017

Se da una parte Siri non ha ancora l’IA di Google Assistant, dall’altra l’assistente virtuale di Apple è quello che supporta il maggior numero di lingue e di dialetti. Per raggiungere questo obiettivo, il capo del team Siri che si occupa di localizzazione ha spiegato quali sono le procedure per far apprendere nuove lingue all’assistente Apple…

Per fare un raffronto, ad oggi Siri supporta 24 lingue e 36 diversi dialetti, mentre Google Assistant funziona solo in 5 lingue e Amazon Alexa solo con due

Alex Acero, capo dello speech team in Apple, ha spiegato che inizialmente il riconoscimento vocale di Siri si basava sulle tecnologie della Nuance, ma da un paio d’anni l’azienda sta utilizzando una piattaforma vocale realizzata in-house che si basa sul machine learning per migliorare la comprensione delle parole.

Quando bisogna inserire una nuova lingua in Siri, il processo inizia portando in sede persone reali che parlano perfettamente quella lingua. Queste persone leggono diversi paragrafi ed elenchi di parole, con diversi dialetti e accenti legati a quella particolare lingua. La voce umana viene registrata e trascritta da altre persone, per assicurarsi che venga raggiunta la massima precisione. I dati grezzi vengono poi immessi in un modello di algoritmo in grado di inserire tutte le informazioni e di catalogarle. Questo algoritmo migliore automaticamente nel tempo quando vengono raccolti altri dati, molti dei quali vengono inseriti da Apple internamente, con l’aiuto di altre persone che parlano quella determinata lingua.

Prima di trasferire queste informazioni direttamente su Siri, Apple rilascia la nuova lingua come update nella funzione di dettatura su iOS e macOS. Questo permette ad Apple di ottenere molti più campioni vocali, che vengono inviati in forma anonima da una base molto più ampia di persone.

Queste clip audio provenienti dal mondo reale, del tutto naturali e con spesso dei rumori di fondo, non sono perfette, ma Apple prende tali campioni e li trascrive, per poi abbinarli a nuovi file audio registrati in loco per offrire più dati di input al modello di machine learning. Questo processo taglia di metà il tasso di errori nella dettatura.

Apple ripete questa procedura fino a quando non ritiene che il sistema sia abbastanza preciso, e solo in quel momento la nuova lingua viene inserita in Siri. Separatamente, i doppiatori registrano le sequenze vocali in modo che Siri sia in grado di sintetizzare l’audio ed eseguire le riposte text-to-speech. Alla fine, sarà l’intelligenza artificiale di Siri a rispondere alle varie domande, anche durante una conversazione più naturale, ma sempre con risposte scritte da esseri umani.

Acero spiega che Apple monitora quello che gli utenti chiedono a Siri una volta che è disponibile una nuova lingua, così da poter aggiornare il database di risposte ogni due settimane.