L’ultimo aggiornamento vocale di ChatGPT ci mostra come potrebbe essere la nuova Siri

L’integrazione totale tra voce e testo introdotta da ChatGPT anticipa una delle funzioni chiave che ci aspettiamo dalla nuova Siri con Apple Intelligence.

Giuseppe Migliorino26 Novembre 2025

L’ultimo aggiornamento di ChatGPT Voice sembra, sulla carta, un cambiamento piccolo: niente più modalità separate, ma un’unica interfaccia in cui puoi parlare, vedere le risposte in tempo reale, visualizzare immagini, mappe e contenuti mentre la conversazione va avanti.

In pratica, però, è esattamente il tipo di salto che molti utenti Apple si aspettano da Siri con Apple Intelligence: un assistente che non ti costringe a scegliere tra “solo voce” e “solo testo”, ma che sa muoversi con naturalezza tra tutte e due.

ChatGPT è nato come strumento puramente testuale. Poi è arrivata la voce: da un lato più “effetto umano” (con tutte le perplessità del caso), dall’altro una comodità reale per un certo tipo di interazioni.

Il problema era che c’era una modalità “solo voce” e una modalità “solo testo”.

Il risultato è che ti ritrovavi spesso a fare il 95% del lavoro parlando, salvo poi dover aprire la tastiera per chiedere, per esempio, la creazione di un’immagine o l’inserimento di un contenuto più strutturato. Era come usare due ChatGPT diversi nello stesso app, uno vocale e uno testuale, che non si parlavano davvero tra loro.

Con il nuovo aggiornamento, questa separazione viene meno: parli, vedi le risposte apparire nella chat, puoi scorrere i messaggi precedenti, guardare eventuali immagini o mappe, tutto in un unico flusso.

Se guardiamo a casa Apple, la situazione è quasi speculare. Siri è nata come assistente solo vocale, legata al tasto fisico e al comando “Ehi Siri”. Con Apple Intelligence e le ultime versioni di iOS, è arrivata la parte più “cerebrale”: riassunti di email, generazione di testo, funzioni di analisi e sintesi direttamente nelle app, spesso in modalità testuale.

Ora la sfida è mettere insieme questi due mondi. L’utente, idealmente, dovrebbe poter dire una frase del tipo: “Siri, organizza il viaggio a Roma per il weekend, trova l’hotel vicino alla stazione, aggiungi i biglietti in Wallet e fammi un riepilogo in Mail.”

E aspettarsi che succeda tutto questo:

risposta vocale chiara
mail di riepilogo pronta in Bozze
prenotazioni trovate tramite l’app di viaggi preferita
carte d’imbarco o biglietti salvati in Wallet
magari una vista con mappa e orari in Calendario

L’integrazione che vediamo oggi in ChatGPT Voice è esattamente il tipo di esperienza che Apple deve riuscire a portare su Siri, con in più un livello di controllo sulle app di sistema e di terze parti che ChatGPT, da solo, non può avere.

Di fatto, il vero salto non è solo leggere o rispondere a voce, ma trasformare l’assistente in un agente che agisce nelle app al posto tuo.

Immagina comandi come:

“Prenota il primo volo domattina da Milano a New York con la mia app di fiducia e avvisami se il prezzo supera i 500 euro.”
“Raccogli tutte le presentazioni Keynote di questo mese e crea un’email con i link per il mio team.”
“Trova le foto del weekend al mare e crea un album condiviso con la famiglia.”

Per fare questo, Siri deve:

Capire il comando vocale ad alto livello.
Tradurlo in una serie di azioni su app diverse.
Mostrare, dove serve, testi, immagini, mappe, interfacce intermedie.

L’integrazione voce–testo–visual che vediamo in ChatGPT è solo il primo pezzo del puzzle; il resto è tutta la parte di orchestrazione delle app, dove Apple ha un vantaggio enorme: il controllo della piattaforma.

C’è poi un altro punto importante. Non è detto che Apple riuscirà, da sola, a recuperare completamente il gap con i colossi dell’AI generativa. Anzi, una parte dell’intelligenza della nuova Siri potrebbe arrivare dall’esterno: OpenAI, Google Gemini, o altri modelli di terze parti.