Apple testa l’intelligenza artificiale per capire se può davvero agire al posto nostro

Apple ha co-firmato uno studio che analizza se gli assistenti AI sono in grado di prevedere le conseguenze delle azioni compiute all’interno delle app.

Giuseppe Migliorino27 Giugno 2025

Nel panorama sempre più affollato degli assistenti vocali e agenti intelligenti, la domanda non è più solo se l’AI possa premere il pulsante giusto, ma se sappia davvero cosa accade dopo. Ed è proprio questa la questione al centro di uno studio pubblicato da Apple, presentato all’ACM Conference on Intelligent User Interfaces in Italia.

Il titolo dello studio è “Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts” ed è stato realizzato con lo scopo di misurare il livello di consapevolezza dell’AI rispetto agli effetti delle sue azioni su interfacce mobili.

Fino ad oggi, buona parte della ricerca sull’AI in ambito UI si è focalizzata sulla capacità dell’agente di navigare interfacce: riconoscere i pulsanti, muoversi tra i menu, selezionare opzioni. Ma Apple e i co-autori dello studio hanno deciso di andare oltre: non basta toccare il pulsante giusto, bisogna anche sapere quando è il caso di NON farlo.

Lo studio ha reclutato partecipanti per interagire con app reali, chiedendo loro di registrare tutte quelle azioni che avrebbero trovato preoccupanti se eseguite da un’AI in autonomia: inviare messaggi, modificare password, effettuare transazioni finanziarie, e così via.

Da qui è nato un framework di classificazione dell’impatto, che valuta ogni azione sulla base di:

Intenzionalità dell’utente (navigazione, transazione, comunicazione…)
Impatto visivo sull’interfaccia
Conseguenze dirette per l’utente
Reversibilità dell’azione
Frequenza d’uso nella vita reale

Insomma, l’obiettivo è aiutare l’AI a porsi domande tipo: “Si può annullare?”, “Avvisa qualcun altro?”, “È un’azione permanente?” prima di eseguire un comando.

Con questo dataset in mano, gli autori dello studio hanno messo alla prova cinque grandi modelli linguistici, tra cui GPT-4, Google Gemini e il meno noto Ferret-UI di Apple.

Il risultato? Gemini ha raggiunto un’accuratezza del 56%, mentre GPT-4 multimodale ha toccato il 58%, grazie alla sua capacità di ragionamento a catena (chain-of-thought), cioè quella strategia in cui il modello spiega passo dopo passo la sua logica.

Ferret-UI? Non è stato il migliore, ma ha mostrato progressi e soprattutto conferma che Apple sta seriamente sviluppando AI proprietaria per navigare e interpretare le interfacce mobili, con uno sguardo rivolto a Siri.