
Arriva uno studio scientifico firmato Apple in collaborazione con MIT, Carnegie Mellon, University of Washington e UC San Diego: i robot umanoidi del futuro potrebbero imparare osservando noi, grazie a video in prima persona registrati con Apple Vision Pro. È questa l’idea esplorata nel paper “Humanoid Policy ∼ Human Policy”, dove si indaga un nuovo modo – molto più economico, rapido ed efficace – per insegnare ai robot a comportarsi nel mondo reale.
Il cuore del progetto è una semplice, ma geniale intuizione: invece di istruire i robot con costose e lente sessioni di teleoperazione, perché non fargli osservare esseri umani all’opera, registrando il tutto da una prospettiva in prima persona?
Per farlo, i ricercatori hanno sviluppato un’app per Apple Vision Pro capace di utilizzare la fotocamera frontale sinistra e le capacità di tracciamento 3D di ARKit, per catturare in tempo reale i movimenti di testa e mani durante la manipolazione di oggetti. In parole povere: il robot guarda quello che vede l’umano e impara.
Per rendere il sistema più accessibile, è stato realizzato anche un supporto stampato in 3D che consente di montare una ZED Mini Stereo Camera su visori più economici, come il Meta Quest 3, garantendo comunque un’ottima qualità di tracciamento.
Il team ha raccolto oltre 25.000 dimostrazioni umane e 1.500 dimostrazioni robotiche, creando un vasto dataset battezzato PH2D (First-Person Human and Humanoid Demonstrations). Questo insieme di dati è stato poi utilizzato per addestrare un unico modello AI, capace di interpretare e replicare comportamenti in modo trasversale: dall’umano al robot, senza doverli distinguere a priori.
Questa visione unificata è resa possibile da HAT – Human Action Transformer, un sistema che apprende da entrambe le sorgenti (uomo e robot) in modo integrato, imparando una policy comune che può essere applicata a diverse piattaforme fisiche.
Tradizionalmente, addestrare un robot richiede sessioni complesse e costose di telecontrollo, tecnici esperti e poi enormi quantità di tempo.
Il metodo proposto da Apple, invece, è molto più scalabile, veloce ed economico. Bastano pochi secondi di registrazione in prima persona per generare dati utili. In più, per ovviare alla discrepanza tra velocità umana e robotica, le registrazioni vengono rallentate di quattro volte, permettendo al robot di apprendere senza sforzi eccessivi di calcolo.
Nei test effettuati, i robot addestrati con questo metodo sono riusciti a gestire compiti nuovi mai visti prima, mostrando maggior adattabilità rispetto ai metodi tradizionali.
News