In collaborazione con l’Università di Nanchino e la Hong Kong University of Science and Technology, il team di Machine Learning di Apple ha annunciato Matrix3D, un innovativo modello AI capace di creare scene 3D dettagliate partendo da appena tre fotografie.
Una tecnologia che potrebbe diventare uno dei pilastri dell’ecosistema Apple Vision Pro e delle sue future evoluzioni.
Matrix3D è stato definito da Apple un Large Photogrammetry Model, cioè un modello AI di fotogrammetria di nuova generazione. Per chi non ha familiarità con il termine, la fotogrammetria è una tecnica che permette di ottenere misurazioni e ricostruzioni tridimensionali partendo da semplici fotografie bidimensionali. Finora, questo processo ha richiesto l’uso di più modelli separati per stimare la posizione della fotocamera, prevedere la profondità e infine generare il modello 3D finale.
Con Matrix3D, tutto questo viene semplificato e integrato in un’unica architettura. Il modello prende in input le immagini, i parametri della fotocamera (come angolazione e lunghezza focale) e i dati di profondità, elaborandoli simultaneamente in modo altamente ottimizzato. Il risultato è una pipeline più snella, rapida e precisa.
Ciò che rende Matrix3D ancora più interessante è il metodo di addestramento utilizzato: una strategia di apprendimento mascherato, simile a quella impiegata nei primi modelli Transformer, gli stessi che hanno posto le basi per chatbot evoluti come ChatGPT.
Durante il training, i ricercatori hanno deliberatamente nascosto porzioni dei dati in ingresso, costringendo il modello a “immaginare” e completare le informazioni mancanti. Questo approccio, oltre ad accelerare l’apprendimento, ha permesso a Matrix3D di gestire anche dataset incompleti o limitati, garantendo comunque risultati di alta qualità.
Il punto forte di Matrix3D è la sua capacità di generare scene 3D complesse a partire da sole tre immagini 2D. Non si parla solo di oggetti semplici, ma anche di ambienti completi e dettagliati, pronti per essere esplorati all’interno di visori AR/VR come il Vision Pro.
Questa possibilità apre scenari incredibili, sia in ambito professionale (modellazione, design, architettura, gaming) che personale, come la creazione di ambienti virtuali realistici dai propri scatti fotografici, perfetti per il metaverso o per esperienze immersive personalizzate.
Apple ha sorpreso ulteriormente rendendo disponibile il codice sorgente di Matrix3D su GitHub, insieme a una serie di esempi consultabili anche tramite un sito web dedicato. Gli utenti possono visualizzare video dimostrativi e interagire con alcune ricostruzioni 3D basate su nuvole di punti, un formato molto usato nella visualizzazione di ambienti spaziali digitali.
L’apertura di questo progetto alla community di ricerca e sviluppo è un segnale importante, che mostra l’intenzione di Apple di contribuire attivamente alla crescita dell’AI open-source in ambiti ancora in forte espansione.
News