Apple pubblica un maxi dataset per insegnare all’AI a fare vere modifiche foto guidate da testo

Apple rilascia Pico-Banana-400K, dataset da 400.000 immagini per addestrare modelli di fotoritocco guidati da prompt.

Giuseppe Migliorino29 Ottobre 2025

Apple presenta Pico-Banana-400K, un dataset da 400.000 immagini curate pensato per colmare un vuoto ben noto a chi lavora con l’AI creativa: mancano dati di qualità specifici per addestrare e valutare modelli di fotoritocco guidato da testo che funzionino davvero su foto reali, non solo su composizioni sintetiche o casi scolastici.

L’obiettivo è ambizioso: costruire una base solida per modelli che capiscano istruzioni naturali del tipo “schiarisci l’incarnato, aumenta il contrasto locale, rimuovi l’oggetto sullo sfondo e aggiungi una dominante fredda”, e lo facciano in sequenza, senza degradare l’immagine.

Il dataset è organizzato in 35 tipologie di editing raggruppate in otto macro-categorie, che spaziano da interventi basilari (bilanciamento colore, esposizione, saturazione) fino a trasformazioni più creative e “stilistiche”, come la resa cartoon/Pixar-like o LEGO-style applicata a soggetti umani e oggetti di scena.

Ogni immagine è passata attraverso una pipeline di controllo qualità: Apple ha usato sistemi AI per verificare aderenza all’istruzione e qualità tecnica, e ha impiegato Gemini-2.5-Pro come valutatore per misurare in modo consistente compliance e resa visiva.

Nel pacchetto ci sono tre sottoinsiemi pensati per scopi diversi di training e benchmark:

258.000 esempi single-edit per addestrare in modo supervisionato la risposta a un’istruzione singola.
56.000 coppie di preferenza che confrontano un edit riuscito con uno fallito, utili per tecniche di preference learning e allineamento.
72.000 sequenze multi-turn che mostrano l’evoluzione della stessa immagine attraverso più modifiche consecutive, requisito chiave per workflow realistici.

Il text-guided image editing ha fatto enormi passi avanti con i grandi modelli multimodali, ma in produzione emergono due criticità: scarsa precisione locale (spostare un oggetto di pochi pixel, correggere un’etichetta, allineare una scritta) e coerenza su più step di editing. Senza dati “giusti”, i modelli imparano scorciatoie, confondono regioni dell’immagine o generano artefatti all’aumentare dei passaggi.

Pico-Banana-400K attacca proprio lì: fornisce istruzioni granulari e target visivi per allenare modelli a rispettare vincoli spaziali e semantici, mantenendo allo stesso tempo qualità fotografica e dettagli fini.

Apple ha costruito il dataset sfruttando l’editor di immagini Gemini-2.5-Flash-Image (soprannominato “Nano-Banana”) per generare ed etichettare molte trasformazioni, quindi ha misurato i limiti dell’approccio:

Le modifiche “globali” di stile riescono nel 93% dei casi.
Task di precisione come rilocare oggetti, modificare testi o interventi tipografici scendono sotto il 60% di successo.

È esattamente il gap che questo dataset intende ridurre, offrendo materiale per allenare e benchmarkare modelli nuovi, con metriche comparabili su compiti difficili.

Il dataset completo è disponibile gratuitamente per uso di ricerca non commerciale su GitHub. Significa che laboratori accademici, team interni R&D e sviluppatori indipendenti possono usarlo per training, fine-tuning e valutazioni riproducibili, a patto di rispettare i termini d’uso.