
Apple presenta Pico-Banana-400K, un dataset da 400.000 immagini curate pensato per colmare un vuoto ben noto a chi lavora con l’AI creativa: mancano dati di qualità specifici per addestrare e valutare modelli di fotoritocco guidato da testo che funzionino davvero su foto reali, non solo su composizioni sintetiche o casi scolastici.
L’obiettivo è ambizioso: costruire una base solida per modelli che capiscano istruzioni naturali del tipo “schiarisci l’incarnato, aumenta il contrasto locale, rimuovi l’oggetto sullo sfondo e aggiungi una dominante fredda”, e lo facciano in sequenza, senza degradare l’immagine.
Il dataset è organizzato in 35 tipologie di editing raggruppate in otto macro-categorie, che spaziano da interventi basilari (bilanciamento colore, esposizione, saturazione) fino a trasformazioni più creative e “stilistiche”, come la resa cartoon/Pixar-like o LEGO-style applicata a soggetti umani e oggetti di scena.
Ogni immagine è passata attraverso una pipeline di controllo qualità: Apple ha usato sistemi AI per verificare aderenza all’istruzione e qualità tecnica, e ha impiegato Gemini-2.5-Pro come valutatore per misurare in modo consistente compliance e resa visiva.
Nel pacchetto ci sono tre sottoinsiemi pensati per scopi diversi di training e benchmark:
- 258.000 esempi single-edit per addestrare in modo supervisionato la risposta a un’istruzione singola.
- 56.000 coppie di preferenza che confrontano un edit riuscito con uno fallito, utili per tecniche di preference learning e allineamento.
- 72.000 sequenze multi-turn che mostrano l’evoluzione della stessa immagine attraverso più modifiche consecutive, requisito chiave per workflow realistici.
Il text-guided image editing ha fatto enormi passi avanti con i grandi modelli multimodali, ma in produzione emergono due criticità: scarsa precisione locale (spostare un oggetto di pochi pixel, correggere un’etichetta, allineare una scritta) e coerenza su più step di editing. Senza dati “giusti”, i modelli imparano scorciatoie, confondono regioni dell’immagine o generano artefatti all’aumentare dei passaggi.
Pico-Banana-400K attacca proprio lì: fornisce istruzioni granulari e target visivi per allenare modelli a rispettare vincoli spaziali e semantici, mantenendo allo stesso tempo qualità fotografica e dettagli fini.
Apple ha costruito il dataset sfruttando l’editor di immagini Gemini-2.5-Flash-Image (soprannominato “Nano-Banana”) per generare ed etichettare molte trasformazioni, quindi ha misurato i limiti dell’approccio:
- Le modifiche “globali” di stile riescono nel 93% dei casi.
- Task di precisione come rilocare oggetti, modificare testi o interventi tipografici scendono sotto il 60% di successo.
È esattamente il gap che questo dataset intende ridurre, offrendo materiale per allenare e benchmarkare modelli nuovi, con metriche comparabili su compiti difficili.
Il dataset completo è disponibile gratuitamente per uso di ricerca non commerciale su GitHub. Significa che laboratori accademici, team interni R&D e sviluppatori indipendenti possono usarlo per training, fine-tuning e valutazioni riproducibili, a patto di rispettare i termini d’uso.
News