Alibaba entra con forza nel settore della generazione di immagini basata sull’intelligenza artificiale, presentando una nuova versione del suo modello Qwen. La novità è ambiziosa: la creazione di immagini strutturate su più livelli indipendenti, pensate non solo per stupire, ma anche per essere realmente modificabili.
Qwen e il ritorno dei livelli nell’AI generativa
🎨 Qwen-Image-Layered is LIVE — native image decomposition, fully open-sourced!
— Qwen (@Alibaba_Qwen) December 19, 2025
✨ Why it stands out
✅ Photoshop-grade layering
Physically isolated RGBA layers with true native editability
✅ Prompt-controlled structure
Explicitly specify 3–10 layers — from coarse layouts to… pic.twitter.com/g5mvTt0KTT
Dopo le evoluzioni introdotte da Midjourney e la recente svolta Nano Banana firmata Google, il panorama dell’AI per la generazione di immagini viene nuovamente scosso, questa volta da un attore cinese. Venerdì 19 dicembre 2025, Alibaba ha infatti svelato ufficialmente Qwen-Image-Layered, un modello che riporta al centro un concetto fondamentale per i professionisti: i livelli.
Finora, la maggior parte dei generatori di immagini produceva un risultato finale unico, pronto all’uso ma difficilmente modificabile. Un approccio perfetto per la condivisione rapida, molto meno per chi lavora con grafica, comunicazione o design. Mancava una caratteristica chiave dei software di editing come Adobe Photoshop: la possibilità di intervenire su singoli elementi senza alterare l’intera composizione.
Un’AI che si avvicina a Photoshop
Con Qwen, Alibaba introduce proprio questa logica. Il modello è in grado di generare immagini suddivise in un numero variabile di livelli, generalmente da 3 a 10, ciascuno gestibile in modo indipendente. In questo modo diventa possibile, ad esempio, modificare uno sfondo, correggere un oggetto o intervenire su un dettaglio specifico senza compromettere il resto dell’immagine.
Secondo quanto dichiarato dal gruppo, il sistema può anche scomporre un’immagine già esistente in una quantità potenzialmente illimitata di livelli. Un singolo input visivo può quindi trasformarsi in più componenti distinte, ciascuna rappresentativa di un diverso piano dell’immagine. Questo apre la strada a un utilizzo decisamente più avanzato e professionale della generazione automatica.