El equipo de Qwen ha presentado Qwen-Image, un modelo fundacional multimodal de 20.000 millones de parámetros especializado en generación y edición de imágenes con capacidades avanzadas de representación textual. Entre sus características clave se encuentra una capacidad sobresaliente para renderizar texto y editar imágenes con un alto nivel de precisión semántica y visual.
Texto complejo, edición realista y rendimiento superior en benchmarks
Qwen-Image ha sido evaluado en varios benchmarks públicos como GenEval, DPG y OneIG-Bench para generación general, así como GEdit e ImgEdit para edición. En todos ellos, el modelo ha demostrado un rendimiento superior al de modelos existentes. También sobresale en pruebas centradas en renderizado textual como LongText-Bench, ChineseWord y TextCraft.
Te recomendamos nuestra guía con los mejores servicios de chatbot para usar sin cuenta.
Uno de los principales avances es su capacidad para renderizar texto en múltiples idiomas, formatos y tamaños. El modelo logra generar párrafos manuscritos, carteles publicitarios, infografías, portadas de libros, incluso poesía en hojas minúsculas, respetando siempre la disposición, la semántica y la estética.
Por ejemplo, Qwen-Image ha sido capaz de generar:
- Carteles de estilo anime con rótulos en chino.
- Pósters de películas con títulos y subtítulos en inglés.
- Infografías decorativas con múltiples módulos de texto e iconografía organizada.
- Páginas de presentaciones tipo PowerPoint con textos técnicos en chino, efectos visuales y estructuras jerárquicas claras.
En cuanto a edición, el modelo permite operaciones como transferencia de estilo, adición/eliminación de objetos, ajuste de poses, edición textual y mejora de detalles, todo sin comprometer la coherencia visual. Esto abre posibilidades tanto para profesionales como para usuarios sin conocimientos técnicos avanzados.
Además, el modelo admite una amplia gama de estilos artísticos, desde escenas fotorrealistas hasta pintura impresionista, pasando por ilustración, diseño minimalista y arte digital conceptual.
Qwen-Image ya se puede probar a través de Qwen Chat, seleccionando la opción de generación de imágenes. Según sus creadores, el modelo busca democratizar la creación visual y facilitar nuevas aplicaciones creativas en entornos profesionales y personales. De hecho, es de código abierto y se puede usar online sin coste alguno. Su API, por otro lado, sí que tiene un coste asociado, pero es ridículo comparado con otras opciones del mercado.

