Noticias

El nuevo modelo de IA Qwen-Image llega desde China para romper los esquemas de la generación de imagen con texto

Este modelo se especializa en la creación de imágenes en las que aparece texto, algo que ChatGPT ya mejoró en sus últimas versiones

El equipo de Qwen ha presentado Qwen-Image, un modelo fundacional multimodal de 20.000 millones de parámetros especializado en generación y edición de imágenes con capacidades avanzadas de representación textual. Entre sus características clave se encuentra una capacidad sobresaliente para renderizar texto y editar imágenes con un alto nivel de precisión semántica y visual.

Texto complejo, edición realista y rendimiento superior en benchmarks

Qwen-Image ha sido evaluado en varios benchmarks públicos como GenEval, DPG y OneIG-Bench para generación general, así como GEdit e ImgEdit para edición. En todos ellos, el modelo ha demostrado un rendimiento superior al de modelos existentes. También sobresale en pruebas centradas en renderizado textual como LongText-Bench, ChineseWord y TextCraft.

Te recomendamos nuestra guía con los mejores servicios de chatbot para usar sin cuenta.

Uno de los principales avances es su capacidad para renderizar texto en múltiples idiomas, formatos y tamaños. El modelo logra generar párrafos manuscritos, carteles publicitarios, infografías, portadas de libros, incluso poesía en hojas minúsculas, respetando siempre la disposición, la semántica y la estética.

Qwen nuevo modelo

Por ejemplo, Qwen-Image ha sido capaz de generar:

  • Carteles de estilo anime con rótulos en chino.
  • Pósters de películas con títulos y subtítulos en inglés.
  • Infografías decorativas con múltiples módulos de texto e iconografía organizada.
  • Páginas de presentaciones tipo PowerPoint con textos técnicos en chino, efectos visuales y estructuras jerárquicas claras.

En cuanto a edición, el modelo permite operaciones como transferencia de estilo, adición/eliminación de objetos, ajuste de poses, edición textual y mejora de detalles, todo sin comprometer la coherencia visual. Esto abre posibilidades tanto para profesionales como para usuarios sin conocimientos técnicos avanzados.

Además, el modelo admite una amplia gama de estilos artísticos, desde escenas fotorrealistas hasta pintura impresionista, pasando por ilustración, diseño minimalista y arte digital conceptual.

Qwen-Image ya se puede probar a través de Qwen Chat, seleccionando la opción de generación de imágenes. Según sus creadores, el modelo busca democratizar la creación visual y facilitar nuevas aplicaciones creativas en entornos profesionales y personales. De hecho, es de código abierto y se puede usar online sin coste alguno. Su API, por otro lado, sí que tiene un coste asociado, pero es ridículo comparado con otras opciones del mercado.

Fuente
Qwen Blog

Edgar Otero

Técnico de sistemas informáticos. Experto en tocar botones, instalar aplicaciones y reconfigurar mi vida digital cada cierto tiempo. Explico experimentos y otros trucos utilizando solamente un teclado.
Los datos de carácter personal que nos facilite mediante este formulario quedarán registrados en un fichero de Miguel Ángel Navas Carrera, con la finalidad de gestionar los comentarios que realizas en este blog. La legitimación se realiza a través del consentimiento del interesado. Si no se acepta no podrás comentar en este blog. Puedes consultar Política de privacidad. Puede ejercitar los derechos de acceso, rectificación, cancelación y oposición en info@profesionalreview.com
Botón volver arriba