阿里通义千问开源 Qwen-Image：20B 参数图像生成模型，聚焦复杂文本渲染与精确编辑

2025-08-05 09:51:33 0

　　8 月 5 日消息，阿里通义千问团队今日正式宣布开源 Qwen-Image。这是一款基于 20B 参数的 MMDiT 模型，同时也是通义千问系列中首个图像生成基础模型。该模型在复杂文本渲染和精确图像编辑领域取得了显著突破，为图像生成与编辑领域注入了新的活力。

　　Qwen-Image 的核心特性

　　Qwen-Image 凭借多项突出特性，展现出强大的性能：

　　卓越的文本渲染能力：该模型在复杂文本渲染方面表现抢眼，能够支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文文本，都能实现高保真输出，精准还原文字的形态与排版。

　　稳定的图像编辑一致性：通过增强的多任务训练范式，Qwen-Image 在图像编辑过程中能有效保持编辑的一致性，确保编辑前后的图像在风格、元素关联等方面连贯统一。

　　领先的跨基准性能：在多个公开基准测试中，Qwen-Image 的表现均达到行业领先水平(SOTA)。通义千问团队对其进行了全面评估，涵盖通用图像生成领域的 GenEval、DPG 和 OneIG-Bench，以及图像编辑领域的 GEdit、ImgEdit 和 GSO。尤其在文本渲染相关的 LongText-Bench、ChineseWord 和 TextCraft 基准测试中，该模型表现尤为出色，在中文文本渲染方面大幅领先现有最先进模型。

　　功能示例展示

　　多个示例，直观呈现 Qwen-Image 的能力：

　　场景化图像生成：根据 “宫崎骏的动漫风格。平视角拍摄，阳光下的古街热闹非凡……” 等详细描述，能生成符合风格与场景设定的生动图像，其中包含 “阿里云” 卡片、“云存储”“云计算”“云模型” 等元素，细节丰富且贴合文本。

　　中式文本与场景生成：可生成典雅庄重的中式厅堂场景，其中悬挂着指定对联 “义本生知人机同道善思新”“通云赋智乾坤启数高志远”，横批 “智启通义”，字体飘逸，搭配青花瓷、岳阳楼画作等元素，尽显古典韵味。

　　含特定文本的人物图像：能生成穿着 “QWEN” 标志 T 恤的中国美女形象，其身后玻璃板上的手写体文本 “Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解 Qwen-Image, 一款强大的图像基础模型，擅长复杂文本渲染与精准图像编辑” 清晰可辨，人物姿态与文本呈现自然融合。

　　广泛的应用能力

　　除了在文本处理方面的优势，Qwen-Image 在通用图像生成和图像编辑领域也具备广泛的应用能力：

　　多风格图像生成：支持从照片级写实场景到印象派绘画，从动漫风格到极简设计等多种艺术风格，能够灵活响应各类创意提示，满足不同的创作需求。

　　多样化图像编辑：提供风格迁移、增删改、细节增强、文字编辑、人物姿态调整等多种编辑操作，让普通用户无需专业技能，也能实现专业级的图像编辑效果。

　　Qwen-Image 的开源，不仅丰富了通义千问系列的模型生态，也为开发者和用户在图像生成与编辑领域提供了更强大的工具，有望推动相关技术的进一步发展与应用落地。

消息来源：