阿里通義千問推圖像編輯模型Qwen-Image-Edit
MoneyDJ新聞 2025-08-19 10:40:27 新聞中心 發佈 綜合陸媒報導,阿里巴巴(9988.HK)旗下阿里雲通義千問今(19)日宣布推出Qwen-Image-Edit圖像編輯版本。Qwen-Image-Edit基於20B的Qwen-Image模型進一步訓練,成功將Qwen-Image的獨特的文本渲染能力延展至圖像編輯領域,實現了對圖片中文字的精準編輯。
Qwen-Image-Edit將輸⼊圖像同時輸⼊到Qwen2.5-VL(實現視覺語義控制)和VAE Encoder(實現視覺外觀控制),從而兼具語義與外觀的雙重編輯能力;用戶可訪問Qwen Chat並選擇「圖像編輯」功能進行體驗。
Qwen-Image-Edit的主要特性包括:
一、語義與外觀雙重編輯:Qwen-Image-Edit不僅支持low-level的視覺外觀編輯(如元素的添加、刪除、修改等,要求圖片其他區域完全不變),並支援high-level的視覺語義編輯(如IP創作、物體旋轉、風格遷移等,允許整體畫素變化但保持語義一致)。
二、精準文字編輯:Qwen-Image-Edit支持中英文雙語文字編輯,可在保留原有字體、字型大小、風格的前提下,直接對圖片中的文字進行增、刪、改等操作。
三、強大的基準性能:在多個公開基準測試中的評估表明,Qwen-Image-Edit在圖像編輯任務上具備SOTA性能,是一個強大的圖像編輯基礎模型。
Qwen-Image-Edit的一大亮點在於其語義與外觀雙重編輯能力。所謂語義編輯,是指在保持原始圖像視覺語義不變的前提下,對圖像內容進行修改。
|