阿里通義千問推新推理模型,多項能力顯著提升
MoneyDJ新聞 2025-07-31 12:41:41 記者 新聞中心 報導 綜合陸媒報導,阿里巴巴(9988.HK)旗下阿里雲通義千問今(31)日宣布,推出全新推理模型Qwen3-30B-A3B-Thinking-2507,相較於4月29日開源的Qwen3-30-A3B模型,新模型在推理能力、通用能力,以及上下文長度上有了顯著提升。
在聚焦數學能力的AIME25評測中,新模型取得85的高分;在代碼能力測試LiveCodeBench v6中得分66,兩項核心推理能力均超越Gemini2.5-Flash(thinking)及Qwen3-235B-A22B(thinking);新模型的知識水準(GPQA、MMLU-Pro)亦較上一版本進步顯著。
在通用能力方面,包括寫作(WritingBench)、Agent能力(BFCL-v3)、多輪對話及多語言指令遵循(MultiIF)等多項評測中,Qwen3-30B-A3B-Thinking-2507均超越Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。更長的上下文理解,原生支持256K tokens,可擴展至1M tokens。此外,新模型思考長度(thinking length)進一步增加。
|
|
|
|