AI大模型榜單 阿里雲Qwen2.5-Max兩分項領域居首
MoneyDJ新聞 2025-02-06 09:54:52 記者 新聞中心 報導 綜合陸媒報導,在最新全球大模型榜單中,阿里巴巴(9988.HK)集團數位技術與智慧骨幹業務阿里雲昨(5)日宣布,其於上(1)月發布的全新通義千問Qwen 2.5-Max模型在Chatbot Arena大模型盲測中排名第7,並在多個基準測試中超越DeepSeek V3等競爭對手,包括在技術領域表現尤為出色,於數學和程式設計方面排名第一,在處理複雜任務的固定提示(hard prompts)方面排名第二。
據了解,Chatbot Arena是由LMSYS Org推出的大模型性能測試平台,目前收錄了190多種模型。該榜單採用匿名方式將大模型兩兩組隊,交給用戶進行盲測,用戶根據真實對話體驗對模型能力進行投票,為全球頂級大模型的重要競技場。阿里雲表示,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準測試中,Qwen2.5-Max 比肩Claude-3.5-Sonnet,並幾乎全面超越了 GPT-4o、DeepSeek-V3及Llama-3.1-405B。
繼DeepSeek之後,Qwen2.5-Max的發布,是中國AI陣營於高性能、低成本技術路線上的又一重要突破。市場人士分析,外界先前過度聚焦DeepSeek,卻忽視了包括阿里通義在內的中國AI整體性追趕。如果阿里Qwen-2.5-max的性能確實展現出預期水準,加之其低成本優勢與完整雲生態,將可能引發DeepSeek之後的中國AI資產新一輪重估。
*編者按 :本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力,自行作出投資決定,如因相關建議招致損失,概與《精實財經媒體》、編者及作者無涉。
|