小米開源首個推理大模型Xiaomi MiMo
MoneyDJ新聞 2025-04-30 11:44:26 記者 新聞中心 報導 綜合陸媒報導,小米(1810.HK)今(30)日正式宣布,開源首個為推理(Reasoning)而生的大模型「Xiaomi MiMo」,從連動預訓練到後訓練,全面提升推理能力。據悉,MiMo是來自全新成立不久的「小米大模型Core團隊」的初步嘗試。
據了解,Xiaomi MiMo在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo僅用7B的參數規模,超越了OpenAI的閉源推理模型o1-mini和阿里巴巴(9988.HK)Qwen更大規模的開源推理模型QwQ-32B-Preview。
官方表示,MiMo推理能力的提升,由預訓練和後訓練階段中數據和演算法等多層面的創新聯合驅動,在預訓練方面,核心是讓模型見過更多推理模式;在數據方面,著重挖掘富推理語料,併合成約200B tokens推理數據;在訓練方面,進行了三階段訓練,逐步提升訓練難度,總訓練25T tokens;在後訓練方面,核心是高效穩定的強化學習演算法和框架。
在演算法方面,提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling策略,以穩定RL訓練;框架方面,設計了Seamless Rollout系統,使得RL訓練加速2.29倍,驗證加速1.96倍。
|
|
|
|