小米發布並開源聲音理解大模型MiDashengLM-7B
MoneyDJ新聞 2025-08-04 12:52:34 記者 新聞中心 報導 綜合陸媒及港媒報導,小米自研聲音理解大模型MiDashengLM-7B於今(4)日正式發布並全量開源。據小米官方表示,MiDashengLM-7B聲音理解性能在22個公開評測集上,刷新多模態大模型最佳成績(SOTA),單樣本推理的首Token延遲(TTFT)僅為業界先進模型的四分之一,同等顯存下的數據吞吐效率是業界先進模型的20倍以上。
小米指出,MiDashengLM-7B基於Xiaomi Dasheng作為音訊編碼器和Qwen2.5-Omni-7B Thinker作為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型,MiDashengLM完整公開了77個數據源的詳細配比,技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。
作為小米「人車家全生態」戰略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。
MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件,是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上,小米已着手對MiDashengLM模型做計算效率的進一步升級,尋求終端設備上可離線部署,並完善基於用戶自然語言提示的聲音編輯等更全面的功能。
|