小米發布並開源聲音理解大模型MiDashengLM-7B

MoneyDJ新聞 2025-08-04 12:52:34 記者新聞中心報導

綜合陸媒及港媒報導，小米自研聲音理解大模型MiDashengLM-7B於今(4)日正式發布並全量開源。據小米官方表示，MiDashengLM-7B聲音理解性能在22個公開評測集上，刷新多模態大模型最佳成績(SOTA)，單樣本推理的首Token延遲(TTFT)僅為業界先進模型的四分之一，同等顯存下的數據吞吐效率是業界先進模型的20倍以上。

小米指出，MiDashengLM-7B基於Xiaomi Dasheng作為音訊編碼器和Qwen2.5-Omni-7B Thinker作為自回歸解碼器，透過創新的通用音訊描述訓練策略，實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型，MiDashengLM完整公開了77個數據源的詳細配比，技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。

作為小米「人車家全生態」戰略的關鍵技術，MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力，不僅能聽懂用戶周圍發生了什麼事，還能分析發現這些事情的隱藏含義，提高用戶場景理解的泛化性。

MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件，是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上，小米已着手對MiDashengLM模型做計算效率的進一步升級，尋求終端設備上可離線部署，並完善基於用戶自然語言提示的聲音編輯等更全面的功能。

MoneyDJ理財網		財經知識庫	基金頻道		iQuote	ETF頻道	美股頻道
資訊新聞台股美股港股基金未上市美債金融專題報導　個人理財 ETF iQuote 潛力產品多空訊號　財經台	學習技術學院經濟學院選股學院會員中心加入會員查詢密碼個人存摺購物理財商品手機版 +粉絲團	分類研究報告新聞財經百科股票市場市場動態個股情報產業分析國家動態熱門產業總體經濟	財經基金新聞　研究報告國際金融　資訊境內基金　境外基金　搜尋境內\|境外進階搜尋區域搜尋商品搜尋　境內外基金搜尋	排名公會排名週轉率排名基金報酬排行基金評等基金龍虎榜　四四三三趨勢軌跡工具投資藏寶圖	走勢分析多空瞭望銀行匯率市場動態基金總覽市場觀點	ETF介紹 ETF發行公司 ETF基本資料 ETF資金流向 ETF投資策略 ETF相關分析 ETF搜尋區域\|類型進階\|指數 ETF排名漲幅\|跌幅規模\|成交量點閱人氣排行 ETF工具 ETF大車拼 ETF成本評比 ETF主題投資	個股資料基本資料行情報價基本分析排行漲幅排行跌幅排行超買排行超賣排行成交量排行點擊排行查詢次數排行工具 ADR套利選股工具行事曆各類股績效表現