騰訊混元OCR模型開源 多項核心能力獲SOTA成績
MoneyDJ新聞 2025-11-25 16:41:50 新聞中心 發佈 綜合陸媒報導,騰訊(0700.HK)旗下騰訊混元今(25)日宣布,推出全新開源模型HunyuanOCR,參數量僅1B,基於混元原生多模態架構打造,已在多項業界OCR應用榜單中取得SOTA(最先進水準)成績,其中在複雜文檔解析的OmniDocBench測評中獲得了94.1分,超越Google Gemini 3-pro等領先模型。
此外,HunyuanOCR支持文字檢測和識別能力,覆蓋文檔、藝術字、街景、手寫、廣告、票據、截圖、遊戲、影片等應用場景,並大幅度領先同類開源模型以及商業OCR模型;在小語種翻譯上,支持14種高頻小語種翻譯中文或英文的效果,並且取得了ICDAR 2025端到端文檔翻譯比賽小模型賽道冠軍。
騰訊官方表示,得益於混元原生多模態大模型「端到端」的理念設計,HunyuanOCR各項功能僅需單次前向推理即可直達最優結果。混元OCR專家模型依託於混元原生多模態架構打造,主要由三大部分組建構成,包括原生分辨率視頻編碼器、自適應視覺適配器和輕量化混元語言模型。
|