群发资讯网

腾讯混元发布开源 OCR 模型,1B 参数实现端到端统一框架要点一:1B 参数轻

腾讯混元发布开源 OCR 模型,1B 参数实现端到端统一框架要点一:1B 参数轻量级模型,多项 OCR 任务达到 SOTA 水平腾讯混元大模型团队于11月25日正式发布并开源 HunyuanOCR 模型,这是一款商业级、开源且轻量(仅1B参数)的 OCR 专用视觉语言模型。该模型采用原生分辨率视频编码器(ViT)和轻量化大语言模型(LLM)结合的架构,在多项业界 OCR 应用榜单中取得 SOTA(State-of-the-Art,最先进)成绩。在复杂文档解析评测 OmniDocBench 中,HunyuanOCR 以94.1分的成绩超越了 Google Gemini 3 和其他主流模型。该模型还在 ICDAR 2025 DIMT 挑战赛的小模型赛道中夺得第一名。要点二:真端到端训推一体范式,支持多种 OCR 任务不同于传统的级联 OCR 方案或专家模型,HunyuanOCR 贯彻端到端训推一体范式,各项任务仅需单次推理即可获取完整效果。模型由三大核心组件构成:原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型。该架构使模型能够在单次前向推理中完成文本检测、文档解析、信息提取(IE)、视觉问答(VQA)和文本图像翻译等多种任务。HunyuanOCR 支持14种小语种翻译,在 DocVQA 文档理解测试中得分96.5%,在 OCRBench 上获得875分。模型已在 GitHub 和 Hugging Face 上开源,采用 Apache 2.0 许可证。