腾讯混元发布开源 OCR 模型，1B 参数实现端到端统一框架要点一：1B 参数轻

腾讯混元发布开源 OCR 模型，1B 参数实现端到端统一框架要点一：1B 参数轻量级模型，多项 OCR 任务达到 SOTA 水平腾讯混元大模型团队于11月25日正式发布并开源 HunyuanOCR 模型，这是一款商业级、开源且轻量（仅1B参数）的 OCR 专用视觉语言模型。该模型采用原生分辨率视频编码器（ViT）和轻量化大语言模型（LLM）结合的架构，在多项业界 OCR 应用榜单中取得 SOTA（State-of-the-Art，最先进）成绩。在复杂文档解析评测 OmniDocBench 中，HunyuanOCR 以94.1分的成绩超越了 Google Gemini 3 和其他主流模型。该模型还在 ICDAR 2025 DIMT 挑战赛的小模型赛道中夺得第一名。要点二：真端到端训推一体范式，支持多种 OCR 任务不同于传统的级联 OCR 方案或专家模型，HunyuanOCR 贯彻端到端训推一体范式，各项任务仅需单次推理即可获取完整效果。模型由三大核心组件构成：原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型。该架构使模型能够在单次前向推理中完成文本检测、文档解析、信息提取（IE）、视觉问答（VQA）和文本图像翻译等多种任务。HunyuanOCR 支持14种小语种翻译，在 DocVQA 文档理解测试中得分96.5%，在 OCRBench 上获得875分。模型已在 GitHub 和 Hugging Face 上开源，采用 Apache 2.0 许可证。

群发资讯网

腾讯混元发布开源 OCR 模型，1B 参数实现端到端统一框架要点一：1B 参数轻

热门分类