andrewji8·a month ago

SmolDocling：轻量级全能型文档OCR模型

当前主流OCR系统通常都需要1B+参数的大模型计算，近期刚好在抱抱脸上发现一款仅256M参数的轻量级全能型文档OCR模型工具。

SmolDocling OCR模型特点

轻量级与高速
- 256M小型参数，可在CPU/低配GPU上运行，无需高端计算资源。
- OCR速度快，每页仅需0.35秒，适用于批量处理。
核心能力
1. 全文档OCR解析
  - 智能识别标题、正文、列表、表格、图表、代码、公式等内容。
  - 适用于学术论文、商业文档、专利、报告、手写文档等多种文档类型。
2. 多样化元素识别
  - 布局识别、代码识别、公式识别、图表与表格、图形分类等。
3. 灵活的输出格式
  - 支持导出为Markdown、HTML、JSON等多种格式。
4. 批量处理支持
  - 可一次性处理多个文档，适合大规模数据转换。