Docling

Docling
软件
软件描述
Docling 简化了文档处理,能够解析多种格式——包括高级 PDF 理解——并可与生成式 AI 生态系统无缝集成。
官方网站
访问软件的官方网站了解更多信息
docling-project.github.io
安全链接HTTPS
什么是 Docling?
Docling 简化了文档处理,可解析多种格式——包括高级 PDF 理解——并无缝集成至生成式 AI 生态系统。
特性:
- 支持多种文档格式解析,包括 PDF、DOCX、XLSX、HTML、图片等
- 高级 PDF 理解功能,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
- 统一且表达力强的 DoclingDocument 表示格式
- 多种导出格式与选项,包括 Markdown、HTML 和无损 JSON
- 支持本地执行,适用于敏感数据及离线环境
- 即插即用的集成支持,涵盖 LangChain、LlamaIndex、Crew AI 与 Haystack,适用于智能体 AI
- 对扫描版 PDF 和图片提供全面 OCR 支持
- 支持视觉语言模型(SmolDocling)🆕🔥
- 简单便捷的命令行界面(CLI)
