Textricator

5

软件描述

Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF(或一个格式一致的大 PDF),并希望将其中的数据提取为 CSV 或 JSON 格式,那么……

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS

什么是 Textricator?

Textricator 是一个从文档中提取文本并生成结构化数据的工具。
如果你有一批格式相同的 PDF 文件(或一份格式一致的大文件),希望将数据提取为 CSV 或 JSON 格式,Textricator 可以帮上忙!它甚至可以处理经过 OCR 处理的文档!
Textricator 采用 GNU Affero 通用公共许可证第 3 版发布。
Textricator 已部署至 Maven Central,GAV 坐标为 io.mfj:textricator。
该应用由 Measures for Justice 积极使用和开发。我们欢迎反馈、错误报告及贡献。请创建问题、提交拉取请求,或发送邮件至 [email protected]。若你使用了 Textricator,请告知我们。提供你的邮寄地址,我们将寄送贴纸。
io.mfj.textricator.Textricator 是库使用的主入口点。
io.mfj.textricator.cli.TextricatorCli 是命令行接口。
CLI 包含三个子命令,用于调用 Textricator 的三大主要功能:
text - 从 PDF 提取文本并生成 JSON。
table - 解析以行列形式排列的文本。详见表格部分。
form - 使用配置好的有限状态机解析文本。详见表单部分。

🔄 替代方案

12 个选择
4

ScrapeStorm 是一款基于人工智能的可视化网络爬虫工具,无需编写任何代码即可从几乎任意网站提取数据。它功能强大且非常易于使用,支持 Windows、Mac OS 和 Linux 操作系统。

免费增值 • 专有
查看详情

Kaddara 是一个专为需要获取新客户线索以开展业务的专业人士设计的平台,其业务受竞争对手运营情况的影响。

付费 • 专有
查看详情
5

Piloterr 是领先的平台,帮助富有远见的公司通过 50 多个即用型 API 充分利用网络数据的潜力。

付费 • 专有
查看详情

Zyte 是网络数据提取技术与服务领域的领导者。由180多名分布在全球的开发人员和数据提取专家组成的团队,帮助数百万开发者及数千家机构获取干净、准确的网络数据,以支持其自身……

付费 • 专有
查看详情
上一页
下一页
评分5 / 5.0

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。