Textricator

Textricator
软件描述
Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF(或一个格式一致的大 PDF),并希望将其中的数据提取为 CSV 或 JSON 格式,那么……
官方网站
访问软件的官方网站了解更多信息
github.com
什么是 Textricator?
Textricator 是一个从文档中提取文本并生成结构化数据的工具。
如果你有一批格式相同的 PDF 文件(或一份格式一致的大文件),希望将数据提取为 CSV 或 JSON 格式,Textricator 可以帮上忙!它甚至可以处理经过 OCR 处理的文档!
Textricator 采用 GNU Affero 通用公共许可证第 3 版发布。
Textricator 已部署至 Maven Central,GAV 坐标为 io.mfj:textricator。
该应用由 Measures for Justice 积极使用和开发。我们欢迎反馈、错误报告及贡献。请创建问题、提交拉取请求,或发送邮件至 [email protected]。若你使用了 Textricator,请告知我们。提供你的邮寄地址,我们将寄送贴纸。
io.mfj.textricator.Textricator 是库使用的主入口点。
io.mfj.textricator.cli.TextricatorCli 是命令行接口。
CLI 包含三个子命令,用于调用 Textricator 的三大主要功能:
text - 从 PDF 提取文本并生成 JSON。
table - 解析以行列形式排列的文本。详见表格部分。
form - 使用配置好的有限状态机解析文本。详见表单部分。
🔄 替代方案
12 个选择
ScrapeStorm
ScrapeStorm 是一款基于人工智能的可视化网络爬虫工具,无需编写任何代码即可从几乎任意网站提取数据。它功能强大且非常易于使用,支持 Windows、Mac OS 和 Linux 操作系统。
下载与相关链接
安全提示安全提醒
点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。



