Textricator

Textricator
软件描述
Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF(或一个格式一致的大 PDF),并希望将其中的数据提取为 CSV 或 JSON 格式,那么……
官方网站
访问软件的官方网站了解更多信息
github.com
什么是 Textricator?
Textricator 是一个从文档中提取文本并生成结构化数据的工具。
如果你有一批格式相同的 PDF 文件(或一份格式一致的大文件),希望将数据提取为 CSV 或 JSON 格式,Textricator 可以帮上忙!它甚至可以处理经过 OCR 处理的文档!
Textricator 采用 GNU Affero 通用公共许可证第 3 版发布。
Textricator 已部署至 Maven Central,GAV 坐标为 io.mfj:textricator。
该应用由 Measures for Justice 积极使用和开发。我们欢迎反馈、错误报告及贡献。请创建问题、提交拉取请求,或发送邮件至 [email protected]。若你使用了 Textricator,请告知我们。提供你的邮寄地址,我们将寄送贴纸。
io.mfj.textricator.Textricator 是库使用的主入口点。
io.mfj.textricator.cli.TextricatorCli 是命令行接口。
CLI 包含三个子命令,用于调用 Textricator 的三大主要功能:
text - 从 PDF 提取文本并生成 JSON。
table - 解析以行列形式排列的文本。详见表格部分。
form - 使用配置好的有限状态机解析文本。详见表单部分。
🔄 替代方案
12 个选择Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。
ParseHub 是一款专为应对现代网页而设计的网络抓取工具。 您可以从任何位置提取数据。ParseHub 支持单页应用、多页应用以及几乎所有其他现代网页技术。 ParseHub 可处理 JavaScript、AJAX、Cookie、会话和重定向。您可。

FetchFox
FetchFox 是一款由人工智能驱动的网络爬虫工具。它获取网站的原始文本,并利用人工智能提取用户所需的数据。该工具以 Chrome 扩展程序形式运行,用户可用自然语言描述所需数据。
下载与相关链接
安全提示安全提醒
点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。







