Textricator

5

软件描述

Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF(或一个格式一致的大 PDF),并希望将其中的数据提取为 CSV 或 JSON 格式,那么……

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS

什么是 Textricator?

Textricator 是一个从文档中提取文本并生成结构化数据的工具。
如果你有一批格式相同的 PDF 文件(或一份格式一致的大文件),希望将数据提取为 CSV 或 JSON 格式,Textricator 可以帮上忙!它甚至可以处理经过 OCR 处理的文档!
Textricator 采用 GNU Affero 通用公共许可证第 3 版发布。
Textricator 已部署至 Maven Central,GAV 坐标为 io.mfj:textricator。
该应用由 Measures for Justice 积极使用和开发。我们欢迎反馈、错误报告及贡献。请创建问题、提交拉取请求,或发送邮件至 [email protected]。若你使用了 Textricator,请告知我们。提供你的邮寄地址,我们将寄送贴纸。
io.mfj.textricator.Textricator 是库使用的主入口点。
io.mfj.textricator.cli.TextricatorCli 是命令行接口。
CLI 包含三个子命令,用于调用 Textricator 的三大主要功能:
text - 从 PDF 提取文本并生成 JSON。
table - 解析以行列形式排列的文本。详见表格部分。
form - 使用配置好的有限状态机解析文本。详见表单部分。

🔄 替代方案

12 个选择

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。

免费 • 开源
查看详情

ParseHub 是一款专为应对现代网页而设计的网络抓取工具。 您可以从任何位置提取数据。ParseHub 支持单页应用、多页应用以及几乎所有其他现代网页技术。 ParseHub 可处理 JavaScript、AJAX、Cookie、会话和重定向。您可。

免费增值 • 专有
查看详情

Flyscrape 是一个独立且可脚本化的网页爬虫,结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取,而非请求处理。

免费 • 开源
查看详情

Lookyloo 是一个网页界面,允许用户捕获网站页面,然后显示相互调用的域名树。

免费 • 开源
查看详情

FetchFox 是一款由人工智能驱动的网络爬虫工具。它获取网站的原始文本,并利用人工智能提取用户所需的数据。该工具以 Chrome 扩展程序形式运行,用户可用自然语言描述所需数据。

免费 • 专有
查看详情

Scraperr 是一个自托管的网络应用,用户可通过指定 XPath 元素来抓取网页数据。用户可提交网址及要抓取的对应元素,结果将以表格形式显示。

免费 • 开源
查看详情

Portia 是一款开源的可视化抓取工具,无需任何编程知识即可抓取网站!只需标注您感兴趣的页面,Portia 就会自动生成爬虫,从相似页面中提取数据。

免费 • 开源
查看详情

想打造SaaS?或寻找新客户?或大幅提升营销效果?ScrapeHunt让您享受数据抓取的好处,而无需承担抓取的烦恼。

付费 • 专有
查看详情
上一页
下一页
评分5 / 5.0

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。