Textricator

Textricator
软件描述
Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF(或一个格式一致的大 PDF),并希望将其中的数据提取为 CSV 或 JSON 格式,那么……
官方网站
访问软件的官方网站了解更多信息
github.com
什么是 Textricator?
Textricator 是一个从文档中提取文本并生成结构化数据的工具。
如果你有一批格式相同的 PDF 文件(或一份格式一致的大文件),希望将数据提取为 CSV 或 JSON 格式,Textricator 可以帮上忙!它甚至可以处理经过 OCR 处理的文档!
Textricator 采用 GNU Affero 通用公共许可证第 3 版发布。
Textricator 已部署至 Maven Central,GAV 坐标为 io.mfj:textricator。
该应用由 Measures for Justice 积极使用和开发。我们欢迎反馈、错误报告及贡献。请创建问题、提交拉取请求,或发送邮件至 [email protected]。若你使用了 Textricator,请告知我们。提供你的邮寄地址,我们将寄送贴纸。
io.mfj.textricator.Textricator 是库使用的主入口点。
io.mfj.textricator.cli.TextricatorCli 是命令行接口。
CLI 包含三个子命令,用于调用 Textricator 的三大主要功能:
text - 从 PDF 提取文本并生成 JSON。
table - 解析以行列形式排列的文本。详见表格部分。
form - 使用配置好的有限状态机解析文本。详见表单部分。
🔄 替代方案
12 个选择Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。
ParseHub 是一款专为应对现代网页而设计的网络抓取工具。 您可以从任何位置提取数据。ParseHub 支持单页应用、多页应用以及几乎所有其他现代网页技术。 ParseHub 可处理 JavaScript、AJAX、Cookie、会话和重定向。您可。

Flyscrape
Flyscrape 是一个独立且可脚本化的网页爬虫,结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取,而非请求处理。

Lookyloo
Lookyloo 是一个网页界面,允许用户捕获网站页面,然后显示相互调用的域名树。

FetchFox
FetchFox 是一款由人工智能驱动的网络爬虫工具。它获取网站的原始文本,并利用人工智能提取用户所需的数据。该工具以 Chrome 扩展程序形式运行,用户可用自然语言描述所需数据。

Scraperr
Scraperr 是一个自托管的网络应用,用户可通过指定 XPath 元素来抓取网页数据。用户可提交网址及要抓取的对应元素,结果将以表格形式显示。

Portia
Portia 是一款开源的可视化抓取工具,无需任何编程知识即可抓取网站!只需标注您感兴趣的页面,Portia 就会自动生成爬虫,从相似页面中提取数据。




