雷思软件

返回软件列表

Textricator

Textricator

Textricator

网络爬虫工具

★5

软件描述

Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF（或一个格式一致的大 PDF），并希望将其中的数据提取为 CSV 或 JSON 格式，那么……

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS

什么是 Textricator?

Textricator 是一个从文档中提取文本并生成结构化数据的工具。
如果你有一批格式相同的 PDF 文件（或一份格式一致的大文件），希望将数据提取为 CSV 或 JSON 格式，Textricator 可以帮上忙！它甚至可以处理经过 OCR 处理的文档！
Textricator 采用 GNU Affero 通用公共许可证第 3 版发布。
Textricator 已部署至 Maven Central，GAV 坐标为 io.mfj:textricator。
该应用由 Measures for Justice 积极使用和开发。我们欢迎反馈、错误报告及贡献。请创建问题、提交拉取请求，或发送邮件至 [email protected]。若你使用了 Textricator，请告知我们。提供你的邮寄地址，我们将寄送贴纸。
io.mfj.textricator.Textricator 是库使用的主入口点。
io.mfj.textricator.cli.TextricatorCli 是命令行接口。
CLI 包含三个子命令，用于调用 Textricator 的三大主要功能：
text - 从 PDF 提取文本并生成 JSON。
table - 解析以行列形式排列的文本。详见表格部分。
form - 使用配置好的有限状态机解析文本。详见表单部分。

🔄 替代方案

12 个选择

Scrapy

网络爬虫工具, 数据挖掘软件

★5

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计，也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte（前身为 Scrapinghub）开发并维护，是一家网络抓取公司。

ParseHub

数据挖掘软件, 网络爬虫工具

★4

ParseHub 是一款专为应对现代网页而设计的网络抓取工具。您可以从任何位置提取数据。ParseHub 支持单页应用、多页应用以及几乎所有其他现代网页技术。 ParseHub 可处理 JavaScript、AJAX、Cookie、会话和重定向。您可。

Flyscrape

网络爬虫工具

0

Flyscrape 是一个独立且可脚本化的网页爬虫，结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取，而非请求处理。

Lookyloo

网络爬虫工具

0

Lookyloo 是一个网页界面，允许用户捕获网站页面，然后显示相互调用的域名树。

FetchFox

网络爬虫工具

0

FetchFox 是一款由人工智能驱动的网络爬虫工具。它获取网站的原始文本，并利用人工智能提取用户所需的数据。该工具以 Chrome 扩展程序形式运行，用户可用自然语言描述所需数据。

Scraperr

网络爬虫工具

0

Scraperr 是一个自托管的网络应用，用户可通过指定 XPath 元素来抓取网页数据。用户可提交网址及要抓取的对应元素，结果将以表格形式显示。

Portia

网络爬虫工具

0

Portia 是一款开源的可视化抓取工具，无需任何编程知识即可抓取网站！只需标注您感兴趣的页面，Portia 就会自动生成爬虫，从相似页面中提取数据。

ScrapeHunt

网络爬虫工具, 数据挖掘软件

★5

想打造SaaS？或寻找新客户？或大幅提升营销效果？ScrapeHunt让您享受数据抓取的好处，而无需承担抓取的烦恼。

第 1 页，共 2 页下一页

许可证免费 • 开源

评分5.0 / 5.0

支持平台

Mac 安装 Java Windows 安装 Java Linux 安装 Java

标签

收获清理数据提取器 pdf-web抓取网络采集刮削提取器-pdf 提取器-文本文本采集数据抓取从文本中提取词语

下载与相关链接

安全提醒

点击下方链接将跳转到第三方网站，请确保来源安全，建议优先从官方网站下载。