发现各种软件替代方案,找到更适合您的选择

5

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。

提供 102 个替代方案

Portia 是一款开源的可视化抓取工具,无需任何编程知识即可抓取网站!只需标注您感兴趣的页面,Portia 就会自动生成爬虫,从相似页面中提取数据。

提供 84 个替代方案

5

UI(用户界面)自动化的目的是重现您与网站或桌面之间的认知交互,使计算机能够根据您的时间安排或条件替您完成这些操作。

提供 21 个替代方案

Flyscrape 是一个独立且可脚本化的网页爬虫,结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取,而非请求处理。

提供 63 个替代方案

artoo.js 是一段旨在在浏览器控制台中运行的 JavaScript 代码,可为您提供一些网页抓取工具。

提供 65 个替代方案

Lookyloo 是一个网页界面,允许用户捕获网站页面,然后显示相互调用的域名树。

提供 60 个替代方案

5

Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF(或一个格式一致的大 PDF),并希望将其中的数据提取为 CSV 或 JSON 格式,那么……

提供 12 个替代方案

ACHE 是一个用于特定领域搜索的网络爬虫。

提供 9 个替代方案

Apache Nutch 是一个高度可扩展且可伸缩的开源网络爬虫软件项目。

提供 10 个替代方案

使用开源的morph.io爬取平台,轻松实现网页抓取。功能强大,可随时随地抓取任何内容。

Scraperr 是一个自托管的网络应用,用户可通过指定 XPath 元素来抓取网页数据。用户可提交网址及要抓取的对应元素,结果将以表格形式显示。

借助美国、英国、西班牙、澳大利亚领先的网络数据抓取服务与工具提供商,将网站转化为数据,数据提取值得行业领袖信赖。

Nodejs 网页爬虫。可从您自己的代码、命令行或 Docker 容器中使用。支持多种存储选项:SQLite、MySQL、PostgreSQL。支持多种浏览器或 DOM 类客户端:Puppeteer、Playwright、Cheerio、JSDOM。