发现各种软件替代方案,找到更适合您的选择
★5
Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。
提供 102 个替代方案
Portia 是一款开源的可视化抓取工具,无需任何编程知识即可抓取网站!只需标注您感兴趣的页面,Portia 就会自动生成爬虫,从相似页面中提取数据。
提供 84 个替代方案
Flyscrape 是一个独立且可脚本化的网页爬虫,结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取,而非请求处理。
提供 63 个替代方案
★5
Textricator 是一个从计算机生成的 PDF 中提取文本并生成结构化数据的工具。如果你有一组格式相同的 PDF(或一个格式一致的大 PDF),并希望将其中的数据提取为 CSV 或 JSON 格式,那么……
提供 12 个替代方案
ACHE 是一个用于特定领域搜索的网络爬虫。
提供 9 个替代方案
Apache Nutch 是一个高度可扩展且可伸缩的开源网络爬虫软件项目。
提供 10 个替代方案
借助美国、英国、西班牙、澳大利亚领先的网络数据抓取服务与工具提供商,将网站转化为数据,数据提取值得行业领袖信赖。
Nodejs 网页爬虫。可从您自己的代码、命令行或 Docker 容器中使用。支持多种存储选项:SQLite、MySQL、PostgreSQL。支持多种浏览器或 DOM 类客户端:Puppeteer、Playwright、Cheerio、JSDOM。
用于离线阅读保存网页的安卓应用。














