get-set, Fetch!

get-set, Fetch!
软件描述
Nodejs 网页爬虫。可从您自己的代码、命令行或 Docker 容器中使用。支持多种存储选项:SQLite、MySQL、PostgreSQL。支持多种浏览器或 DOM 类客户端:Puppeteer、Playwright、Cheerio、JSDOM。
官方网站
访问软件的官方网站了解更多信息
github.com
安全链接HTTPS
什么是 get-set, Fetch!?
get-set, Fetch! 是一个基于插件的 Node.js 网页爬虫。它可抓取、存储并导出数据。其核心是一个有序的插件列表(默认或自定义定义),针对每个待抓取的网页资源依次执行。
支持多种存储方式:SQLite、MySQL、PostgreSQL。
支持多种浏览器或 DOM 类客户端:Puppeteer、Playwright、Cheerio、Jsdom。
对于小型项目(URL 数量少于 10K),使用 SQLite 存储队列和抓取内容即可。对于更大规模的项目,请使用 PostgreSQL。您可以在多个爬虫实例间启动、停止或恢复抓取过程,每个实例可拥有独立 IP 和/或专用代理。使用 PostgreSQL,以 100 并发抓取任务的速度,90 分钟可完成 100 万个 URL 的抓取,平均每个 URL 抓取耗时 5.5ms。
