grab-site
软件描述
grab-site 是一个将网站抓取并存档为 WARC 文件的爬虫。它包含一个用于监控多个抓取任务的仪表板,并支持在抓取过程中更改 URL 忽略模式。
官方网站
访问软件的官方网站了解更多信息
官方认证
github.com
安全链接HTTPS
什么是 grab-site?
grab-site 是一个将网站抓取并存档为 WARC 文件的爬虫。它包含一个用于监控多个抓取任务的仪表板,并支持在抓取过程中更改 URL 忽略模式。
🔄 替代方案
22 个选择★5
GNU Wget 是一个免费的软件包,用于通过 HTTP(S) 和 FTP 协议下载文件,这两种协议是目前使用最广泛的互联网协议。它是一个非交互式的命令行工具,因此可轻松从脚本、cron 作业、无 X-Windows 支持的终端等环境中调用。

HTTrack
★4
开源软件,允许用户下载完整网站,保留目录和链接结构,以便离线浏览。支持更新、断点续传及主要操作系统。

Fossilo
★5
Fossilo.com 持续将完整网站存档为 PDF 及多种其他格式,以便未来无需任何依赖即可轻松打开和查看。您可在平台内浏览存档内容,或将其下载为独立包。

ItSucks
该项目是一个Java Web爬虫(网络爬虫),具备下载(及断点续传)文件的功能。它还支持正则表达式和下载模板,可高度自定义。






