ArchiveBox

软件描述

自托管的归档平台,可将网页内容存储为HTML、PDF、截图、媒体文件和WARC文件;支持从书签、RSS或文件导入链接;具备浏览器历史记录、复杂网站支持、JSON索引、Git仓库归档、定期调度及离线浏览功能。

官方网站

访问软件的官方网站了解更多信息

官方认证

archivebox.io

安全链接HTTPS
立即访问

什么是 ArchiveBox?

由于现代网站结构复杂且常依赖动态内容,ArchiveBox 以多种格式存档站点,超越了 Archive.org 和 Archive.is 等公共归档服务的能力。
ArchiveBox 从标准输入、远程 URL 或文件导入 URL 列表,然后使用 wget 创建可浏览的 HTML 克隆,用 youtube-dl 提取媒体,并通过完整的无头 Chrome 实例生成 PDF、截图和 DOM 转储等。
结合多种方法与市场主导浏览器执行 JavaScript,确保即使是最复杂、最敏感的网站也能保存为若干高质量、长期可用的数据格式。

可导入链接来源包括:
Pocket、Pinboard、Instapaper
RSS、XML、JSON 或纯文本列表
浏览器历史记录或书签(Chrome、Firefox、Safari、IE、Opera 等)
Shaarli、Delicious、Reddit 收藏帖子、Wallabag、Unmark.it 及任何包含链接的文本!

每个站点可保存以下内容:
favicon.ico 站点图标
example.com/page-name.html 使用 wget 克隆的站点,若无 .html 后缀则自动添加
output.pdf 使用无头 Chrome 生成的打印版 PDF
screenshot.png 使用无头 Chrome 生成的 1440x900 截图
output.html 渲染后使用无头 Chrome 的 DOM 转储
archive.org.txt 指向 archive.org 上保存页面的链接
warc/ 包含 HTML 和压缩后的 WARC 文件 .gz
media/ 使用 youtube-dl 找到的所有 mp4、mp3、字幕及元数据
git/ 对 GitHub、Bitbucket 或 GitLab 链接的仓库克隆
index.html & index.json 包含元数据和详情的 HTML 与 JSON 索引文件

归档过程为累加式,可定期调度 ./archive 运行,持续将新链接加入索引。
所有保存内容均为静态文件,并通过 JSON 文件索引,永久存储且易于解析,无需始终运行的后台服务。

🔄 替代方案

64 个选择
4

互联网档案馆正在建立互联网网站及其他文化遗迹的数字图书馆。与纸质图书馆一样,它向研究人员、历史学家、学者、视障人士及公众提供免费访问。

5

GNU Wget 是一个免费的软件包,用于通过 HTTP(S) 和 FTP 协议下载文件,这两种协议是目前使用最广泛的互联网协议。它是一个非交互式的命令行工具,因此可轻松从脚本、cron 作业、无 X-Windows 支持的终端等环境中调用。

4

开源软件,允许用户下载完整网站,保留目录和链接结构,以便离线浏览。支持更新、断点续传及主要操作系统。

4

开源、自托管服务,可提取文章内容以舒适阅读,支持多设备响应式离线访问,兼容主流工具导入,提供多语言选项、过滤器、分类及多种格式下载。

Obsidian Web Clipper

Obsidian Web Clipper

5

Obsidian 网页剪辑器可将网页内容保存至您的个人资料库,确保离线访问。使用自定义模板、智能触发器并选择页面内容进行剪辑。以 Markdown 格式保留数据,提供安全、私密且持久的格式来组织链接笔记。

Wayback Machine

Wayback Machine

4

借助时光机(Wayback Machine)的力量,你可以回溯时间,查看网站自网络历史以来的变化与演进。

5

满足你的求知欲。现在保存文章,稍后阅读。

Archive.today

Archive.today

4

Archive.today 允许您“拍摄”网页快照,即使原始页面更改或删除,该快照也始终可用。

下一页
评分4.0 / 5.0

下载与相关链接

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。

GitHub