ArchiveBox
软件描述
自托管的归档平台,可将网页内容存储为HTML、PDF、截图、媒体文件和WARC文件;支持从书签、RSS或文件导入链接;具备浏览器历史记录、复杂网站支持、JSON索引、Git仓库归档、定期调度及离线浏览功能。
官方网站
访问软件的官方网站了解更多信息
archivebox.io
什么是 ArchiveBox?
由于现代网站结构复杂且常依赖动态内容,ArchiveBox 以多种格式存档站点,超越了 Archive.org 和 Archive.is 等公共归档服务的能力。
ArchiveBox 从标准输入、远程 URL 或文件导入 URL 列表,然后使用 wget 创建可浏览的 HTML 克隆,用 youtube-dl 提取媒体,并通过完整的无头 Chrome 实例生成 PDF、截图和 DOM 转储等。
结合多种方法与市场主导浏览器执行 JavaScript,确保即使是最复杂、最敏感的网站也能保存为若干高质量、长期可用的数据格式。
可导入链接来源包括:
Pocket、Pinboard、Instapaper
RSS、XML、JSON 或纯文本列表
浏览器历史记录或书签(Chrome、Firefox、Safari、IE、Opera 等)
Shaarli、Delicious、Reddit 收藏帖子、Wallabag、Unmark.it 及任何包含链接的文本!
每个站点可保存以下内容:
favicon.ico 站点图标
example.com/page-name.html 使用 wget 克隆的站点,若无 .html 后缀则自动添加
output.pdf 使用无头 Chrome 生成的打印版 PDF
screenshot.png 使用无头 Chrome 生成的 1440x900 截图
output.html 渲染后使用无头 Chrome 的 DOM 转储
archive.org.txt 指向 archive.org 上保存页面的链接
warc/ 包含 HTML 和压缩后的 WARC 文件
media/ 使用 youtube-dl 找到的所有 mp4、mp3、字幕及元数据
git/ 对 GitHub、Bitbucket 或 GitLab 链接的仓库克隆
index.html & index.json 包含元数据和详情的 HTML 与 JSON 索引文件
归档过程为累加式,可定期调度 ./archive 运行,持续将新链接加入索引。
所有保存内容均为静态文件,并通过 JSON 文件索引,永久存储且易于解析,无需始终运行的后台服务。
🔄 替代方案
64 个选择
Ulry
Ulry 是一款功能强大的链接存档工具,可让您将喜爱的链接和网址集中保存并有序管理。通过 Ulry,您可以轻松访问已保存的链接,并以美观的图片、描述和标题浏览它们。
LinkHub Link Manager
LinkHub 是一款简单高效的链接管理应用,可帮助您轻松管理自己的链接,且无广告!

PackPack
PackPack 是一款由人工智能驱动的书签管理工具,专为从新闻和社交媒体等在线资源保存内容而设计。它利用人工智能对内容进行清理和保存。使用 PackPack,改变您管理书签的方式,更智能地处理您的收藏。

forlater
Forlater 是一种基于电子邮件的书签服务。您发送包含链接(或多个链接)的邮件给我们,即可收到文章的可读且无杂乱信息的版本邮件。

History Hound
HistoryHound 可让您快速搜索最近访问过的所有网页和 RSS 提要的全部内容,以及您收藏的所有内容。它是一款“个人网络搜索”工具。

Save for Offline
用于离线阅读保存网页的安卓应用。

Page Vault
合法可采信的屏幕截图,简化版。



