ArchiveBox
软件描述
自助式归档平台,可将网页内容以 HTML、PDF、截图、媒体文件和 WARC 文件形式存储;可从书签、RSS 或文件中导入链接;支持浏览器历史记录、复杂网站、JSON 索引、Git 仓库归档、定期调度和离线浏览。
官方网站
访问软件的官方网站了解更多信息
archivebox.io
什么是 ArchiveBox?
由于现代网站结构复杂,且常依赖动态内容,ArchiveBox 能够以公共存档服务(如 Archive.org 和 Archive.is)无法保存的多种格式存档网站。
ArchiveBox 可从标准输入(stdin)、远程网址或文件导入一组网址,然后利用 wget 创建可浏览的 HTML 克隆,使用 youtube-dl 提取媒体内容,并通过完整的无头 Chrome 浏览器实例生成 PDF、截图以及 DOM 数据等,实现更全面的存档……
通过多种方法并结合市场主流浏览器执行 JavaScript,确保即使是最复杂、最不稳定的网站,也能以至少几种高质量、长期可用的数据格式进行存档。
支持从以下来源导入链接:
Pocket、Pinboard、Instapaper
RSS、XML、JSON 或纯文本链接列表
浏览器历史记录或书签(Chrome、Firefox、Safari、IE、Opera 等)
Shaarli、Delicious、Reddit 保存的文章、Wallabag、Unmark.it 以及任何包含链接的文本!
为每个网站存档的内容包括:
网站的 favicon.ico
example.com/page-name.html:网站的 wget 克隆页面,若无 .html 后缀则自动追加
output.pdf:使用无头 Chrome 打印的网站 PDF
screenshot.png:使用无头 Chrome 截取的 1440x900 分辨率截图
output.html:使用无头 Chrome 渲染后生成的 HTML DOM 数据
archive.org.txt:指向 Archive.org 存档页面的链接
warc/:包含 HTML 及压缩 warc 文件的目录,文件名为 <时间戳>.gz
media/:使用 youtube-dl 找到的任何 mp4、mp3、字幕文件及元数据
git/:GitHub、Bitbucket 或 GitLab 链接对应的仓库克隆
index.html & index.json:包含元数据和详细信息的 HTML 和 JSON 索引文件
存档是增量式的,因此您可以定期运行 ./archive 命令,持续获取新链接并更新索引。
所有存档内容均为静态数据,并通过 JSON 文件进行索引,因此可永久保存且易于解析,无需持续运行后台服务。
🔄 替代方案
64 个选择互联网档案馆正在构建一个以数字形式保存的互联网网站及其他文化遗存的数字图书馆。如同纸质图书馆一样,它为研究人员、历史学家、学者、视障人士以及公众提供免费访问。
GNU Wget 是一个用于通过 HTTP(S) 和 FTP 协议获取文件的免费软件包,这两种协议是互联网上最广泛使用的协议。它是一个非交互式的命令行工具,因此可以轻松地从脚本、计划任务(cron jobs)、不支持 X-Windows 的终端等环境中调用。
一个开源、自托管的服务,可提取文章内容以便舒适阅读,支持在多种设备上响应式离线访问,支持从主流工具导入,提供多语言选项,具备过滤、分类功能,并可导出为多种格式。
Obsidian Web Clipper 将网页内容保存到您的个人资料库中,确保您可以离线访问。您可以使用可自定义的模板、智能触发器以及选择的页面内容进行剪藏。内容以 Markdown 格式保存,提供一种安全、私密且持久的格式,用于整理关联笔记。