ArchiveBox

软件描述

自助式归档平台,可将网页内容以 HTML、PDF、截图、媒体文件和 WARC 文件形式存储;可从书签、RSS 或文件中导入链接;支持浏览器历史记录、复杂网站、JSON 索引、Git 仓库归档、定期调度和离线浏览。

官方网站

访问软件的官方网站了解更多信息

官方认证

archivebox.io

安全链接HTTPS

什么是 ArchiveBox?

由于现代网站结构复杂,且常依赖动态内容,ArchiveBox 能够以公共存档服务(如 Archive.org 和 Archive.is)无法保存的多种格式存档网站。
ArchiveBox 可从标准输入(stdin)、远程网址或文件导入一组网址,然后利用 wget 创建可浏览的 HTML 克隆,使用 youtube-dl 提取媒体内容,并通过完整的无头 Chrome 浏览器实例生成 PDF、截图以及 DOM 数据等,实现更全面的存档……
通过多种方法并结合市场主流浏览器执行 JavaScript,确保即使是最复杂、最不稳定的网站,也能以至少几种高质量、长期可用的数据格式进行存档。

支持从以下来源导入链接:

Pocket、Pinboard、Instapaper
RSS、XML、JSON 或纯文本链接列表
浏览器历史记录或书签(Chrome、Firefox、Safari、IE、Opera 等)
Shaarli、Delicious、Reddit 保存的文章、Wallabag、Unmark.it 以及任何包含链接的文本!

为每个网站存档的内容包括:

网站的 favicon.ico
example.com/page-name.html:网站的 wget 克隆页面,若无 .html 后缀则自动追加
output.pdf:使用无头 Chrome 打印的网站 PDF
screenshot.png:使用无头 Chrome 截取的 1440x900 分辨率截图
output.html:使用无头 Chrome 渲染后生成的 HTML DOM 数据
archive.org.txt:指向 Archive.org 存档页面的链接
warc/:包含 HTML 及压缩 warc 文件的目录,文件名为 <时间戳>.gz
media/:使用 youtube-dl 找到的任何 mp4、mp3、字幕文件及元数据
git/:GitHub、Bitbucket 或 GitLab 链接对应的仓库克隆
index.html & index.json:包含元数据和详细信息的 HTML 和 JSON 索引文件

存档是增量式的,因此您可以定期运行 ./archive 命令,持续获取新链接并更新索引。
所有存档内容均为静态数据,并通过 JSON 文件进行索引,因此可永久保存且易于解析,无需持续运行后台服务。

🔄 替代方案

64 个选择
Evernote Web Clipper

Evernote Web Clipper

笔记工具, 稍后阅读工具

2.8

一键将您在线看到的任何内容——包括文本、链接和图片——保存到您的Evernote账户中。

免费 • 专有
查看详情

一款注重隐私的“稍后阅读”工具,提供本地优先的数据存储、离线全文搜索以及设备间的无缝同步。支持通过文件夹、标签和笔记进行整理。支持导入Omnivore数据,存储本地副本以避免404错误,并确保隐私控制。

免费个人 • 专有
查看详情

LinkAce旨在提供对网站、媒体文件或其他具有有效URL内容的长期链接存档。保存你将来可能用到的有趣文章、实用的网络工具或库。

免费 • 开源
查看详情
2.2

Pinboard 是一个为那些希望可靠地跟踪大量链接的用户设计的书签网站。它的目标是实用、避免臃肿、保持快速运行,并且保持简洁。内向者的社交书签工具。m.pinboard.

付费 • 专有
查看详情

MarkMark 是一款全新应用,旨在帮助你收集和整理文章、网站以及各类网页。它不仅是一款书签应用或“稍后阅读”应用,更超越了这些基本功能。

免费 • 专有
查看详情
3.2

使用 WebCrate 组织、整理并分享来自网络各处的链接。它不仅仅是一个书签工具。

免费 • 开源
查看详情

一个简单的网络应用,可让你保存喜欢并希望永久保留的网页中的宝贵可读内容。

免费 • 开源
查看详情

一个 macOS 应用程序,可自动从互联网下载网站。它通过异步方式复制网站的网页、图片、PDF 文件、样式表及其他文件到您的本地硬盘,从而复制网站的目录结构。

付费 • 专有
查看详情
上一页下一页
评分4 / 5.0

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。