Heritrix

Heritrix
软件
软件描述
开源、可扩展的网络爬虫,专为大规模、高质量的网络存档设计,能够保存数字文物,支持模块化插件、分布式爬取、详细监控、任务调度,并以标准化格式导出数据以供长期保存。
官方网站
访问软件的官方网站了解更多信息
github.com
安全链接HTTPS
什么是 Heritrix?
Heritrix 是互联网档案馆的开源、可扩展、大规模网络存档质量的网页爬虫项目。
Heritrix(有时拼作 heretrix,或被误拼、误读为 heratrix/heritix/heretix/heratix)是“女继承人”(继承财产的女性)这一古老词汇。由于我们的爬虫旨在为未来的研究人员和世代收集并保存我们文化的数字遗产,因此这个名字显得十分贴切。







