Heritrix

Heritrix

Heritrix

软件

软件描述

开源、可扩展的网络爬虫,专为大规模、高质量的网络存档设计,能够保存数字文物,支持模块化插件、分布式爬取、详细监控、任务调度,并以标准化格式导出数据以供长期保存。

官方网站

访问软件的官方网站了解更多信息

官方认证

github.com

安全链接HTTPS

什么是 Heritrix?

Heritrix 是互联网档案馆的开源、可扩展、大规模网络存档质量的网页爬虫项目。
Heritrix(有时拼作 heretrix,或被误拼、误读为 heratrix/heritix/heretix/heratix)是“女继承人”(继承财产的女性)这一古老词汇。由于我们的爬虫旨在为未来的研究人员和世代收集并保存我们文化的数字遗产,因此这个名字显得十分贴切。

主要功能

🔄 替代方案

16 个选择
ACHE Crawler

ACHE Crawler

网络爬虫工具

ACHE 是一个用于特定领域搜索的网络爬虫。

免费 • 开源
查看详情
Canary - Search & Ask AI

Canary - Search & Ask AI

软件

技术文档的Algolia替代方案。

免费 • 开源
查看详情
Google Custom Search

Google Custom Search

软件

为您的网页添加一个可定制的搜索框,并展示由 Google 搜索驱动的快速、相关的结果。它虽免费,但对您网站的抓取效果很差。

免费 • 专有
查看详情
Appbase.io

Appbase.io

软件

Appbase.io 提供了功能强大的 Elasticsearch 体验,具备无代码相关性控制平面(或 JS UI 组件,或声明式 REST API),以及开箱即用的搜索/点击分析和洞察功能。

付费 • 开源
查看详情
💻

TinySearch

软件

TinySearch 是一个轻量级、快速的全文搜索引擎,专为静态网站设计。

免费 • 开源
查看详情
Expertrec Search Engine

Expertrec Search Engine

站点搜索引擎

5

Expertrec自定义搜索最初是作为Google网站搜索的替代方案推出的。它为您的网站增添了超快的搜索自动补全、拼写纠正及搜索结果页面功能。

付费 • 专有
查看详情

在数百万份文档中搜索,为您的用户带来独特、惊艳且难忘的体验。

免费增值 • 开源
查看详情
Google Custom Search Engine

Google Custom Search Engine

软件

5

使用 Google 自定义搜索,在您的首页添加搜索框,帮助用户在您的网站上找到所需内容。

免费增值 • 专有
查看详情
上一页
下一页

支持平台

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。