Gigablast

3

软件描述

一个用 C/C++ 编写的分布式开源搜索引擎及爬虫,适用于 Intel/AMD 平台的 Linux 系统。

什么是 Gigablast?

Gigablast 是一款功能强大、开源且支持实时索引的新式搜索引擎!
特性
可扩展至数千台服务器。
已在超过 200 台服务器上索引超过 120 亿个网页。
一台双四核处理器、32GB 内存、两块 160GB Intel SSD 的机器,运行 8 个 Gigablast 实例,可在包含 1000 万个页面的索引上实现约 8 QPS(每秒查询数)。硬盘将接近满容量。索引规模翻倍后,QPS 大致减半。(性能指标理论上可提升十倍左右,但尚未完成优化。由于当前已相当高效,磁盘使用量大概保持不变。)
100 万个网页需占用 28.6GB 磁盘空间,包括索引、元信息以及所有网页的压缩 HTML。
爬虫速度约为每核心每秒 1 页。因此双四核机器可实现每秒抓取并索引 8 页,即每日 691,200 页。
每个 Gigablast 实例需要 4GB 内存。(实例 = 进程)
在线演示:http://www.gigablast.com/
使用 C/C++ 编写,以实现最佳性能。
代码量超过 50 万行 C/C++。
完全自研,单一二进制文件。Web 服务器、数据库及其他所有组件均以内存高效方式集成于源码中,便于管理和排查故障。
稳定可靠。自 2002 年起在生产环境持续运行,处理过数十亿次查询,索引覆盖超过 120 亿个唯一网页及 240 亿个镜像页。
极快且高效。为少数达到如此规模的搜索引擎之一,也是唯一开源的同类产品。
支持所有语言。查询时可对指定语言的结果给予优先提升。内部使用 UTF-8 编码。
良好记录。已被众多客户采用,并成功应用于分布式企业软件系统。
缓存网页并高亮查询关键词。

🔄 替代方案

88 个选择
2

Yandex 是全球增长最快的搜索引擎,主要服务于俄语用户。它曾尝试推出基于英语的搜索引擎,但其主要业务仍集中在西里尔字母搜索引擎上。

5

Intelligence X 是一款搜索引擎和数据档案库。可通过电子邮件、域名、IP 地址、CIDR、比特币地址等搜索暗网(Tor)、I2P、数据泄露信息及公开网络。

3

这是搜索引擎工具的主要入口。有关AI聊天机器人和AI功能的内容,请访问Microsoft Copilot。

4

这是一个元搜索引擎,从其他引擎获取结果,并去除它们添加的所有跟踪参数和微软的垃圾内容。大多数其他替代谷歌的搜索引擎都自吹自擂地声称自己“尊重隐私”之类的……

5

获取谷歌搜索结果,但无任何广告、JavaScript、AMP链接、Cookie或IP地址追踪。一键部署为Docker应用,仅需一个配置文件即可自定义。快速简便,可作为主要搜索引擎替代方案在...

4

LibreX 为您提供来自 Google、Qwant、Ahmia 及热门种子网站的结果,且不会监视您。

Mullvad Leta

Mullvad Leta

4

Mullvad Leta 使用 Google 搜索 API 作为代理,缓存每次搜索结果。这些缓存结果由所有用户共享,从而降低成本并提升隐私保护。该服务由用户支持,不依赖广告或数据销售。

Marginalia Search

Marginalia Search

4

这是一个独立的自制搜索引擎,专注于非商业内容,旨在向您展示一些您可能未曾了解的网站,而非您很可能早已知晓的那些网站。

上一页下一页
评分3.0 / 5.0

支持平台