Gigablast

3

软件描述

一个用 C/C++ 编写的分布式开源搜索引擎及爬虫,适用于 Intel/AMD 平台的 Linux 系统。

什么是 Gigablast?

Gigablast 是一款功能强大、开源且支持实时索引的新式搜索引擎!
特性
可扩展至数千台服务器。
已在超过 200 台服务器上索引超过 120 亿个网页。
一台双四核处理器、32GB 内存、两块 160GB Intel SSD 的机器,运行 8 个 Gigablast 实例,可在包含 1000 万个页面的索引上实现约 8 QPS(每秒查询数)。硬盘将接近满容量。索引规模翻倍后,QPS 大致减半。(性能指标理论上可提升十倍左右,但尚未完成优化。由于当前已相当高效,磁盘使用量大概保持不变。)
100 万个网页需占用 28.6GB 磁盘空间,包括索引、元信息以及所有网页的压缩 HTML。
爬虫速度约为每核心每秒 1 页。因此双四核机器可实现每秒抓取并索引 8 页,即每日 691,200 页。
每个 Gigablast 实例需要 4GB 内存。(实例 = 进程)
在线演示:http://www.gigablast.com/
使用 C/C++ 编写,以实现最佳性能。
代码量超过 50 万行 C/C++。
完全自研,单一二进制文件。Web 服务器、数据库及其他所有组件均以内存高效方式集成于源码中,便于管理和排查故障。
稳定可靠。自 2002 年起在生产环境持续运行,处理过数十亿次查询,索引覆盖超过 120 亿个唯一网页及 240 亿个镜像页。
极快且高效。为少数达到如此规模的搜索引擎之一,也是唯一开源的同类产品。
支持所有语言。查询时可对指定语言的结果给予优先提升。内部使用 UTF-8 编码。
良好记录。已被众多客户采用,并成功应用于分布式企业软件系统。
缓存网页并高亮查询关键词。

🔄 替代方案

88 个选择
4

SearXNG 是一个免费的互联网元搜索引擎,可聚合来自各种搜索服务和数据库的结果。用户不会被追踪或画像。

4

Searx 是一个免费的互联网元搜索引擎,可聚合超过 70 个搜索服务的结果。用户不会被追踪或画像。此外,用户还可通过 Tor 使用 searx 以实现在线匿名。

4

注重隐私的搜索引擎,使用谷歌搜索结果并去除追踪器和广告,不存储任何个人数据,提供匿名浏览功能,并打破信息过滤气泡以获得多样化结果。由Surfboard Holding B.V.开发,Startpage致力于通过掌控用户数据来保障隐私。

4

体验一款注重隐私的搜索引擎,它不会追踪您,具备零点击信息、即时答案、!bang 命令等功能,基于开源软件构建,提供透明且用户友好的在线搜索体验。

4

Brave Search 基于完全独立的索引构建,不会追踪用户、其搜索记录或点击行为。

3

这款领先的搜索引擎提供个性化搜索结果,支持图片、视频和新闻查询。它具备语音搜索、预测文本和实时建议功能,可在所有设备上使用。通过多语言支持和人工智能增强,为全球用户提供快速且相关的信息。

4

Qwant 是一款欧洲网络搜索引擎,于2013年7月推出,总部位于巴黎。它利用必应提供网页搜索结果。该公司声称不采用用户追踪,并且不个性化搜索结果,以避免让用户陷入信息过滤泡沫。

4

Ecosia 是一款环保搜索引擎,将至少80%的搜索广告收入和在线购物利润捐赠给植树项目,目前该项目位于布基纳法索。2015年11月,Ecosia 庆祝了累计种植三百万棵树,并为环境保护捐赠了五百万美元。

下一页
评分3.0 / 5.0

支持平台