Gigablast

3

软件描述

一个用 C/C++ 编写的分布式开源搜索引擎及爬虫,适用于 Intel/AMD 平台的 Linux 系统。

什么是 Gigablast?

Gigablast 是一款功能强大、开源且支持实时索引的新式搜索引擎!
特性
可扩展至数千台服务器。
已在超过 200 台服务器上索引超过 120 亿个网页。
一台双四核处理器、32GB 内存、两块 160GB Intel SSD 的机器,运行 8 个 Gigablast 实例,可在包含 1000 万个页面的索引上实现约 8 QPS(每秒查询数)。硬盘将接近满容量。索引规模翻倍后,QPS 大致减半。(性能指标理论上可提升十倍左右,但尚未完成优化。由于当前已相当高效,磁盘使用量大概保持不变。)
100 万个网页需占用 28.6GB 磁盘空间,包括索引、元信息以及所有网页的压缩 HTML。
爬虫速度约为每核心每秒 1 页。因此双四核机器可实现每秒抓取并索引 8 页,即每日 691,200 页。
每个 Gigablast 实例需要 4GB 内存。(实例 = 进程)
在线演示:http://www.gigablast.com/
使用 C/C++ 编写,以实现最佳性能。
代码量超过 50 万行 C/C++。
完全自研,单一二进制文件。Web 服务器、数据库及其他所有组件均以内存高效方式集成于源码中,便于管理和排查故障。
稳定可靠。自 2002 年起在生产环境持续运行,处理过数十亿次查询,索引覆盖超过 120 亿个唯一网页及 240 亿个镜像页。
极快且高效。为少数达到如此规模的搜索引擎之一,也是唯一开源的同类产品。
支持所有语言。查询时可对指定语言的结果给予优先提升。内部使用 UTF-8 编码。
良好记录。已被众多客户采用,并成功应用于分布式企业软件系统。
缓存网页并高亮查询关键词。

🔄 替代方案

88 个选择
2

无审查匿名搜索。

4

注重隐私的搜索引擎,提供网页和图片搜索服务,不追踪数据、不进行用户画像,服务器位于瑞士以保障隐私,采用加密连接,并自动过滤不当或成人内容,确保家庭友好体验。

4

Presearch 是一个由社区驱动的去中心化搜索引擎,能在保护您隐私的同时提供更优的搜索结果,并在您搜索时给予奖励。

5

Andi 正利用生成式 AI 寻找下一代技术。它不再仅提供链接,而是像与一位聪明的朋友交谈一样,直接给你答案。

Mwmbl Search

Mwmbl Search

5

Mwmbl 是一个非营利、无广告、自由开源且免费的搜索引擎,注重可用性和速度。目前它仅是一个构想,外加一个小型索引上网页前端和搜索技术的概念验证实现。

4

在互联网的早期,网页主要由爱好者、学者以及懂计算机的人制作,内容多为他们个人感兴趣的主题。后来,网络上充斥着大量商业网页,几乎淹没了其他所有内容。

5

LibreX 的一个分支。与 LibreX 类似,LibreY 可在不监视您的情况下为您提供来自 Google、Qwant、Ahmia 和热门种子网站的结果。

Onion Search Engine

Onion Search Engine

0

洋葱搜索引擎浏览器旨在保护您的隐私,并实现安全匿名的快速上网。洋葱搜索引擎浏览器专为在浏览互联网时保护您的隐私而设计。

上一页下一页
评分3.0 / 5.0

支持平台