Gigablast

Gigablast
软件描述
一个用 C/C++ 编写的分布式开源搜索引擎及爬虫,适用于 Intel/AMD 平台的 Linux 系统。
什么是 Gigablast?
Gigablast 是一款功能强大、开源且支持实时索引的新式搜索引擎!
特性
可扩展至数千台服务器。
已在超过 200 台服务器上索引超过 120 亿个网页。
一台双四核处理器、32GB 内存、两块 160GB Intel SSD 的机器,运行 8 个 Gigablast 实例,可在包含 1000 万个页面的索引上实现约 8 QPS(每秒查询数)。硬盘将接近满容量。索引规模翻倍后,QPS 大致减半。(性能指标理论上可提升十倍左右,但尚未完成优化。由于当前已相当高效,磁盘使用量大概保持不变。)
100 万个网页需占用 28.6GB 磁盘空间,包括索引、元信息以及所有网页的压缩 HTML。
爬虫速度约为每核心每秒 1 页。因此双四核机器可实现每秒抓取并索引 8 页,即每日 691,200 页。
每个 Gigablast 实例需要 4GB 内存。(实例 = 进程)
在线演示:http://www.gigablast.com/
使用 C/C++ 编写,以实现最佳性能。
代码量超过 50 万行 C/C++。
完全自研,单一二进制文件。Web 服务器、数据库及其他所有组件均以内存高效方式集成于源码中,便于管理和排查故障。
稳定可靠。自 2002 年起在生产环境持续运行,处理过数十亿次查询,索引覆盖超过 120 亿个唯一网页及 240 亿个镜像页。
极快且高效。为少数达到如此规模的搜索引擎之一,也是唯一开源的同类产品。
支持所有语言。查询时可对指定语言的结果给予优先提升。内部使用 UTF-8 编码。
良好记录。已被众多客户采用,并成功应用于分布式企业软件系统。
缓存网页并高亮查询关键词。
🔄 替代方案
88 个选择Intelligence X 是一款搜索引擎和数据档案库。可通过电子邮件、域名、IP 地址、CIDR、比特币地址等搜索暗网(Tor)、I2P、数据泄露信息及公开网络。
获取谷歌搜索结果,但无任何广告、JavaScript、AMP链接、Cookie或IP地址追踪。一键部署为Docker应用,仅需一个配置文件即可自定义。快速简便,可作为主要搜索引擎替代方案在...

Mullvad Leta
Mullvad Leta 使用 Google 搜索 API 作为代理,缓存每次搜索结果。这些缓存结果由所有用户共享,从而降低成本并提升隐私保护。该服务由用户支持,不依赖广告或数据销售。

Marginalia Search
这是一个独立的自制搜索引擎,专注于非商业内容,旨在向您展示一些您可能未曾了解的网站,而非您很可能早已知晓的那些网站。






