Gigablast

Gigablast
软件描述
一个用 C/C++ 编写的分布式开源搜索引擎及爬虫,适用于 Intel/AMD 平台的 Linux 系统。
什么是 Gigablast?
Gigablast 是一款功能强大、开源且支持实时索引的新式搜索引擎!
特性
可扩展至数千台服务器。
已在超过 200 台服务器上索引超过 120 亿个网页。
一台双四核处理器、32GB 内存、两块 160GB Intel SSD 的机器,运行 8 个 Gigablast 实例,可在包含 1000 万个页面的索引上实现约 8 QPS(每秒查询数)。硬盘将接近满容量。索引规模翻倍后,QPS 大致减半。(性能指标理论上可提升十倍左右,但尚未完成优化。由于当前已相当高效,磁盘使用量大概保持不变。)
100 万个网页需占用 28.6GB 磁盘空间,包括索引、元信息以及所有网页的压缩 HTML。
爬虫速度约为每核心每秒 1 页。因此双四核机器可实现每秒抓取并索引 8 页,即每日 691,200 页。
每个 Gigablast 实例需要 4GB 内存。(实例 = 进程)
在线演示:http://www.gigablast.com/
使用 C/C++ 编写,以实现最佳性能。
代码量超过 50 万行 C/C++。
完全自研,单一二进制文件。Web 服务器、数据库及其他所有组件均以内存高效方式集成于源码中,便于管理和排查故障。
稳定可靠。自 2002 年起在生产环境持续运行,处理过数十亿次查询,索引覆盖超过 120 亿个唯一网页及 240 亿个镜像页。
极快且高效。为少数达到如此规模的搜索引擎之一,也是唯一开源的同类产品。
支持所有语言。查询时可对指定语言的结果给予优先提升。内部使用 UTF-8 编码。
良好记录。已被众多客户采用,并成功应用于分布式企业软件系统。
缓存网页并高亮查询关键词。
🔄 替代方案
88 个选择
Yahoo! Search
帮助您找到所需内容的搜索引擎。从网络各处查找最相关的信息、视频、图片和答案。Yahoo! 搜索是一款由 Yahoo! Inc. 拥有的网络搜索引擎。

Yelliot Search Engine
Yelliot!您和Elliot搜索引擎,网络、视频、图片、工作、种子、航班、酒店的顶级混合替代搜索引擎,直达结果,融合搜索查询隧道技术,一站式搜索引擎。

TUSK Search
随着言论自由之战持续进行,TUSK正奋勇前行,力图战胜科技巨头的霸权!

findx
您的新搜索引擎。无日志记录,无追踪。算法透明。服务器位于欧洲。像您这样的用户共同塑造搜索结果。

Exalead Web Search
网络搜索(由其自有搜索引擎提供支持)及用户书签服务。

MillionShort
Million Short 是一个实验性的网络搜索引擎(更准确地说,是一个发现引擎),允许你从结果中移除排名前一百万(或前十万个、一万个、一千个、一百个)的网站。我们觉得,如果直接去掉这些网站,可能会发现一些有趣的内容……

Qdex
一款全新的私人搜索引擎,拥有清新现代的界面。Qdex 的搜索结果来自 Google,因此其质量和相关性都非常出色。

Right Dao
你使用的搜索引擎是否追踪你的搜索记录,收集你的数据,分析你的网络活动,并以此牟利?你使用的搜索引擎是否为了呈现扭曲的信息,而对公开信息进行审查和压制?
