Gigablast

3

软件描述

一个用 C/C++ 编写的分布式开源搜索引擎及爬虫,适用于 Intel/AMD 平台的 Linux 系统。

什么是 Gigablast?

Gigablast 是一款功能强大、开源且支持实时索引的新式搜索引擎!
特性
可扩展至数千台服务器。
已在超过 200 台服务器上索引超过 120 亿个网页。
一台双四核处理器、32GB 内存、两块 160GB Intel SSD 的机器,运行 8 个 Gigablast 实例,可在包含 1000 万个页面的索引上实现约 8 QPS(每秒查询数)。硬盘将接近满容量。索引规模翻倍后,QPS 大致减半。(性能指标理论上可提升十倍左右,但尚未完成优化。由于当前已相当高效,磁盘使用量大概保持不变。)
100 万个网页需占用 28.6GB 磁盘空间,包括索引、元信息以及所有网页的压缩 HTML。
爬虫速度约为每核心每秒 1 页。因此双四核机器可实现每秒抓取并索引 8 页,即每日 691,200 页。
每个 Gigablast 实例需要 4GB 内存。(实例 = 进程)
在线演示:http://www.gigablast.com/
使用 C/C++ 编写,以实现最佳性能。
代码量超过 50 万行 C/C++。
完全自研,单一二进制文件。Web 服务器、数据库及其他所有组件均以内存高效方式集成于源码中,便于管理和排查故障。
稳定可靠。自 2002 年起在生产环境持续运行,处理过数十亿次查询,索引覆盖超过 120 亿个唯一网页及 240 亿个镜像页。
极快且高效。为少数达到如此规模的搜索引擎之一,也是唯一开源的同类产品。
支持所有语言。查询时可对指定语言的结果给予优先提升。内部使用 UTF-8 编码。
良好记录。已被众多客户采用,并成功应用于分布式企业软件系统。
缓存网页并高亮查询关键词。

🔄 替代方案

88 个选择
1

我们是一家私人搜索引擎,不会追踪您或存储您的数据。您的搜索关键词始终经过加密,以确保隐私安全。

0

这款搜索引擎帮助您精准找到所需内容。从互联网各个角落获取最相关的信息、新闻、图片和视频。更优的上网搜索方式。全网搜索。

Hide My Searches

Hide My Searches

1

通过将可能被追踪的搜索重定向到注重隐私的搜索引擎 Hide My Searches,保护您的搜索记录不被泄露。

Search for a Cause

Search for a Cause

5

“寻找原因”是一款搜索引擎,每次您搜索时,我们都会为您向慈善机构捐款。我们通过在搜索结果中包含少量广告来筹集资金,这些广告带来的收入将汇总后捐赠给我们的合作慈善机构。

0

开源搜索引擎,提供“全部”、“仅索引”、“图片”和“视频”四种模式,数据源包括维基百科信息框、Searx、交互式组件以及PeerTube作为视频的备用源。可通过查询字符串设置搜索模式,以进行自定义搜索。

5

全球最佳私人搜索引擎。

0

SOSSE(Selenium 开源搜索引擎)是一款用 Python 编写的搜索引擎和爬虫,采用 GNU-AGPLv3 许可证发布。它托管在 GitLab 和 GitHub 上,请任选其一提交功能请求、错误报告或合并请求,或发起讨论。

Sphider

Sphider

0

Sphider 是一个用 PHP 编写的轻量级网页爬虫和搜索引擎,使用 MySQL 作为其后端数据库。它是为您的网站添加搜索功能或构建自定义搜索引擎的绝佳工具。

上一页下一页
评分3.0 / 5.0

支持平台