Sosse

Sosse
软件描述
SOSSE(Selenium 开源搜索引擎)是一款用 Python 编写、采用 GNU-AGPLv3 许可证发布的搜索引擎和爬虫工具。它托管在 GitLab 和 Github 网站上,请任选其一提交功能请求、错误报告或合并请求,或发起讨论。
官方网站
访问软件的官方网站了解更多信息
gitlab.com
安全链接HTTPS
什么是 Sosse?
SOSSE(Selenium Open Source Search Engine)是一款用Python编写的搜索引擎和爬虫,采用GNU-AGPLv3许可协议发布。它托管在Gitlab和Github上,您可以任选其一提交功能请求、错误报告或合并请求,或发起讨论。
SOSSE的主要特性包括:
🌍 基于浏览器的爬取:爬虫可使用Google Chromium和Selenium来索引使用JavaScript的页面,也可使用请求方式以实现更快的爬取
🏖 资源占用低:SOSSE完全用Python编写,使用PostgreSQL进行数据存储
🖼 离线浏览:SOSSE可保存爬取页面的HTML副本或截图,创建适合离线浏览的存档
🔓 认证功能:爬虫可使用提供的凭据提交认证表单
🔗 搜索引擎快捷方式:可使用快捷搜索查询重定向至外部搜索引擎(有时称为“bang”搜索)
🔖 搜索历史:用户可登录以私密记录其搜索历史