StormCrawler

StormCrawler

StormCrawler

软件

软件描述

StormCrawler 是一个用于使用 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组主要用 Java 编写的可重用资源和组件。

官方网站

访问软件的官方网站了解更多信息

官方认证

stormcrawler.net

安全链接HTTPS

什么是 StormCrawler?

StormCrawler 是一个基于 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组可重用的资源和组件,主要使用 Java 编写。

StormCrawler 的目标是帮助构建满足以下要求的网络爬虫: 可扩展
高容错
低延迟
易于扩展
友好且高效

StormCrawler 是一个库及资源集合,开发者可借此构建自己的爬虫。好消息是,实现起来相当简单:通常只需将 storm-crawler 声明为 Maven 依赖,编写自己的 Topology 类(建议继承 ConfigurableTopology),复用项目提供的组件,并根据需要编写少量自定义组件以实现特定功能。稍作配置调整即可运行!

除了核心组件外,我们还提供一些可复用的外部资源,例如用于 ElasticSearch 的 spout 和 bolts,或使用 Apache Tika 解析多种文档格式的 ParserBolt。

StormCrawler 非常适用于 URL 以流形式到达的场景,也适合大规模递归爬取,尤其在需要低延迟的情况下表现优异。该产品已被多家公司用于生产环境,并持续开发与维护。

🔄 替代方案

10 个选择

Kaddara 是一个专为需要获取新客户线索以开展业务的专业人士设计的平台,其业务受竞争对手运营情况的影响。

付费 • 专有
查看详情
ACHE Crawler

ACHE Crawler

网络爬虫工具

ACHE 是一个用于特定领域搜索的网络爬虫。

免费 • 开源
查看详情
上一页
下一页

支持平台

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。