StormCrawler

StormCrawler
软件
软件描述
StormCrawler 是一个用于使用 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组主要用 Java 编写的可重用资源和组件。
官方网站
访问软件的官方网站了解更多信息
stormcrawler.net
安全链接HTTPS
什么是 StormCrawler?
StormCrawler 是一个基于 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组可重用的资源和组件,主要使用 Java 编写。
StormCrawler 的目标是帮助构建满足以下要求的网络爬虫:
可扩展
高容错
低延迟
易于扩展
友好且高效
StormCrawler 是一个库及资源集合,开发者可借此构建自己的爬虫。好消息是,实现起来相当简单:通常只需将 storm-crawler 声明为 Maven 依赖,编写自己的 Topology 类(建议继承 ConfigurableTopology),复用项目提供的组件,并根据需要编写少量自定义组件以实现特定功能。稍作配置调整即可运行!
除了核心组件外,我们还提供一些可复用的外部资源,例如用于 ElasticSearch 的 spout 和 bolts,或使用 Apache Tika 解析多种文档格式的 ParserBolt。
StormCrawler 非常适用于 URL 以流形式到达的场景,也适合大规模递归爬取,尤其在需要低延迟的情况下表现优异。该产品已被多家公司用于生产环境,并持续开发与维护。


