StormCrawler

StormCrawler
软件
软件描述
StormCrawler 是一个用于使用 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组主要用 Java 编写的可重用资源和组件。
官方网站
访问软件的官方网站了解更多信息
stormcrawler.net
什么是 StormCrawler?
StormCrawler 是一个基于 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组可重用的资源和组件,主要使用 Java 编写。
StormCrawler 的目标是帮助构建满足以下要求的网络爬虫:
可扩展
高容错
低延迟
易于扩展
友好且高效
StormCrawler 是一个库及资源集合,开发者可借此构建自己的爬虫。好消息是,实现起来相当简单:通常只需将 storm-crawler 声明为 Maven 依赖,编写自己的 Topology 类(建议继承 ConfigurableTopology),复用项目提供的组件,并根据需要编写少量自定义组件以实现特定功能。稍作配置调整即可运行!
除了核心组件外,我们还提供一些可复用的外部资源,例如用于 ElasticSearch 的 spout 和 bolts,或使用 Apache Tika 解析多种文档格式的 ParserBolt。
StormCrawler 非常适用于 URL 以流形式到达的场景,也适合大规模递归爬取,尤其在需要低延迟的情况下表现优异。该产品已被多家公司用于生产环境,并持续开发与维护。
🔄 替代方案
10 个选择Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。

Heritrix
软件
开源、可扩展的网络爬虫,专为大规模、高质量的网络存档设计,能够保存数字文物,支持模块化插件、分布式爬取、详细监控、任务调度,并以标准化格式导出数据以供长期保存。







