StormCrawler

StormCrawler

StormCrawler

软件

软件描述

StormCrawler 是一个用于使用 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组主要用 Java 编写的可重用资源和组件。

官方网站

访问软件的官方网站了解更多信息

官方认证

stormcrawler.net

安全链接HTTPS

什么是 StormCrawler?

StormCrawler 是一个基于 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组可重用的资源和组件,主要使用 Java 编写。

StormCrawler 的目标是帮助构建满足以下要求的网络爬虫: 可扩展
高容错
低延迟
易于扩展
友好且高效

StormCrawler 是一个库及资源集合,开发者可借此构建自己的爬虫。好消息是,实现起来相当简单:通常只需将 storm-crawler 声明为 Maven 依赖,编写自己的 Topology 类(建议继承 ConfigurableTopology),复用项目提供的组件,并根据需要编写少量自定义组件以实现特定功能。稍作配置调整即可运行!

除了核心组件外,我们还提供一些可复用的外部资源,例如用于 ElasticSearch 的 spout 和 bolts,或使用 Apache Tika 解析多种文档格式的 ParserBolt。

StormCrawler 非常适用于 URL 以流形式到达的场景,也适合大规模递归爬取,尤其在需要低延迟的情况下表现优异。该产品已被多家公司用于生产环境,并持续开发与维护。

🔄 替代方案

10 个选择

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。

免费 • 开源
查看详情

Flyscrape 是一个独立且可脚本化的网页爬虫,结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取,而非请求处理。

免费 • 开源
查看详情

Lookyloo 是一个网页界面,允许用户捕获网站页面,然后显示相互调用的域名树。

免费 • 开源
查看详情
5

Crawlbase(前身为ProxyCrawl)可帮助您在爬取网页时保持匿名,以正确的方式应对网络爬虫防护。

免费增值 • 专有
查看详情

Scraperr 是一个自托管的网络应用,用户可通过指定 XPath 元素来抓取网页数据。用户可提交网址及要抓取的对应元素,结果将以表格形式显示。

免费 • 开源
查看详情

Mixnode 是一个快速、灵活且可大规模扩展的平台,用于从网络中提取和分析数据。

付费 • 专有
查看详情
Apache Nutch

Apache Nutch

网络爬虫工具

Apache Nutch 是一个高度可扩展且可伸缩的开源网络爬虫软件项目。

免费 • 开源
查看详情
Heritrix

Heritrix

软件

开源、可扩展的网络爬虫,专为大规模、高质量的网络存档设计,能够保存数字文物,支持模块化插件、分布式爬取、详细监控、任务调度,并以标准化格式导出数据以供长期保存。

免费 • 开源
查看详情
上一页
下一页

支持平台

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。