Apache Nutch

Apache Nutch

Apache Nutch

网络爬虫工具

软件描述

Apache Nutch 是一个高度可扩展且可伸缩的开源网络爬虫软件项目。

官方网站

访问软件的官方网站了解更多信息

官方认证

nutch.apache.org

安全链接HTTPS

什么是 Apache Nutch?

Apache Nutch 是一个高度可扩展且可伸缩的开源网页爬虫软件项目。
Nutch 完全使用 Java 编程语言编写,但数据以与语言无关的格式存储。它具有高度模块化的架构,允许开发者为媒体类型解析、数据获取、查询和聚类创建插件。
抓取器(“机器人”或“网络爬虫”)是为此项目专门从零开始编写的。

🔄 替代方案

10 个选择

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。

免费 • 开源
查看详情

Flyscrape 是一个独立且可脚本化的网页爬虫,结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取,而非请求处理。

免费 • 开源
查看详情

Lookyloo 是一个网页界面,允许用户捕获网站页面,然后显示相互调用的域名树。

免费 • 开源
查看详情
5

Crawlbase(前身为ProxyCrawl)可帮助您在爬取网页时保持匿名,以正确的方式应对网络爬虫防护。

免费增值 • 专有
查看详情

Scraperr 是一个自托管的网络应用,用户可通过指定 XPath 元素来抓取网页数据。用户可提交网址及要抓取的对应元素,结果将以表格形式显示。

免费 • 开源
查看详情

Mixnode 是一个快速、灵活且可大规模扩展的平台,用于从网络中提取和分析数据。

付费 • 专有
查看详情
StormCrawler

StormCrawler

软件

StormCrawler 是一个用于使用 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组主要用 Java 编写的可重用资源和组件。

免费 • 开源
查看详情
Heritrix

Heritrix

软件

开源、可扩展的网络爬虫,专为大规模、高质量的网络存档设计,能够保存数字文物,支持模块化插件、分布式爬取、详细监控、任务调度,并以标准化格式导出数据以供长期保存。

免费 • 开源
查看详情
上一页
下一页