Apache Nutch

网络爬虫工具

软件描述

Apache Nutch 是一个高度可扩展且可伸缩的开源网络爬虫软件项目。

官方网站

访问软件的官方网站了解更多信息

官方认证

nutch.apache.org

安全链接HTTPS

立即访问

什么是 Apache Nutch?

Apache Nutch 是一个高度可扩展且可伸缩的开源网页爬虫软件项目。
Nutch 完全使用 Java 编程语言编写，但数据以与语言无关的格式存储。它具有高度模块化的架构，允许开发者为媒体类型解析、数据获取、查询和聚类创建插件。
抓取器（“机器人”或“网络爬虫”）是为此项目专门从零开始编写的。

主要功能

✓ 可扩展的 ✓ 可通过插件/扩展进行扩展 ✓ 基于 Java

🔄 替代方案

10 个选择

Scrapy

网络爬虫工具, 数据挖掘软件

★5

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计，也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte（前身为 Scrapinghub）开发并维护，是一家网络抓取公司。

Flyscrape

网络爬虫工具

Flyscrape 是一个独立且可脚本化的网页爬虫，结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取，而非请求处理。

Lookyloo

网络爬虫工具

Lookyloo 是一个网页界面，允许用户捕获网站页面，然后显示相互调用的域名树。

Crawlbase

网络爬虫工具

★5

Crawlbase（前身为ProxyCrawl）可帮助您在爬取网页时保持匿名，以正确的方式应对网络爬虫防护。

Scraperr

网络爬虫工具

Scraperr 是一个自托管的网络应用，用户可通过指定 XPath 元素来抓取网页数据。用户可提交网址及要抓取的对应元素，结果将以表格形式显示。

Mixnode

网络爬虫工具

Mixnode 是一个快速、灵活且可大规模扩展的平台，用于从网络中提取和分析数据。

StormCrawler

StormCrawler 是一个用于使用 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2，包含一组主要用 Java 编写的可重用资源和组件。

Heritrix

开源、可扩展的网络爬虫，专为大规模、高质量的网络存档设计，能够保存数字文物，支持模块化插件、分布式爬取、详细监控、任务调度，并以标准化格式导出数据以供长期保存。

第 1 页，共 2 页下一页

许可证免费 • 开源

支持平台

Mac Windows Linux

雷思软件

Apache Nutch

Apache Nutch

软件描述

官方网站

什么是 Apache Nutch?

主要功能

🔄 替代方案

Scrapy

Flyscrape

Lookyloo

Crawlbase

Scraperr

Mixnode

StormCrawler

Heritrix

支持平台

标签