Apache Nutch

Apache Nutch
软件描述
Apache Nutch 是一个高度可扩展且可伸缩的开源网络爬虫软件项目。
官方网站
访问软件的官方网站了解更多信息
nutch.apache.org
安全链接HTTPS
什么是 Apache Nutch?
Apache Nutch 是一个高度可扩展且可伸缩的开源网页爬虫软件项目。
Nutch 完全使用 Java 编程语言编写,但数据以与语言无关的格式存储。它具有高度模块化的架构,允许开发者为媒体类型解析、数据获取、查询和聚类创建插件。
抓取器(“机器人”或“网络爬虫”)是为此项目专门从零开始编写的。
🔄 替代方案
10 个选择Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。
免费 • 开源
查看详情
StormCrawler
软件
StormCrawler 是一个用于使用 Apache Storm 构建分布式网络爬虫的开源 SDK。该项目采用 Apache 许可证 v2,包含一组主要用 Java 编写的可重用资源和组件。
免费 • 开源
查看详情
Heritrix
软件
开源、可扩展的网络爬虫,专为大规模、高质量的网络存档设计,能够保存数字文物,支持模块化插件、分布式爬取、详细监控、任务调度,并以标准化格式导出数据以供长期保存。
免费 • 开源
查看详情





