Newspaper

💻

Newspaper

网络爬虫工具

软件描述

Newspaper 是一个使用 Python 3 构建的新闻、全文及文章元数据提取工具。

官方网站

访问软件的官方网站了解更多信息

官方认证

newspaper.readthedocs.io

安全链接HTTPS

什么是 Newspaper?

Newspaper 是一个使用 Python 3 构建的新闻、全文及文章元数据提取工具。特性

支持 10 多种语言（英语、中文、德语、阿拉伯语等…）多线程文章下载框架新闻网址识别从 HTML 提取文本从 HTML 提取顶部图片从 HTML 提取所有图片从文本中提取关键词从文本中提取摘要从文本中提取作者提取谷歌趋势词汇

🔄 替代方案

25 个选择

Scrapy

网络爬虫工具, 数据挖掘软件

★5

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计，也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte（前身为 Scrapinghub）开发并维护，是一家网络抓取公司。

免费 • 开源

查看详情

Flyscrape

网络爬虫工具

Flyscrape 是一个独立且可脚本化的网页爬虫，结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取，而非请求处理。

免费 • 开源

查看详情

Lookyloo

网络爬虫工具

Lookyloo 是一个网页界面，允许用户捕获网站页面，然后显示相互调用的域名树。

免费 • 开源

查看详情

artoo.js

网络爬虫工具

artoo.js 是一段旨在在浏览器控制台中运行的 JavaScript 代码，可为您提供一些网页抓取工具。

免费 • 开源

查看详情

Portia

网络爬虫工具

Portia 是一款开源的可视化抓取工具，无需任何编程知识即可抓取网站！只需标注您感兴趣的页面，Portia 就会自动生成爬虫，从相似页面中提取数据。

免费 • 开源

查看详情

Minexa.ai

网络爬虫工具

★4.8

Minexa.ai 是一款下一代工具，通过其他替代方案所不具备的AI驱动解决方案，让网络数据抓取更快、更经济。与那些需要不断调整、在高负载下表现不佳或为自然语言处理额外收费的工具不同，Minexa 能够自动适应……

付费 • 专有

查看详情

ScrapingBee

网络爬虫工具

★2.3

ScrapingBee 是一个处理网页抓取挑战的 API，如 JavaScript 渲染、无头 Chrome 操作、绕过验证码和使用代理。它曾名为 ScrapingNinja。该 API 使用最新版 Chrome 管理多个无头实例，可实现……

付费 • 专有

查看详情

ScraperAPI

网络爬虫工具

ScraperAPI 通过管理IP轮换、无头浏览器和验证码，实现简单高效的网络爬取，简化了从电商、搜索引擎结果页、社交媒体、房地产、旅游网站和评论等平台提取数据的过程。开发者只需提供网址即可轻松获取HTML页面。

免费增值 • 开源

查看详情

第 1 页，共 4 页

许可证免费 • 开源

支持平台

在线访问 [http://newspaper-demo.herokuapp.com/](http://newspaper-demo.herokuapp.com/)自托管 Python Newspaper 是一个 Python3 库