Newspaper

💻

软件描述

Newspaper 是一个使用 Python 3 构建的新闻、全文及文章元数据提取工具。

官方网站

访问软件的官方网站了解更多信息

官方认证

newspaper.readthedocs.io

安全链接HTTPS

什么是 Newspaper?

Newspaper 是一个使用 Python 3 构建的新闻、全文及文章元数据提取工具。 特性

支持 10 多种语言(英语、中文、德语、阿拉伯语等…) 多线程文章下载框架 新闻网址识别 从 HTML 提取文本 从 HTML 提取顶部图片 从 HTML 提取所有图片 从文本中提取关键词 从文本中提取摘要 从文本中提取作者 提取谷歌趋势词汇

🔄 替代方案

25 个选择

Scrapy 是一个用 Python 编写的免费开源网络爬取框架。最初为网页抓取而设计,也可用于通过 API 提取数据或作为通用网络爬虫。它由 Zyte(前身为 Scrapinghub)开发并维护,是一家网络抓取公司。

免费 • 开源
查看详情

Flyscrape 是一个独立且可脚本化的网页爬虫,结合了 Go 语言的速度与 JavaScript 的灵活性。—— 专注于数据提取,而非请求处理。

免费 • 开源
查看详情

Lookyloo 是一个网页界面,允许用户捕获网站页面,然后显示相互调用的域名树。

免费 • 开源
查看详情

artoo.js 是一段旨在在浏览器控制台中运行的 JavaScript 代码,可为您提供一些网页抓取工具。

免费 • 开源
查看详情

Portia 是一款开源的可视化抓取工具,无需任何编程知识即可抓取网站!只需标注您感兴趣的页面,Portia 就会自动生成爬虫,从相似页面中提取数据。

免费 • 开源
查看详情
4.8

Minexa.ai 是一款下一代工具,通过其他替代方案所不具备的AI驱动解决方案,让网络数据抓取更快、更经济。与那些需要不断调整、在高负载下表现不佳或为自然语言处理额外收费的工具不同,Minexa 能够自动适应……

付费 • 专有
查看详情
2.3

ScrapingBee 是一个处理网页抓取挑战的 API,如 JavaScript 渲染、无头 Chrome 操作、绕过验证码和使用代理。它曾名为 ScrapingNinja。该 API 使用最新版 Chrome 管理多个无头实例,可实现……

付费 • 专有
查看详情

ScraperAPI 通过管理IP轮换、无头浏览器和验证码,实现简单高效的网络爬取,简化了从电商、搜索引擎结果页、社交媒体、房地产、旅游网站和评论等平台提取数据的过程。开发者只需提供网址即可轻松获取HTML页面。

免费增值 • 开源
查看详情
上一页
下一页