DiffBot

软件

软件描述

* 自动从网页获取数据： Diffbot 的计算机视觉 API 将网络变为您的数据库。 * 自动化 API：自动提取从文章、产品及其他常见页面类型中获取结构化内容。

官方网站

访问软件的官方网站了解更多信息

官方认证

www.diffbot.com

安全链接HTTPS

立即访问

什么是 DiffBot?

为什么选择 Diffbot？我们专注于为您提供更优质的网络数据。数百家客户每月进行数百万次调用，原因如下：

网络内容提取最佳工具：

Diffbot 自动运行——无需规则或训练。这是从网页提取数据的最优方式。了解 Diffbot 与其他内容提取方法的对比：功能对比文本提取质量评测

自动识别页面：

使用 Analyze API 可自动发现并提取任意网站中的所有产品、文章、讨论或图片。 Analyze API

详尽的产品数据：

Product API 自动返回完整的产品信息，包括全部价格数据、产品编号、品牌及完整规格表。 Product API

清洁的文本与 HTML：

文章、讨论帖、产品描述和图片说明均以纯文本和清理后的 HTML 形式返回。立即开始测试

结构化搜索：

通过 Search API 实时搜索任何爬取内容中的结构化数据，仅返回匹配结果。此外还有…… ¤ 所有 API 均支持执行 JavaScript，内容解析方式如同常规浏览器。 ¤ 凭借视觉处理技术，可适用于大多数非英文页面。 ¤ 日期标准化：时间戳将统一转换为 RFC 1123（HTTP/1.1）标准格式。 ¤ 多页文章会自动合并为单一 API 响应。 ¤ 实体提取：自动标记识别文章中的主要主题和实体。 ¤ 可通过 API Toolkit 实时修复问题。 ¤ 支持批量 API，可提取数百至数十万页。 ¤ 可按完整 JSON 或 CSV 格式访问 Crawlbot 和批量任务数据。 ¤ 可选使用多种 IP 地址进行爬取。