Apache Spark

软件描述

Apache Spark 是一个支持多语言的引擎,可在单节点机器或集群上执行数据工程、数据科学和机器学习任务。

官方网站

访问软件的官方网站了解更多信息

官方认证

spark.apache.org

安全链接HTTPS

什么是 Apache Spark?

Apache Spark 是一个支持多语言的数据工程、数据科学和机器学习执行引擎,可在单机或集群上运行。
主要特性

批处理/流式数据:使用您偏好的语言(Python、SQL、Scala、Java 或 R)统一处理批量数据和实时流数据。
SQL 分析:快速执行分布式 ANSI SQL 查询,用于仪表盘展示和即席报告,性能优于大多数数据仓库。
大规模数据科学:在 PB 级数据上进行探索性数据分析(EDA),无需降采样。
机器学习:在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到包含数千台机器的容错集群。

🔄 替代方案

10 个选择

Ilum 是一个免费的数据湖仓平台,旨在实现可扩展性、灵活性和简洁性。

免费增值 • 专有
查看详情
Apache Flink

Apache Flink

云计算服务

Flink 的核心是一个流式数据流引擎,为数据流上的分布式计算提供数据分发、通信和容错功能。

免费 • 开源
查看详情
Apache Hadoop

Apache Hadoop

软件

Apache Hadoop 是一个开源软件框架,支持数据密集型分布式应用,采用 Apache v2 许可证。它使应用程序能够与数千台独立的计算计算机及拍字节级别的数据协同工作。

免费 • 开源
查看详情
S2

S2

软件

对象存储堪称革命性突破。2006年,S3 通过在命名对象上进行简单的存储操作开创了先河——18年后的今天,S3 Express One Zone 甚至支持追加操作。但归根结底,对象存储的核心始终是数据块和字节范围。

免费增值 • 专有
查看详情
Amazon Kinesis

Amazon Kinesis

网络分析服务

Amazon Kinesis 服务可轻松实现对 AWS 云中实时流式数据的处理。

付费 • 专有
查看详情
Disco MapReduce

Disco MapReduce

软件

Disco 是一个基于 MapReduce 模型、使用 Python 编写的轻量级开源分布式计算框架。

免费 • 开源
查看详情

Apache Heron(Incubating)是Twitter开发的实时、分布式、容错流处理引擎。

免费 • 开源
查看详情
Apache Storm

Apache Storm

软件

Apache Storm 是一个免费开源的分布式实时计算系统。Storm 使得可靠处理无界数据流变得简单,它对实时处理的作用正如 Hadoop 对批量处理所起的作用。

免费 • 开源
查看详情
上一页
下一页

下载与相关链接

安全提示
⚠️

安全提醒

点击下方链接将跳转到第三方网站,请确保来源安全,建议优先从官方网站下载。