Apache Spark
软件描述
Apache Spark 是一个支持多语言的引擎,可在单节点机器或集群上执行数据工程、数据科学和机器学习任务。
官方网站
访问软件的官方网站了解更多信息
spark.apache.org
什么是 Apache Spark?
Apache Spark 是一个支持多语言的数据工程、数据科学和机器学习执行引擎,可在单机或集群上运行。
主要特性
批处理/流式数据:使用您偏好的语言(Python、SQL、Scala、Java 或 R)统一处理批量数据和实时流数据。
SQL 分析:快速执行分布式 ANSI SQL 查询,用于仪表盘展示和即席报告,性能优于大多数数据仓库。
大规模数据科学:在 PB 级数据上进行探索性数据分析(EDA),无需降采样。
机器学习:在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到包含数千台机器的容错集群。
🔄 替代方案
10 个选择
Apache Flink
Flink 的核心是一个流式数据流引擎,为数据流上的分布式计算提供数据分发、通信和容错功能。

Apache Hadoop
Apache Hadoop 是一个开源软件框架,支持数据密集型分布式应用,采用 Apache v2 许可证。它使应用程序能够与数千台独立的计算计算机及拍字节级别的数据协同工作。

S2
对象存储堪称革命性突破。2006年,S3 通过在命名对象上进行简单的存储操作开创了先河——18年后的今天,S3 Express One Zone 甚至支持追加操作。但归根结底,对象存储的核心始终是数据块和字节范围。

Amazon Kinesis
Amazon Kinesis 服务可轻松实现对 AWS 云中实时流式数据的处理。

Disco MapReduce
Disco 是一个基于 MapReduce 模型、使用 Python 编写的轻量级开源分布式计算框架。

Heron
Apache Heron(Incubating)是Twitter开发的实时、分布式、容错流处理引擎。

Apache Storm
Apache Storm 是一个免费开源的分布式实时计算系统。Storm 使得可靠处理无界数据流变得简单,它对实时处理的作用正如 Hadoop 对批量处理所起的作用。


