Apache Spark
软件描述
Apache Spark 是一个支持多语言的引擎,可在单节点机器或集群上执行数据工程、数据科学和机器学习任务。
官方网站
访问软件的官方网站了解更多信息
spark.apache.org
安全链接HTTPS
什么是 Apache Spark?
Apache Spark 是一个支持多语言的数据工程、数据科学和机器学习执行引擎,可在单机或集群上运行。
主要特性
批处理/流式数据:使用您偏好的语言(Python、SQL、Scala、Java 或 R)统一处理批量数据和实时流数据。
SQL 分析:快速执行分布式 ANSI SQL 查询,用于仪表盘展示和即席报告,性能优于大多数数据仓库。
大规模数据科学:在 PB 级数据上进行探索性数据分析(EDA),无需降采样。
机器学习:在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到包含数千台机器的容错集群。


