1、spark是什么spark, 是一种通用的大数据计算框架, 正如传统大数据技术hadoop的mapreduce、 hive引擎, 以及storm流式实时计算引擎等。spark包含了大数据领域常见的各种计算框架, 比如:spark core用于离线计算spark sql用于交互式查询spark streaming用于实时流式计算spa [更新时间:2024-11-20]
1、spark是什么
spark, 是一种通用的大数据计算框架, 正如传统大数据技术hadoop的mapreduce、 hive引擎, 以及storm流式实时计算引擎等。
spark包含了大数据领域常见的各种计算框架, 比如:
spark core用于离线计算
spark sql用于交互式查询
spark streaming用于实时流式计算
spark mllib用于机器学习
spark graphx用于图计算
spark主要用于大数据的计算, 而hadoop以后主要用于大数据的存储( 比如hdfs、 hive、 hbase等) , 以及资源调度( yarn)
spark+hadoop的组合, 是未来大数据领域最热门的组合, 也是最有前景的组合!
2、spark介绍
spark, 是一种one stack to rule them all的大数据计算框架, 期望使用一个技术堆栈就 完美地解决大数据领域的各种计算任务。 apache官方, 对spark的定义就是: 通用的大数据快 速处理引擎。
spark使用spark rdd、 spark sql、 spark streaming、 mllib、 graphx成功解决了大数 据领域中, 离线批处理、 交互式查询、 实时流计算、 机器学习与图计算等最重要的任务和问题。
spark除了一站式的特点之外, 另外一个最重要的特点, 就是基于内存进行计算, 从而让 它的速度可以达到mapreduce、 hive的数倍甚至数十倍!
现在已经有很多大公司正在生产环境下深度地使用spark作为大数据的计算框架, 包括 ebay、 yahoo!、 bat、 网易、 京东、 华为、 大众点评、 优酷土豆、 搜狗等等。
spark同时也获得了多个世界顶级it厂商的支持, 包括ibm、 intel等。