《Spark基础知识》课件.docx
《《Spark基础知识》课件.docx》由会员分享,可在线阅读,更多相关《《Spark基础知识》课件.docx(5页珍藏版)》请在第壹文秘上搜索。
1、Spark基础知识ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。SPark是UCBerkeIeyAMPIab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于M叩RedUCe的是一Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此SPark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得
2、更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发,可用来构
3、建大型的、低延迟的数据分析应用程序。1.基本介绍ApacheSPark是专为大规模数据处理而设计的快速通用的计算引擎2。现在形成一个高速发展应用广泛的生态系统。2.特点Spark主要有三个特点3:首先,高级API剥离了对集群本身的关注,Spark应用开发者可以专注于应用所要做的计算本身。其次,Spark很快,支持交互式计算和复杂算法。最后5park是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等,而在Spark出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。344能特点更快的速度内存计算下,Spark比Hadoop快IOo倍。易用性Spark提供了8
4、0多个高级运算符。通用性Spark提供了大量的库,包括SParkCore、SParkSQL、SParkStreaming、MLIib、GraphXe开发者可以在同一个应用程序中无缝组合使用这些库。支持多种资源管理器Spark支持HadoopYARN,ApacheMesos,及其自带的独立集群管理器SPark生态系统令Shark:Shark基本上就是在Spark的框架基础上提供和Hive一样的HiVeQL命令接口为了最大程度的保持和Hive的兼容性,Spark使用了Hive的API来实现queryParsing和LogicPlangeneration,最后的PhysicaIPIanexecuti
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark基础知识 Spark 基础知识 课件