《Spark大数据技术与应用案例教程》教案第2课搭建Spark集群环境.docx
《《Spark大数据技术与应用案例教程》教案第2课搭建Spark集群环境.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第2课搭建Spark集群环境.docx(7页珍藏版)》请在第壹文秘上搜索。
1、课题搭建Spark集群环境课时2课时(90min)教学目标知识技能目标:(1)了解SPark的生态系统(2)熟悉SPark的运行架构(3)熟悉SPark运行的基本流程(4)座Spark的部署模式素质目标:增强学生遵守规则的意识,养麒规矩行事的习惯。加强学生基础知识的学习,实现从量变到质变的转化,为个人的长远发展打下基础。教学重难点教学重点:熟悉Spark的运行架构、部署模式以及Spark运行的基本流程教学睚点:能独立搭建Spark集群环境教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,
2、让其提醒同学通过APP或其他学习软件,完成课前任务请大家了解Spaik的生态系统【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:Spark集群环境是如何组成的?【学生】举手回答传授新知【教师】通过学生的回答引入新知,介绍Spark的生态系统、运行架构,以及Spark的运行的基本流程和Spark的部署模式等知识一、Spark的生态系统【教师】介绍Spark的生态系统SPark的设计遵循Y软件找满足不同应用场景的理念,因此逐渐形成了一套成熟的生态系统。Spark的生态系统又称为伯努利分析栈(Berkerleydataanalyticss
3、tack,BDAS),它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台系统.Spark生态系统(见图1-4)以SParkCore为核心,专注于数据的处理分析。它支持Local、Standalone.YARN和Kubemetes等多种部署模式,可以借助HDFS.MySQL、HBase和AmazonS3等实现数据存储,还提供了SparkSQL、SparkStreamingsSparkMLlib和SparkGraphX等多种组件。其中,SparkCore和SPark组件的详细介绍如下。图1-4SPark的生态系统(DSparkCore.SParkCOre可以实现SPark的基本功能,
4、包括任务调度、内存管理、存储管理和故障恢复等。SparkCore建立在统一的抽象数据集(RDD)之上,并提供了用于创建分布式数据处理应用程序的APLSparkCore旨在提高数据处理应用程序的执行效率,通过内存计算而非基于磁盘的传统批处理,提高计算性能,并允许在更广泛的问题域中执行交互式杳询和分析.(2)SparkSQLeSparkSQL是用于操作结构化数据的组件。它将SQL与Spark应用程序无缝衔接,可以使用Python.ScalaxJava或R语言的API实现,具有易整合的特点。此外,SparkSQL提供了访问各种数据源的通用方法,可以以相同的方式连接到MySQL、Hive、HBaSe等
5、多种数据源。(3)SparkStreaming.SparkStreaming是用于实时流处理的组件。(4)SparkMLlib.SparkMLlib是用于在分布式计食环境中进行机器学习任务的组件。(5)SparkGraphXeSparkGraphX是用于处理和分析大规模图数据的组件,它能够通过Spark的分布式计算能力有效解决传统单机处理大规模图数据的效率问题。(详见教材)二、SPark的运行架构【教师】利用多媒体展示Spark的运行架构图,并讲解Spark的运行架构一般情况下,Spark的运行架构包括每个应用的驱动器、集群资源管理器、运行作业任务的工作节点和每个工作节点上负责具体任务的执行器
6、,如图1-5所示.DriVer SparkContextCluster ManagerWorker NodeHDFS,HBase图1-5SPark的运行架构Spark运行架构中涉及的概念及其解释如下。(】)应用(Application):用户编写的Spark应用程序,包括实现DriVel功能的代码和在集群多个节点上运行的程序代码。(2)驱动器(Driver):运行应用程序的main函数,创建SparkContext对象,其目的是为Spark应用程序准备运行环境。在Spark中,由SparkContext负责与ClUSterManager通信,进行资源申请、任务的分配和监控等.当Executor
7、部分运行完毕后,Driver同时负责将SparkContext关闭.(3)集群资源管理器(ClusterManager):负责资源管理和调度,根据应用程序的需求来分配集群中的计算节扁呐存资源。(4)工作节点(Worker):集群中运行Spark应用程序的节点。Worker就是物理节点,可以在上面启动Executor进程。(5)执行器(Executor):在每个Worker上为某应用程序启动的一个进程,该进程负责运行Task,并且负责将数据保存在内存或者磁盘上,每个任务都有各自独立的Executor.Executor是一个执行Task的容器。(6)弹性分布式数据集(resilientdistri
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark大数据技术与应用案例教程 Spark 数据 技术 应用 案例 教程 教案 搭建 集群 环境