《Spark大数据技术与应用案例教程》教案第12课编写SparkStreaming应用程序.docx
《《Spark大数据技术与应用案例教程》教案第12课编写SparkStreaming应用程序.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第12课编写SparkStreaming应用程序.docx(7页珍藏版)》请在第壹文秘上搜索。
1、课题编写SparkStreaming应用程序课时2课时(90min)教学目标知识技能目标:(1)了解流数据、流计算和SparkStreaming的基本概念(2)理解SparkStreaming的运行原理(3)掌握编写SparkStreaming应用程序的基本步骤素质目标:培养自我学习和持续学习能力,能够及时掌握新技术和工具,并将其应用到实际项目中教学重难点教学重点:流数据、流计算和SparkStreaming的基本概念,SparkStreaming的运行原理教学难点:编写SparkStreaming应用程序的基本步骤教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教
2、材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家了解什么是流数据、流计算和SparkStreaming.【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:你知道什么是流数据、流计算和SParkSlreaming吗?【学生】思考、举手回答传授新知【教师】通过学生的回答引入新知,介绍流数据、流计算和SparkStreaming的基本概念,SparkStreaming的运行原理,以及编写SparkStreaming应用程序的基本步骤等知识一、流数据和流计
3、算【教师】利用多媒体展示“流数据的特点”图片,并介绍流数据和流计算的概念和特点学习SparkStreaming之前,我们先来了解一下流数据和流计算。日常生活中,数据可以分为静态数据和流数据(动态数据)两大类。静态数据是指在应用程序运行时不会发生变化的数据,这些数据通常是预定义的,存储在文件或数据库中,并在程序执行期间被读取和使用。常见的静态数据包括配置文件、资源文件、产品目录、固定列表等。对于静态数据,一般采用批处理方式进行计算,对时间延迟的容忍度比较高。流数据是指动态生成、不断产生的数据集合,通常以连续的流形式进行输入和处理.流数据通常由各种设备或系统不断地采集、发送、存储和处理而来,包括传
4、感器数据、日志数据、社交媒体数据等。流数据的特点如图4-1所示。流数据 的特点数据量大反数据的速度很快,处Gl【二具需要具备高效的算法一高速性数据结构J(嬴据顺序颠倒,或者不GlX无序性整,导致系统无法控制数芈元素的顺第Jf据量大,但不十分关G存储,一旦数据流中的某个元素经过处理,要么被叵弃,要被归档存储J多样性流数据来源广泛,格式复 杂多样旧重数据的整体价值,IL由Q分关注个别数场八空巴图4-1流数据的特点流计算是指对流数据进行实时计算。实时计算要求响应时间为秒级或者毫秒级,即能够实时得到计算结果。在大数据时代,数据量大、数据来源广泛、数据格式复杂,这些都增加了实时计算的难度,进而催生了针对
5、流数据的实时计算流计算。目前,市场上存在的流计算框架有很多,其中主流的框架有SparkStreaming、Storm、KafkaStreams和Flink等。二、认识SparkStreaming【教师】介绍SparkStreaming的概念和优点SparkStreaming是Spark的一个组件,是用于处理流数据的分布式实时计算框架。SparkStreaming利用SPark核心引擎的强大计算能力,以微批处理(micro-batchprocessing)的方式对持续输入的流数据进行处理。SparkStreaming支持各种数据源,包括文件流、套接字流、RDD队列流、Kafl 易于使用。 高效可
6、靠。 可扩展性强。 多语言支持。(详见教材)三、SparkStreaming的运行原理【教师】利用多媒体展示“离散数据流的内部结构和“SparkStreaming的运行原理”图片,并介绍SparkStreaming的运行原理SparkStreaming提供了一种高级的抽象,叫做离散数据流(discretizedstream.DStream)0DSlream的内部其实是一系列连续的RDD,每个RDD都包含一段时间内的数据,如图4-2所示。DStreainRDD time 1RDD Iime 2RDD ti me 3RDD time 4(ZXdata from data fromdata from
7、 _.data from A1 time 0 to 1time 1 to 2time 2 to 3time 3 to 4L_Jv图4-2离散数据流的内部结构SparkStreaming的运行原理是将针对DStream的流处理操作转换为针对RDD的批处理操作,如图43所示。也就是说,SParkSlreaming将实时输入的流数据按照一定的时间间隔拆分为一段一段的数据,并将每段数据都转换为RDD,形成DStream;然后使用Spark的计算引擎对该DStream进行处理(即对DStream中的每个RDD进行处理),输出处理后的DStreame输入流数据DStream1 - DlinesDStrea
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark大数据技术与应用案例教程 Spark 数据 技术 应用 案例 教程 教案 12 编写 SparkStreaming 应用程序