《Spark大数据技术与应用案例教程》教案第1课搭建spark单机环境.docx
《《Spark大数据技术与应用案例教程》教案第1课搭建spark单机环境.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第1课搭建spark单机环境.docx(6页珍藏版)》请在第壹文秘上搜索。
1、Spark大数据技术与应用案例教程教案课时分配表章序课程内容课时备注1Spark入门62SparkRDD弹性分布式雌集83SparkSQL结构化数据处理84SparkStreaming实时计算框架65SparkMLlib机器学习库86GraphFratnes图计算框架47综合案例一分析银行个人信贷业务数据8酎48课即搭建SPark单机环境课时2课时(90min)教学目标知识技能目标:(1)认识Spark的发展历程(2)了解SPark的特点(3)认识Spark的应用场景素质目标:增强学生遵守规则的意识,养成按规矩行事的习惯。加强学生基础知识的学习,实现从量变到质变的转化,为个人的长远发展打卜基础
2、。教学重睚点教学重点:认识并了解Spark的特点和应用场景教学难点:能独立搭建Spark单机环境教学方法案例分析法、问答法、讨论法、i并授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家了解Spark的发展历程。【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因新课预热【教师】自我介绍,与学生简单互动,介绍课程内容、考核标准等【学生】聆听、互动【教师】讲一些大数据技术在一些行业领域(如电商行业)的应用并解释大数据技术的作用电商行业是最早将大
3、数据用于精准营销的行业,它可以根据消费者的习惯提前生产物料和物流管理,这样有利于美好社会的精细化生产。随着电子商务的越来越集中,大数据在行业中的数据量变得越大,并粗种类非常多。在未来的发展中,大数据在电子商务中有大多的想象,其中主要包括预测趋势,消费趋势,区域消费特征,顾客消费习惯,消费者行为,消费热点和影响消费的重要因素。【学生】聆听、记录、理解问题导入【教师】提出以下问题:你在处理大量数据时,常采用的工具是什么?【学生】思考、举手回答【教师】通过学生的回答引入要讲的知识传授新知【教师】通过学生的回答引入要讲的知识,介绍SPark的发展历程、特点及其应用场景一、Spark的发展历程【教师】讲
4、解SPark的发展历程Spark官方网站对其的定义是ApacheSpark是专为大规模雌处理而设计的快速通用的计算引擎由于Spark是UCBerkeleyAMPlaboratory(加州大学伯克利分校的AMP实验室)FF源的类HadoopMapReduce的通用并行框架,但不同于HadOoPM叩RedUCe的是Spark处理数据时中间数据尽可能保存在内存中.因此,也可以将SPark理解为一个基于内存计算、支持分布式计算和并行计算的大数据处理框架。SPark提供了丰富的工具和API,可以用于结构化数据处理、流数据处理、机器学习及图形处理等多种场景。Spark的发展历程如表1-I所示。时间点说明2
5、009年Spark作为一个研究项目诞生于伯克利大学的AMP实验室,该项目的目标是提供一个更快、更灵活、更易用的分布式计算框架,以便更好地进行大规模数据处理和机器学习等任务2010年SPark正式发布开源代码2013年Spark成为Apache软件基金会的孵化器项目,解决了一些bug,增加了新的功能,并改进了可用性问题2014年Spark成为Apache软件基金会的顶级开源项目之一,并发布了第一个稳定版本SPark1.0.0.在SPark1.0.x系列版本中SParkSQL、SparkStreaming,MLlib和GraphX都增加了新特性并进行了优化2015年Spark1.5.x系列版本发布
6、,提升了Spark的性能,增加了一些机器学习算法和工具等,使得Spark变得更为全面和强大2016年Spark2.0.x系列版本发布,大幅度改进了APl兼容性和查询优化器,支持结构化的流数据处理2017年Spark2.2.x系列版本发布,更新内容主要针的是系统的可用性、稳定性及代码润色2018年Spark2.4.x系列版本发布,进一步改进了流数据处理和机器学习功能,并集成了更多的深度学习框架2020年Spark3.0.0版本发布,能够更好地支持Python和R语言,并提供了更强大的分布式SQL查询引擎。同时,Spark也加强了与ApacheArrow、DeliaLake等数据处理技术的集成20
7、21年Spark3.1.1版本发布,提升了PyihOn的可用性,增强了ANSISQL兼容性,加强了查询优化等2022年SPark3.3.0版本发布,提升了查询性能,简化了从传统数据仓库的迁移,提升了效率等2023年Spark3.4.0版本为SparkConnect引入了Python客户端,增强了结构化数据流,增加了PandasAPI的覆盖范围,提供了Numpy输入支持,并通过内存分析提高了开发效率和可调用性等表1-1Spark的发展历程(详见教材)二、SPark的特点【教师】讲解SPark的特点Spark是与HadoopMapReduce类似的通用并行计算框架,它拥有HadoopMapRedu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark大数据技术与应用案例教程 Spark 数据 技术 应用 案例 教程 教案 搭建 单机 环境