《Spark大数据技术与应用案例教程》教案第9课查看商品信息.docx
《《Spark大数据技术与应用案例教程》教案第9课查看商品信息.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第9课查看商品信息.docx(10页珍藏版)》请在第壹文秘上搜索。
1、课题查看商品信息课时2课时(90min)教学目标知识技能目标:(1)掌握DataFrame的创建方法(2)掌握DataFrame的数据获取操作素质目标:培养举一反三的能力,学会融会贯通教学重难点教学重点:DataFrame的创建,DataFrame的数据获取操作教学难点:读取数据并创建DataFrame,获取DataFramc的数据教学方法案例分析法、问答法、讨论法、i井授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家了解DataFrame的相关知识.【学生】完成课前
2、任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:什么是DataFrame?DataFrame与RDD有何区别?【学生】思考、举手回答传授新知【教师】通过学生的回答引入新知一、DataFramc的创建【教师】介绍DataFrame的概念,以及DataFrame与RDD的区别DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表。DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每列都带有名称和数据类型。DataFrame与RDD的区别如图3-10所示。如果把数据存放到RDD中,则每个元素都是
3、一个对象(如Person对象),但是对的内部结构对于RDD而言是未知的。如果把雌存放到DataFrame中,则每个元素都被封装为RoW类型,SParkSQL知道对象的内部结构信息,即列数、每列的名称和数据类型。StringIntDoubleStringIntDoubleStringIntDoubleNameAgeHeightStringIntDoubleStringIntDoubleStringIntDoubleRDDIPersonlDataFrame图3-10DataFrame与RDD的区别DataFrame支持从数据文件、外部数据库、Spark计算过程中生成的RDD.Hive表等不同的数据
4、源中读取数据并创建DataFramee【教师】介绍DataFrame的创建方法1 .通过数据文件创建DataFrameSparkSession是SparkSQL提供的一个处理结构化数据的编程接口,它支持从不同的数据源中读取数据并创建DaIaFrame,还支持执行不同的SQL置旬和DataFrame操作等.在开发独立应用程序时,通过SparkSession.builder可以创建一个SparkSession对象,并配置Spark应用程序的相关属性,参考示例如下。frompysparkimportSparkContext5SparkConffrompyspark.sqlimportSparkSes
5、sionspark=SparkSession.buiIder.appName(MyApp,).getOrCreate()builder是SparkSession的一个构造器,其常用方法及说明如表3-1所示。表3-1builder的常用方法及说明方法说明appName(name)为应用程序设置一个名称,该名称将在SparkWebUI中显示。参数name为应用程序的名称master(master)设置Spark连接的主节点URL,如“local”表示本地运行、“spaik:/master:7077,表示在Spark独立集群上运行。参数master为Spark主节点的URLconfig(key,va
6、lue,conD设置一个配置选项,使用该方法设置的选项会自动传到SparkConf和SparkSession的配置中。参数key(可选)为配置属性的键名;参数value(可选)为配置属性的值;参数conf(可选)为SparkConf的实例enableHiveSupport()启用Hive支持,包括连接到持久的Hive元存储,支持HiveSerDes和Hive用户定义函数getOrCreate()获取一个现有的SparkSession,如果不存在,则会基于此构建器中设置的选项创建一个新的SparkSession通过数据文件创建DataFrame时,使用SparkSession对象的read属性获
7、取SparkSQL中的外部数据源访问对象DataFrameReader后,可以直接使用DataFrameReader对象的text()Njson()sCSVO或parquet()方法读取不同文件中的数据创建DataFrame;也可以使用DataFrameReader对象的format。方法指定输入数据源的格式,接着使用该对象的load()方法读取数据源中的数据创建DataFramee参考示例如下。#1卖取文本文件中的数据创建DataFramespark.read.text(people.txt)spark.read.formai(text).load(people.txt)卖取JSON文件中的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark大数据技术与应用案例教程 Spark 数据 技术 应用 案例 教程 教案 查看 商品信息