欢迎来到第壹文秘! | 帮助中心 分享价值,成长自我!
第壹文秘
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 第壹文秘 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    《Spark大数据技术与应用案例教程》教案第7课存储归纳后的学生成绩数据.docx

    • 资源ID:926269       资源大小:31.46KB        全文页数:4页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《Spark大数据技术与应用案例教程》教案第7课存储归纳后的学生成绩数据.docx

    课题存储归纳后的学生成绩数据课时2课时(90min)教学目标知识技能目标:(1)熟悉Spark中常见的文件格式(2)掌握将RDD存储为不同类型文件的方法素质目标:能够意识到SparkRDD应用的价值,培养学生使用RDD存储为不同类型文件的能力,使其能够跟上时代发展的步伐教学重难点教学重点:SPark中常见的文件格式教学难点:将RDD保存为特定文件教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家了解Spark中常见的文件格式。【学生】完成课前任务考勤【教师】使用APP迸行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:你知道Spark中常见的文件格式有哪些吗?【学生】举手回答传授新知【教师】通过学生的回答引入新知,介绍Spark中常见的文件格式,以及将RDD保存为特定文件的方法等内容一、SPark中常见的文件格式【教师】介绍SPark中常见的文件格式SPark中常见的文件格式有普通的文本文件、JSON文件、CSV文件等。文本文件是指以txt为扩展名的文件,比较常见,此处不再螯述。1.JSON文件JSON(javascriptobjectnotation)是一种轻量级、文本格式的数据交换标准,它是基于JavaScript的一个子集,适用于多种不同语言。JSON文件采用键值对的方式描述数据,其中key为字符串类型,value可以是数字、字符串、布尔值、数组、对象等类型.JSON文件数据的书写格式如下,示例如图2-35所示。"11ae,:"John","age":30,"city":"MewYork","interests":"reading","nusic","traveling","education":"degree":"Master's","major":"CoeputerScience"图2-35JSON文件数据示例JSoN文件以“"形式开始和结束,表示一个对象。在对象内部,每个键值对内部使用":"分隔。键必须是字符串,值可以是任何有效的JSON类型。键值对之间使用分隔。数组用""表示,并且数组元素之间使用","分隔。文本字符串必须使用双引号包围,不支持单引号。2.CSV文件CSV是一种常用的电子表格文件格式。CSV文件以为分隔符9微据值组织成行和列的形式,其中每行表示一条记录,如图2-36所示。打开(O)aid.card.csvZsrocalsparicmycode保存(三)三×姓名,身份证号码,出生日期,性别,地址张三,11010119900101XXXX,199e-。1-。1,另,北京市朝阳区赵六,41010119901201XXXX,199012。1,女,河南省郑州市中原区钱七,3201011980U02XXXX,1980-11-。2,男,江苏省南京市鼓楼区图2-36,id-card.csv,f文件内容二、将RDD保存为特定文件使用Spark提供的方法可以读取多种文件中的数据,以便进行必要的数据处理和分析。在完成数据分析后,可以将分析结果存储至特定文件中,以便后续对现有分析结果进行进一步的处理与分析。在SPark中,使用IeXIFileO方法可以读取多种文件创建RDD该方法前面已经介绍过,此处不再赘述。使用SaVeASTeXtFiIeO方法可以将RDD保存为特定文件,即将RDD中的数据存储至特定文件中。该方法的基本格式如下。SaveAsTextFileCpath,compressionCodecClass)其中,参数的含义如下。(1)path:文件保存的目录地址。要求该目录地址事先不存在;如果存在,运行代码时Spark就会报错。(2)compressionCodecClass(可选):压缩编解码器类的完全限定类名(如press.GzipCodec)【教师】通过例子,帮助学生掌握将RDD保存为特定文件的方法【例2-19文本文件的读取与存储。现有“usrIoCaIsaprkmycodehe11o.SPark.txt”文件,内容如图2-37所示。F打开(0)国HelloSparkIloveSpark图2-37"hello_SPark.txt”文件内容使用IeXIFile()方法读取"hello_spark.txi"文件创建RDD,执行foreach。操作输出RDD的元素,如图2-38所示。然后,使用repartition。方法将分区设置为I0使用SaVeASTeXtFiIeo方法将RDD保存为文本文件,生成一个"output="目录(见图2-39),目录中包含"pan-00000"和SUCCESS"文件,其中"part-00000”文件用于存储RDD的元素。hadoopbogon$pyspark粒卖取本地文件hello_spark.txt创建名为"words"的RDD»>words=sc.textFile("file:/usr/local/spark/mycode/hello_spark.txt")#输出RDD的元素»>words.fbreach(print)盼区设置为I,使用SaVeASTeXtFile()方法将RDD保存为文本文件»>words.repartition(1).saveAsTextFile("filerusrlocalsparkmycodeoutput.txt")SParkmycodeoutput.txt»>words,foreach(print)HelloSparkIloveSparkpart-00000-SUCCESS图2-38输出RDD(words)的元素图2-39"ouipui.ixt"目录【高手点拨】在PySpark交互式执行环境中使用换行时,会出现"”符号,表示语句尚未完成。输入代码时,不需要输入""符号,因此本书代码示例中不显示""符号。【例2-20JSON文件的读取与存储。在“usrlocalsparkmycode”目录下,创建一个“example.json”文件,生成的文件内容如图2-40所示。(hadoop(3)bogon$echo'("name":"Alice","age":25,name":"Bob","age":30"name":"Charlie","age":35,>usrlocalsparkmycodeexample.json!"name":"Alice",age":25'name":"Bob","age":30)<"name,:"Charlie","age":35图2-40"example.json”文件内容(详见教材)【小提示】在SparkRDD中,JSON文件作为文本文件读取,因此需要手动解析JSON格式的数据。该过程通常需要使用Pyihon内置的json库或第三方库来完成。【例2-21CSV文件的读取与存储。读取"id_card.csv”文件(内容见图2-36)中的数据创建RDD并执行map()操作分割RDD元素,输出RDD的元素,如图2-42所示。然后,执行map()操作将RDD元素转换为CSV格式的字符串。最后,使用SaVeASTeXtFiIeo方法将RDD保存为CSV文件,与文本文件类似,生成一个"outputcsv”目录,该目录中包含part-OOOOO”和SUCCESS”文件。|hadoopbogon-$pyspark»>id_card="file:/usr/local/spark/mycode/id_card.csv"僦取文件创建RDD并分割RDD元素»>id_card_rdd=sc.textFile(id_card).map(Iambdaline:line.split(,)»>id_card_rdd.foreach(print)#将RDD元素转换为CSV格式的字符串»>csv-rdd=id_card_rdd.map(lambdax:'.join(x)#将RDD保存为CSV文件»>csv-rdd.repartition(1).saveAsTextFile("fileusrlocalsparkmycodeoutput.csv")>»id_card_rdd.foreach(print)姓名'身份证号码,出生日期性别'地址'张三'11010119900101XXXX,-1990-01-0,'男','北京市朝阳区''赵六','41010119901201XXXX',T990T2-01','女','河南省郑州市中原区'钱七'32010119801102XXXX','1980-11-02'.'男江苏省南京市鼓楼区1图2-42输出RDD(id_card_rdd)的元素【高手点拨】将RDD保存为特定文件时,若RDD的分区数为多个,则生成的目录中用于存储RDD元素的文件也有多个。例如,在例2-21中,若使用repartition。方法将分区设置为2,则生成的"output.csv"目录中包含"part-00000""part-OOOOI”和SUCCESS”文件,其中"part-000(X)"和"part-O(X)OI”文件都用于存储RDD的元素。【学生】聆听、思考、理解、记录课堂实践【教师】介绍“存储归纳后的学生成绩数据”制作的大概流程,安排学生扫描微课二维码观看视频“存储归纳后的学生成绩数据“(详见教材),并要求学生进行相应操作打开PyCharm,在“rdd"目录下新建"oulpuLreSUlt.py”文件,然后在该文件中编写应用程序,将归纳后的学生成绩数据保存为CSV文件。实现步骤如下。步骤IA导入任务三任务实施中的average,py文件,以便后续调用文件中的对象或RDD等。步骤2k配置Spark应用程序。使用average.sc获取已经存在的SparkContext对象。步骤3A从average,py文件中获取名为resulted的RDD,即待保存的数据。后的学生成绩数据保存为CSV文件。实现步骤如下。(详见教材)【学生】自行扫码观看配套微课,按照要求进行操作,如遇问题可询问老师【教师】巡堂辅导,及时解决学生遇到的问题课堂小结【教师】简要总结本节课的要点Spark中常见的文件格式将RDD保存为特定文件【学生】总结回顾知识点作业布置【教师】布置课后作业(1)完成项目二项目实训中与本课相关的习题;(2)根据课堂知识,课后自己尝试将RDD存储为不同类型的文件,并存储归纳后的学生成绩数据。【学生】完成课后任务教学反思

    注意事项

    本文(《Spark大数据技术与应用案例教程》教案第7课存储归纳后的学生成绩数据.docx)为本站会员(p**)主动上传,第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知第壹文秘(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 1wenmi网站版权所有

    经营许可证编号:宁ICP备2022001189号-1

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!

    收起
    展开