《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx
《《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx》由会员分享,可在线阅读,更多相关《《Spark大数据技术与应用案例教程》教案第18课使用分类算法处理鸢尾花数据.docx(5页珍藏版)》请在第壹文秘上搜索。
1、课题使用分类算法处理莺尾花数据课时2课时(90min)教学目标知识技能目标:(1)认识分类算法(2)理解朴素贝叶斯算法(3)理解决策树分类算法素质目标:(1)能熟练运用机器学习算法解决日常生活中的数据分析问题(2)培养自主学习意识,提升实践操作能力教学重难点教学重点:分类算法、朴素贝叶斯算法和决策树分类算法教学难点:使用SparkMLlib的分类算法处理数据教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家回顾上一节课所学知识,并简
2、单了解什么是分类算法。【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:什么是分类算法?【学生】思考、举用答传授新知【教师】通过学生的回答引入新知一、分类算法概述【教师】利用多媒体展示“分类算法的工作原理”图片,并讲解分类算法的相关知识分类算法通常用于将事物打上一个标签,分类结果为离散值。分类算法的工作原理是先确定一个分类函数或模型(类似于数据样本中的分界线),然后对输入的新数据进行预测,即根据分界线对新数据进行分类,如图5-17所示。图5-17分类算法的工作原理【小提示】图5-17中,实心的正方形和圆表示带有标签的训练数据;分界线表
3、示经过训练后获得的分类函数或模型;空心的正方形和圆表示输入的新数据。SparkMLIib提供了多种分类算法用于解决二分类、多分类和回归分析等问题。(1)解决二分类问题的分类算法包括逻辑回归模型、决策树分类算法、随机森林分类算法、朴素贝叶斯算法、支持向量机等。(2)解决多分类问题的分类算法包括逻辑回归模型、决策树分类算法、随机森林分类算法、朴素贝叶斯算法、一对多分类算法等。(3)解决回归问题的分类算法包括线性回归模型、决策树回归模型、随机森林回归模型等。接下来,以朴素贝叶斯算法和决策树分类算法为例,介绍SParkMiJib分类算法的使用方法。二、朴素贝叶斯算法【教师】讲解朴素贝叶斯算法的相关知识
4、朴素贝叶斯(navieBayes)算法简称NB算法,它是一种基于贝叶斯定理的分类算法,它的主要思想是在已知类别的情况下,通过计算某个属性出现的概率,来确定该属性对于这个类别的重要性,并将其应用于分类任务中。该算法的工作原理如下。(1)统计训练数据中不同类别的先验概率,即每个类别在训练数据中出现的频率。(2)对于要分类的新样本,计算其在每个类别下的后验概率,即给定特征下该样本属于某个类别的(3)选择最大后验概率对应的类别作为预测结果。NB算法的基本格式如下。NaiveBayes(featuresCol,IabeICoLpredictionCol,probabilityCol,FawPredict
5、ionCol,smoothing,mode)Type,thresholds,weightCol)其中,参数featuresCol茄獭入特征列的名称;参数IabelCol表示标签列的名称,默认值为label;参数predictionCol表示预测结果的列名,默认值为prediction;参数probabilityCol(可选)表示U的名称,默认值为probability;参数rawPrediclionCol(可选)表示存储原始预测结果列的名称;参数smoothing表示平滑参数,默认值为LO;参数modelType表示模型类型,可选值包括multinomial(多项式朴素贝叶斯)和bemoull
6、i(伯努利朴素贝叶斯),默认值为multinomial.【教师】通过例子,帮助学生掌握使用NB菖法对文本数据进行分类的方法【例5-8使用NB算法将Spark安装目录下的“datamllibSamPIe_libsvm_data.txt”文件数据分为0和1两大类。读取文本数据创建DataFrame,输出DataFrame中的数据如图5-18所示。然后,使用NB算法对文本数据进行分类,输出的预测结果及预测准确率如图5-19所示。hadoopbogon-$pysparkfrompyspark.ml.classificationimportNaiveBayesfrompyspark.ml.evaluat
7、ionimportMulticlassClassicationEvaluator僦取文本数据创建DataFrame data = sc.read.fonnat(libsvm).load(file:/usr/local/spark/data/mllib/sample_libsvm_data.txt)IlabeXlfaturslI .l(692,127,128,129.1I l.l(692,158.159,16.lI 1.81(692.124.125.126.1I l.I(692,152.153,154.II 1.el(692,151,152,153.II .l(692.129,13,131.lI
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Spark大数据技术与应用案例教程 Spark 数据 技术 应用 案例 教程 教案 18 使用 分类 算法 处理 鸢尾