大数据技术基础及应用教程(Linux+Hadoop+Spark) 习题答案.docx
《大数据技术基础及应用教程(Linux+Hadoop+Spark) 习题答案.docx》由会员分享,可在线阅读,更多相关《大数据技术基础及应用教程(Linux+Hadoop+Spark) 习题答案.docx(11页珍藏版)》请在第壹文秘上搜索。
1、大数据技术基础及应用教程(LinUX+Hadoop+Spark)习题答案第1章练习一、选择题1 .大数据的特点有哪些?(多选)(AB)A.处理速度快B.多样化C.价值密度高D.数据冗余度低2 .下面哪些是大数据的计算模式?(多选)(ABCD)A.流式计算B.批处理计算C.查询分析计算D.图计算3 .Linux支持多少位硬件?(多选)(AC)A.64位B.128位C.32位D.256位4 .Hadoop生态系统的主要组成不包括?(B)A-MapRcduceB-ZooKcepcrC.HDFS文件系统D.YARN二、判断题1. 大数据是指数据量很大的数据集。(X)2. Hadoop是在分布式服务器集
2、群上存储海量数据并运行分布式分析应用的一个开源的软件框架。(J)3. Hadoop只能运行在由一般商用机器构成的大型集群上。(X)4. Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。(J)三、简答题1 .简述大数据技术的特点。答:VOkIme(大体量):即可从数百TB到数十数百PB、甚至EB规模。Variety(多样性):即大数据包括各种格式和形态的数据。Vek)City(时效性):即很多大数据需要在一定的时间限度下得到及时处理。Veraeity(准确性):即处理的结果要保证一定的准确性。Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值
3、。2 .简要介绍几种Hadoop系统的组件及其作用。答:HDFS:HadooP分布式文件系统,具有处理超大数据、流式处理、可以运行在廉价商用服务器上等优点。HDFS在访问应用程序数据时,可以具有很高的吞吐率,因此对于超大数据集的应用程序而言,选择HDFS作为底层数据存储是较好的选择。HBase:相当于关系型数据库,数据放在文件中,而文件放在HDFS中。因此,HBase是基于HDFS的关系型数据库。MapRcduce:是一种编程模型,用于大规模数据集(大于ITB)的并行运算,它将复杂的、运行于大规模集群上的并行计算过程高度抽象到了两个函数一一MaP和Reduce,并且允许用户在不了解分布式系统底
4、层细节的情况下开发并行应用程序,并将其运行于廉价的计算机集群上,从而完成海量数据的处理。ZooKeeper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。第2章练习一、选择题1.下列哪项不包括在大数据的分析流程中?(八)A.数据校验B.数据集成C.数据规约D.数据挖掘3 .大数据分析的常用方法有哪些?(多选)(ABCD)A.K-meansB.线性回归C.分类分析D.数理统计4 .下列哪项不是数据可视化的工具?(D)A.SupersetB.MatplotlibC.PychartsD.seleni
5、um二、判断题1.大数据分析包括数据采集、预处理、存储、分析和可视化。(J)5 .selenium是大数据清洗过程中用到的主要工具。()3.常用的聚类分析法有决策树、神经网络、贝叶斯分类、SVMo(X)三、筒答IS1 .用自己的语言描述大数据分析的流程。答:大数据分析的一般流程,分为数据采集、数据预处理、数据存储、数据建模与分析、数据可视化这几个阶段。首先通过传感器数据、社交网络数据等获得各种类型的结构化、半结构化及非结构化的海量数据:对数据进行提取、转换、加载,最终挖掘数据的潜在价值;把采集到的数据都存储起来,建立相应的数据库,进行管理和调用;通过已有数据的统计分析技术和未知数据的挖掘技术,
6、从海量的数据中提取有用的知识;最终将大数据分析与预测结果以计算机图形或图像的方式展示给用户。2 .说出数据分析过程中各阶段所用到的几种工具。答:数据采集工具SeIeniUm和PhantomJS;数据清洗工具Kettle;数据存储工具MongoDB和MySQL;机器学习工具Scikit-Iearn;数据可视化工具MatPIoUib、PyEChaits、Superseto第3章练习一、选择题1 .观察系统动态进程的命令是(B)A.freeB.topCJastcommD.df2 .系统中某文件的组外权限是只读、属主权限是全部、组内权限是可读可写,那么该文件权限为(D)A.467B.674C.476D
7、.7643 .解压缩文件mydjango.tar.gz可以执行(八)A.tar-zxvfmydjango.tar.gzB. tar-xvzmydjango.tar.gzC. tar-czfmydjango.tar.gzD.tar-xvfmydjango.tar.gz4 .下列哪一项包含了主机名到IP地址映射关系的文件?(B)A.etchostnameB./etc/hostsC.etcresolv.confD./etc/networks5 .退出交互式shell,应该输入什么命令?(D)A.q!B.quitC.;D.exit二、判断题1 .Linux配置文件一般放在bin目录。(X)2 .改变文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据技术基础及应用教程Linux+Hadoop+Spark 习题答案 数据 技术 基础 应用 教程 Linux Hadoop Spark 习题 答案