大数据与分布式计算.pptx
《大数据与分布式计算.pptx》由会员分享,可在线阅读,更多相关《大数据与分布式计算.pptx(64页珍藏版)》请在第壹文秘上搜索。
1、大数据与分布式计算 HDFSHadoop Distributed File System 1990年,一个普通的硬盘驱动器可存储1370 MB的数据并拥有4.4 MB/s的传输速度 ,所以,只需五分钟的时间就可以读取整个磁盘的数据。 20年过去了,1 TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100 MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。 从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。 如何解决?磁盘损坏数据丢失怎么办?如果需要存储计算1000T数据怎么办?常用RAID技术RAID类型访问速度访问速度数据可靠性数据可靠性磁盘利用率磁盘利用率R
2、AID0很快很低100%RAID1很慢很高50%RAID10中等很高50%RAID5较快较高(N-1)/NRAID6较快较(RAID5)高(N-2)/NHDFS系统架构什么是HDFS? Hadoop Distributed File System Hadoop Distributed File System (HDFS) is the primary storage system used by Hadoop applications. HDFS creates multiple replicas of data blocks and distributes them on compute n
3、odes throughout a cluster to enable reliable, extremely rapid computations.HDFS设计目标 HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上。 超大文件超大文件 流式数据访问流式数据访问 一次写入多次读取 商用硬件商用硬件不适合HDFS的场景 低延迟的数据访问低延迟的数据访问 大量小文件大量小文件 超过NameNode的处理能力 多用户任意写入修改文件多用户任意写入修改文件 HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服
4、务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。设计目标假设:节点失效是常态理想: 1. 任何一个节点失效,不影响HDFS服务2. HDFS可以自动完成副本的复制HDFS主要组件的功能 NameNodeDataNode 存储元数据 存储文件内容元数据保存在内存中文件内容保存在磁盘 保存文件,block ,datanode之间的映射关系维护了block id到datanode本地文件的映射关系文件 文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3) NameNode是主节点
5、,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等 DataNode在本地文件系统存储文件块数据,以及块数据的校验和 可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。分而治之(Divide and Conquer)分而治之(Divide and Conquer)分而治之(Divide and Conquer)MapReduceMapReduce:大规模数据处理 处理海量数据(1TB) 上百/上千CPU实现并行处理 简单地实现以上目的 移动计算比移动数据更划算移动计算比移动数据更划算
6、 分而治之(Divide and Conquer)MapReduce特性 自动实现分布式并行计算 容错 提供状态监控工具 模型抽象简洁,程序员易用MapReduce它由称为map和reduce的两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并。WordCountMapReduceMapReduce 物理上MapReduceHive SQL Sub-queries in from clause Equi-joins Inner Left, Right, full Outer Multi-table Insert Multi-group
7、-by Extensibility Pluggable Map-reduce scripts Pluggable User Defined Functions Pluggable User Defined Types Complex object types: List of Maps Pluggable Data Formats Apache Log Format Columnar Storage FormatHive QL JoinINSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user
8、 uON (pv.userid = u.userid);Hive QL Join in Map Reducekeyvalue111111222pageid useridtime11119:08:0121119:08:1312229:08:14useridagegender11125female22232malepage_viewuserkeyvalue111222Mapkeyvalue111111111keyvalue222222ShuffleSortReduce了解Hive的意义? Hive是一个很方便的工具,一般的业务人员就可以很快上手。 ? M/R任务的数量控制着语句的执行时间。 ? 如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分布式 计算