浅谈大数据生态圈.pptx
《浅谈大数据生态圈.pptx》由会员分享,可在线阅读,更多相关《浅谈大数据生态圈.pptx(22页珍藏版)》请在第壹文秘上搜索。
1、浅谈大数据生态体系何为大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据的特点: 一是数据体量巨大。至少是PB级别以上量级的数据 二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。 三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。 四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。大数据,首先你要能存的下大数据 传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distribut
2、ed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。 比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。那什么是HDFS(Hadoop Distributed FileSystem)? 一个分布式存储系统 Google GFS的开源实现 数据存储采用master/slave架构模式,主要由Client、 NameNode、Secondary NameN
3、ode和DataNode组成HDFS:体系结构示意图 NameNode管理文件系统的命名空间和客户端对文件的访问操作。 DataNode 负责处理文件系统客户端的文件读写请求,并在 NameNode 的统一调度下进行数据块的创建、删除和复制工作。ClientNameNodeDataNodeblockblockblockblockblock.DataNodeblockblockblockblockblock.DataNodeblockblockblockblockblock.数据请求读写文件相关操作处理数据存的下数据之后,你就开始考虑怎么处理数据 虽然HDFS可以为你整体管理不同机器上的数据,但
4、是这些数据太大了。一台机器读取成TB或者PB量级的数据,一台机器慢慢跑也许需要好几天甚至好几周。 对于很多公司来说,单机处理是不可忍受的,比如微博要更新24小时热博,它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。 为了解决以上可能出现的问题,人们正式提出了MapReduce / Tez / Spark等等框架。MapReduce是第一代计算编程模型,Tez和Spark是第二代。MapReduce的设计,采用了极简化的计算模型,只有Map和Reduce两个计算过程,
5、通过这个模型,已经可以处理大数据领域很大一部分问题了。Hadoop 概述Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以 Hadoop 分布式文件 系统(HDFS,Hadoop Distributed File System)和 MapReduce(Google MapReduce 的开源实现)为核心的 Hadoop,为用户提供了系统底层细节透明的分布式基础架构。HDFS 的高容错性、高伸缩性等优点允许用户将 Hadoop 部署在低廉的硬件上, 形成分布式系统; MapReduce 分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以,用户可
6、以利用 Hadoop 轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理什么是MapReduce?找出一仓库黄豆中最大的n个黄豆如何解决?一仓库黄豆一桶黄豆一桶黄豆一桶黄豆一桶黄豆筛子筛子筛子筛子黄豆黄豆黄豆黄豆一桶黄豆筛子黄豆找N个人一起筛黄豆,最后把每个人筛出的K个黄豆放在一起 (总共N*K个黄豆),再交由一个人筛出N*K个黄豆里最大的K个 (分布式计算)MAPReduceMapReduce模型概述 一个 MapReduce 作业(job)通常会把输入的数据集切分为若干独立的数据块,由 map 任务(task)以完全并行的方式处理它
7、们。框架会对 map 的输出先进行排序,然后把结果输入给 reduce 任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。Map-Reduce 流程MapReduce 模型首先将用户的原始数据源进行分块,然后分别交给不同的 Map 任务区处理。Map 任务从输入中解析出 Key/Value 对集合,然后对这些集合执行用户自行定义的 Map 函数得到中间结果,并将该结果写入本地硬盘。Reduce 任务从硬盘上读取数据之后, 会根据 key 值进行排序,将具有相同 key 值的组织在一起。最后用户自定义的 Reduce 函数会作用于这些排好
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 浅谈 数据 生态