《大数据和硬件.ppt》由会员分享,可在线阅读,更多相关《大数据和硬件.ppt(18页珍藏版)》请在第壹文秘上搜索。
1、1大数据大数据&硬件技术硬件技术2大数据和硬件大数据和硬件 基于大容量、高密度的基于大容量、高密度的SATA硬盘硬盘 通过通过hadoop等开源软件构建分布式文件系统等开源软件构建分布式文件系统 提供提供POSIX化的化的API接口构建大数据处理平台接口构建大数据处理平台 将计算能力和存储能力结合在一起的存储服务器将计算能力和存储能力结合在一起的存储服务器3 大数据处理的数据库平台大数据处理的数据库平台 特别是分析挖掘类应用已经逐步走向列型数据库,特别是分析挖掘类应用已经逐步走向列型数据库,而不再是传统关系性数据库的行型数据库。而不再是传统关系性数据库的行型数据库。 比如比如Sybase IQ
2、就是一种高性能列数据库,适合就是一种高性能列数据库,适合OLAP(联机分析处理)应用,具有较强的扩展性。(联机分析处理)应用,具有较强的扩展性。 硬件架构上一般采用高性能磁阵加高密度服务器硬件架构上一般采用高性能磁阵加高密度服务器阵列方式组建。阵列方式组建。4大数据应用模型硬件方案大数据应用模型硬件方案 经过软硬件整合的大数据处理平台经过软硬件整合的大数据处理平台,诞生一体机的硬诞生一体机的硬件形态件形态。比如比如Oracle公司的公司的Exadata、IBM的的Netezza 另外一种一体机形式则采用了硬件定制化方式,也有另外一种一体机形式则采用了硬件定制化方式,也有较大的市场空间,就是较大
3、的市场空间,就是SAP公司的公司的HANA数据库。数据库。5现状及未来现状及未来大数据是一种以数据为中心的数据密集型技术,现大数据是一种以数据为中心的数据密集型技术,现有的以计算为中心的技术难以满足有的以计算为中心的技术难以满足其其需求。需求。目前对大数据处理的优化都是基于传统的内存目前对大数据处理的优化都是基于传统的内存-磁盘磁盘访问模式,数据处理的关键访问模式,数据处理的关键“数据数据I/O瓶颈瓶颈”一直存在。一直存在。未来随着硬件新器件和新材料的发展,如相变材料、未来随着硬件新器件和新材料的发展,如相变材料、阻性阻性RAM等逐步成熟商用,将使内存容量大、速度等逐步成熟商用,将使内存容量大
4、、速度快且不再挥发,基于内存计算的大数据处理技术将快且不再挥发,基于内存计算的大数据处理技术将蓬勃兴起。蓬勃兴起。6数据中心存储技术的演变之路数据中心存储技术的演变之路传统的直接连接存储传统的直接连接存储(DAS)比较简单,只运行比较简单,只运行内部需要的任务内部需要的任务后来慢慢变成了笨重、庞大、昂贵的存储附加后来慢慢变成了笨重、庞大、昂贵的存储附加网络网络/网络附加存储网络附加存储(SAN/ NAS)系统系统近些年来,由于诸多技术进步,近些年来,由于诸多技术进步,进入进入下一个阶下一个阶段:虚拟化存储段:虚拟化存储7重大的技术进步重大的技术进步Hadoop、Cassandra及其他分布式方
5、法,这及其他分布式方法,这些新技术可以简化管理拥有诸多节点的集群这些新技术可以简化管理拥有诸多节点的集群这一任务。一任务。比如说,需要大量处理器资源的复杂的数据分比如说,需要大量处理器资源的复杂的数据分析工作负载现在可以分布在多个节点上。析工作负载现在可以分布在多个节点上。此外,超融合系统也引入了新的分布式存储技此外,超融合系统也引入了新的分布式存储技术,用到了简单的卷和固态硬盘术,用到了简单的卷和固态硬盘(SSD)。8现代的应用程序架构现代的应用程序架构SSD:一块磁盘就能获得同样的工作负载性能一块磁盘就能获得同样的工作负载性能10Gb网络网络超融合和分布式存储超融合和分布式存储:消除了消除
6、了RAID控制器控制器。在超融合基础设施中,计算、存储和网络等子在超融合基础设施中,计算、存储和网络等子系统整合到同一个设备中。系统整合到同一个设备中。9现代的应用程序架构现代的应用程序架构通过将固态硬盘卷连接至服务器,我们就能做通过将固态硬盘卷连接至服务器,我们就能做到,数据中心的操作系统软件足够智能、足够到,数据中心的操作系统软件足够智能、足够快速,能够与该服务器在集群中的其他服务器快速,能够与该服务器在集群中的其他服务器共享数据和容量。共享数据和容量。可以依赖可以依赖10Gb网络来回传输数据块,而之前网络来回传输数据块,而之前数据块要发送到外部存储设备。数据块要发送到外部存储设备。10现
7、代的应用程序架构现代的应用程序架构 它们可以在几个节点之间同步传输这些信息,保它们可以在几个节点之间同步传输这些信息,保存几个副本,同时针对合适的区域实行重复数据存几个副本,同时针对合适的区域实行重复数据删除和压缩等操作。删除和压缩等操作。 存储快照和复制功能在服务器自身里面已被启用存储快照和复制功能在服务器自身里面已被启用,不需要第三方干预或专用网关服务器。,不需要第三方干预或专用网关服务器。11云计算云计算 在数据中心存储技术的发展过程中,客户和在数据中心存储技术的发展过程中,客户和ITIT管管理人员对云技术已变得非常熟悉。比如说,如果理人员对云技术已变得非常熟悉。比如说,如果你问他们云存
8、储具有什么样的价值,他们可能告你问他们云存储具有什么样的价值,他们可能告诉你,云以一种弹性、可扩展、按需提供的方式诉你,云以一种弹性、可扩展、按需提供的方式,提供了所需的存储空间和计算能力。你不会听,提供了所需的存储空间和计算能力。你不会听到他们提到后端磁盘厂商,因为它们在云环境下到他们提到后端磁盘厂商,因为它们在云环境下根本无关紧要。云计算相当于一种新语言,用户根本无关紧要。云计算相当于一种新语言,用户已准备接受这种新语言,欢迎云理念。已准备接受这种新语言,欢迎云理念。12云计算云计算 在公有云和私有云,用户们在寻找可以轻松管理资源在公有云和私有云,用户们在寻找可以轻松管理资源池的智能软件。
9、池的智能软件。 数据中心存储技术的演变之路始于只有一台服务器的数据中心存储技术的演变之路始于只有一台服务器的连接存储,如今进化到一切资源都合并到特定孤岛的连接存储,如今进化到一切资源都合并到特定孤岛的阶段。现在,我们看到以前的方法卷土重来,不过由阶段。现在,我们看到以前的方法卷土重来,不过由于种种技术进步,这回一切显得更自然、更高效。于种种技术进步,这回一切显得更自然、更高效。13什么是硬件虚拟化什么是硬件虚拟化 虚拟化:从简单入手虚拟化:从简单入手 硬件虚拟化:虚拟化技术的革命硬件虚拟化:虚拟化技术的革命 纯软件的虚拟化技术纯软件的虚拟化技术14虚拟化:从简单入手虚拟化:从简单入手 虚拟化是
10、一个广义的术语,是一个为了简化管理,优化虚拟化是一个广义的术语,是一个为了简化管理,优化资源的解决方案。如同现在空旷、通透的写字楼,整个资源的解决方案。如同现在空旷、通透的写字楼,整个楼层几乎看不到墙壁,用户可以用同样的成本构建出更楼层几乎看不到墙壁,用户可以用同样的成本构建出更加自主适用的办公空间,进而节省成本,发挥空间最大加自主适用的办公空间,进而节省成本,发挥空间最大利用率。这种把有限的固定的资源根据不同需求进行重利用率。这种把有限的固定的资源根据不同需求进行重新规划以达到最大利用率的思路,在新规划以达到最大利用率的思路,在ITIT领域就叫做虚拟领域就叫做虚拟化技术。化技术。15硬件虚拟
11、化:虚拟化技术的革命硬件虚拟化:虚拟化技术的革命 CPUCPU的虚拟化技术是一种硬件方案,支持虚拟技术的的虚拟化技术是一种硬件方案,支持虚拟技术的CPUCPU带有经特别优化过的指令集来控制虚拟过程,通过带有经特别优化过的指令集来控制虚拟过程,通过这些指令集,虚拟机可以很容易提高性能,相比纯软这些指令集,虚拟机可以很容易提高性能,相比纯软件的虚拟化技术会在很大程度上提高性能。件的虚拟化技术会在很大程度上提高性能。16纯软件的虚拟化技术纯软件的虚拟化技术 在纯软件虚拟化解决方案中,虚拟机中的操作系统其实在纯软件虚拟化解决方案中,虚拟机中的操作系统其实是真是操作系统下的一个应用程序,因此,虚拟操作系
12、是真是操作系统下的一个应用程序,因此,虚拟操作系统上的应用程序到实际操作系统就要比通常应用程序多统上的应用程序到实际操作系统就要比通常应用程序多经过一个通信层。经过一个通信层。17芯片辅助虚拟化:芯片辅助虚拟化:AMD PK 英特尔英特尔 在过去的近在过去的近2020年间,年间,X86X86处理器的核心指令集没处理器的核心指令集没有什么变化,但有什么变化,但AMDAMD和和IntelIntel却在处理器中加入了许多却在处理器中加入了许多创新功能,如创新功能,如6464位内存扩展技术、图像处理指令、浮位内存扩展技术、图像处理指令、浮点运算指令以及多核心技术等等。点运算指令以及多核心技术等等。20
13、092009年,年,AMDAMD和和IntelIntel又在又在CPUCPU中加入了芯片辅助虚拟化技术,这一创中加入了芯片辅助虚拟化技术,这一创新将虚拟化从梦想推向现实。但从架构上来说,传统新将虚拟化从梦想推向现实。但从架构上来说,传统的的X86X86平台并不是为支持多操作系统并行而设计的。平台并不是为支持多操作系统并行而设计的。因此,因此,AMDAMD和和IntelIntel需要重新设计需要重新设计CPUCPU,增加虚拟化特,增加虚拟化特性,以解决上述问题。性,以解决上述问题。18虚拟化技术与多任务以及超线程技术虚拟化技术与多任务以及超线程技术是完全不同的是完全不同的 多任务多任务是指在一个操作系统中多个程序同时一起运行是指在一个操作系统中多个程序同时一起运行,而在,而在虚拟化技术虚拟化技术中,则可以同时运行多个操作系统中,则可以同时运行多个操作系统,而且每一个操作系统中都有多个程序运行,每一个,而且每一个操作系统中都有多个程序运行,每一个操作系统都运行在一个虚拟的操作系统都运行在一个虚拟的CPUCPU或者是虚拟主机上;或者是虚拟主机上;而而超线程技术超线程技术只是单只是单CPUCPU模拟双模拟双CPUCPU来平衡程序运行性来平衡程序运行性能,这两个模拟出来的能,这两个模拟出来的CPUCPU是不能分离的,只能协同工是不能分离的,只能协同工作。作。