云计算之分布式存储.pptx
《云计算之分布式存储.pptx》由会员分享,可在线阅读,更多相关《云计算之分布式存储.pptx(51页珍藏版)》请在第壹文秘上搜索。
1、+5.1 分布式存储的基础+5.2 文件存储+5.3 从单机存储系统到分布式存储系统+5.4 实践:分布式存储系统CephMachine LearningDomain expertiseMathematicsData engineering5.1.1 基本概念5.1.2 分布式存储分类5.1.3 分布式存储的发展历史+分布式存储系统的定义:分布式存储系统是将为数众多的普通计算机或服务器通过网络进行连接,同时对外提供一个整体的存储服务。+分布式存储系统包括以下几个特性:高性能可扩展低成本易用性+分布式存储系统的技术挑战包括:数据和状态信息的持久化、数据的自动迁移、系统的自动容错、并发读写的数据的
2、一致性等方面。分布式存储面临的应用场景和数据需求都比较复杂,根据数据类型,可以将其分为非结构化数据、结构化数据、半结构化数据三类。正因为数据类型的多样性,不同的分布式存储系统适合处理不同类型的数据,因此可以将分布式存储系统分为四类:1.分布式文件系统2.分布式键值(Key-Value)系统3.分布式表系统4.分布式数据库分布式文件系统存储三种类型的数据:Blob对象、定长块以及大文件。图5.1 数据块与Blob对象、定长块、大文件之间的关系 分布式键值系统用于存储关系简单的半结构化数据,它提供基于主键的CRUD(Create/Read/ Update/Delete)功能,即根据主键创建、读取、
3、更新或者删除一条键值记录。典型的系统有Amazon Dynamo。 分布式键值系统是分布式表系统的一种简化,一般用作缓存,比如Memcache。 从数据结构的角度看,分布式键值系统支持将数据分布到集群中的多个存储节点。 一致性散列是分布式键值系统中常用的数据分布技术,由于在众多系统中被采用而变得非常有名。 分布式表系统主要用于存储半结构化数据。 与分布式键值系统相比,分布式表系统不仅仅支持简单的CRUD操作,而且支持扫描某个主键范围。 分布式表系统以表格为单位组织数据,每个表格包括很多行,通过主键标识一行,支持根据主键的CRUD功能以及范围查找功能。 典型的分布式表系统包括Google Big
4、table、Microsoft Azure Table Storage、Amazon DynamoDB等。分布式数据库是从传统的基于单机的关系型数据库扩展而来,用于存储大规模的结构化数据。分布式数据库采用二维表格组织数据,提供经典的SQL关系查询语言,支持嵌套子查询、多表关联等复杂操作,并提供数据库事务以及并发控制。关系数据库是目前为止最为成熟的存储技术,功能丰富,有完善的商业关系数据库软件的支持。随着大数据时代的到来,为了解决关系数据库面临的可扩展性、高并发以及性能方面的问题,各种各样的非关系数据库不断涌现,这类被称为NoSQL的系统,可以理解为“Not Only SQL”的含义。5.1.3
5、 分布式存储的发展历史120世纪80年代的代表:AFS、NFS、Coda(1) AFS:1983年CMU和IBM共同合作开发了Andrew文件系统(Andrew File System,AFS)(2) NFS:1985年,Sun公司基于UDP开发了网络共享文件系统(Network File System, NFS)(3) Coda:1987年,CMU在基于AFS的基础上开发了Coda文件系统5.1.3 分布式存储的发展历史220世纪90年代的代表:XFS、Tiger Shark、SFS5.1.3 分布式存储的发展历史XFS:加州大学伯克利分校(UC Berkeley)开发了XFS文件系统,克服
6、了以往分布式文件系统只适用于局域网而不适用于广域网和大数据存储的问题,提出了广域网进行缓存较少网络流量设计思想,采用层次命名结构,减少Cache一致性状态和无效写回Cache一致性协议,从而减少了网络负载,在当时获得了一定的成功。320世纪末的代表: (1) SAN(Storage Area Network)(2) NAS(Network Attached Storage)(3) GPFS (General Parallel File System)(4) GFS (Google File System)(5) HDFS (Hadoop Distributed File System)5.1.
7、3 分布式存储的发展历史通过将磁盘存储系统和服务器直接相连的方式提供一个易扩展、高可靠的存储环境,高可靠的光纤通道交换机和光纤通道网络协议保证各个设备间链接的可靠性和高效性。设备间的连接接口主要是采用FC或者SCSI。图5.3 SAN网络结构 通过基于TCP/IP的各种上层应用在各工作站和服务器之间进行文件访问,直接在工作站客户端和NAS文件共享设备之间建立连接,NAS隐藏了文件系统的底层实现,注重上层的文件服务实现,具有良好的扩展性图5.4 NAS存储网络结构 GPFS是IBM公司开发的共享文件系统,起源于IBM SP系统上使用的虚拟共享磁盘技术。 GPFS是一个并行的磁盘文件系统,它保证在
8、资源组内的所有节点可以并行访问整个文件系统。 GPFS允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上。它同时还提供了许多标准的UNIX文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。图5.5 GFS架构图图5.6 HDFS总体结构示意图421世纪的代表:Cassandra、HBase、MongoDB、DynamoDB(1) Cassandra:是一套开源分布式NoSQL数据库系统,最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。(2) HBase:列存储数据库,擅长以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 分布式 存储