存储培训一.docx
《存储培训一.docx》由会员分享,可在线阅读,更多相关《存储培训一.docx(17页珍藏版)》请在冰豆网上搜索。
存储培训一
什么是存储?
用于存储数据信息的设备和介质
等同于计算机系统中的外部存储介质
存储是一个系统
是计算机技术发展的结果
存储系统的出现,从本质上解决了数据集中存储、共享和管理以及分布备份,为整个系统的可靠、便捷应用提供了坚实的基础。
存储的特征
它是数据临时或长期驻留的物理媒介
它是保证数据完整安全存放的方式或行为
传统计算机存储系统的局限性:
硬盘成为整个系统的性能瓶颈
有限的硬盘槽位,难满足大容量需求
单个硬盘存放数据,数据可靠性难以满足
存储空间利用率低
本地存储,数据分散,难以共享
——可扩展性不够
——总线结构,而非网络结构
——可连接的设备受到限制增加容量时,需停机
常见的存储介质
硬盘:
适合做快速响应访问的场合
磁带:
适合做长期保存、快速读写的场合
光盘:
适合做长期保存、对写速度要求不高的场合
磁带机()是传统数据存储备份中最常见的一种存储设备。
磁带机一般指单驱动器产品,通常由磁带驱动器和磁带构成,是一种经济、可靠、容量大、速度快的备份设备。
这种产品采用高纠错能力编码技术和写后即读通道技术,可以大大提高数据备份的可靠性。
磁带库是基于磁带的备份系统,磁带库由多个驱动器、多个槽、机械手臂组成,并可由机械手臂自动实现磁带的拆卸和装填。
它能够提供同样的基本自动备份和数据恢复功能,但同时具有更先进的技术特点。
它可以多个驱动器并行工作,也可以几个驱动器指向不同的服务器来做备份,存储容量达到(1100万)级,可实现连续备份、自动搜索磁带等功能,并可在管理软件的支持下实现智能恢复、实时监控和统计,是集中式网络数据备份的主要设备。
磁带库不仅数据存储量大得多,而且在备份效率和人工占用方面拥有无可比拟的优势。
磁盘阵列()是由一个硬盘控制器来控制多个硬盘的相互连接,在逻辑上对其进行整合,减少错误,增加效率和可靠度的技术。
虚拟磁带库()通常为一种专用的计算工具(),它可以仿真物理磁带库的驱动器和(并且)在磁盘上存储备份映像。
允许使用现有的磁带备份软件,管理人员之所以对这些工具感兴趣是因为用于备份管理的经验与使用物理磁带机相同。
由三部分组件构成:
计算机硬件,应用软件(用于仿真磁带库和磁带驱动器)和一组基于技术的磁盘驱动器。
允许客户配置虚拟磁带驱动器、虚拟磁带盒和指定磁带盒容量。
与物理磁带库不同,物理磁带库需要购买并安装额外的磁带驱动器,但对来说通过改变软件配置即可增加虚拟磁带驱动器,而这不需要花费任何额外的硬件成本。
存储的组件(完整的存储系统)
存储硬件
外置存储系统:
硬盘柜、磁盘阵列、、磁带库
存储连接设备:
卡、卡、通道卡、交换机、卡
存储管理设备:
比如对硬盘框做管理用的控制框等
存储软件
存储软件:
设备管理软件、高可用性软件、备份软件、存储管理软件、数据管理软件
存储解决方案
网络存储几种常见类型
()直接连接存储
()网络连接存储
()存储区域网络
直接连接存储(,):
由于早期的网路十分简单,所以直接连接存储得到发展。
随着计算能力、内存、存储密度和网络带宽的进一步增长,越来越多的数据被存储在个人计算机和工作站中。
分布式的计算和存储的增长对存储技术提出了更高的要求。
由于使用,存储设备与主机的操作系统紧密相连,其典型的管理结构是基于的并行总线式结构。
存储共享是受限的,原因是存储是直接依附在服务器上的。
从另一方面看,系统也因此背上了沉重的负担,因为必须同时完成磁盘存取和应用运行的双重任务,所以不利于的指令周期的优化。
网络连接存储(,):
局域网在技术上得以广泛实施,在多个文件服务器之间实现了互联,为实现文件共享而建立一个统一的框架。
随着计算机的激增,大量的不兼容性导致数据的获取日趋复杂。
因此采用广泛使用的局域网加工作站族的方法就对文件共享,互操作性和节约成本有很大的意义。
包括一个特殊的文件服务器和存储设备。
服务器上采用优化的文件系统,并且安装有预配置的存储设备。
由于是连接在局域网上的,所以客户端可以通过系统,与存储设备交互数据。
另外,直接运行文件系统协议,诸如,等。
客户端系统可以通过磁盘映射和数据源建立虚拟连接。
存储区域网络(,):
一个存储网络是一个用在服务器和存储资源之间的,专用的、高性能的网络体系。
它为了实现大量原始数据的传输而进行了专门的优化。
因此,可以把看成是对协议在长距离应用上的扩展。
使用的典型协议组是和。
特别适合这项应用,原因在于一方面它可以传输大块数据,另一方面它能够实现远距离传输。
的市场主要集中在高端的,企业级的存储应用上。
这些应用对于性能,冗余度和数据的可获得性都有很高的要求。
存储设备(系统、磁带机和磁带库、光盘库)直接连接到服务器;
传统的、最常见的连接方式,容易理解、规划和实施;
没有独立操作系统,不能提供跨平台的文件共享,各平台下数据需分别存储;
各系统之间没有连接,数据只能分散管理;备份软件不能离开服务器支持;的前期投资比较少。
本身装有独立的,通过网络协议可以实现完全跨平台共享,支持、、等系统共享同一存储分区;可以实现集中数据管理;一般集成本地备份软件,可以实现无服务器备份功能;系统的前期投入相对较高。
内每个应用服务器通过网络共享协议(如:
、)使用同一个文件管理系统;关注应用、用户和文件以及它们共享的数据;磁盘会占用业务网络带宽。
高可用性,高性能的专用存储网络,用于完全的链接服务器和存储设备并且具备灵活性和可扩展性;对于数据库环境、数据备份和恢复存在巨大的优势;是一种非常安全的,快速传输、存储、保护、共享和恢复数据的方法。
是独立出一个数据存储网络,网络内部的数据传输率很快,但操作系统仍停留在服务器端,用户不直接访问网络;关注磁盘、磁带以及连接它们的可靠的基础架构。
就应用而言,可看做是一个以产品为导向的小型企业储存架构之解决方案,而则是以中大型企业为主的规划与建设其存储架构的解决方案。
传输类型
、
、、
数据类型
数据块
文件
数据块
典型应用
任何
文件服务器
数据库应用
优点
磁盘与服务器分离
便于统一管理
不占用应用服务器资源
广泛支持操作系统
扩展较容易
即插即用,安装简单方便
高扩展性
高可用性
数据集中,易管理
缺点
连接距离短
数据分散,共享困难
存储空间利用率不高
扩展性有限
不适合存储容量大的块级应用
数据备份及恢复占用网络带宽
相比成本较高
安装和升级比复杂
方式扩展性比较差,存储设备必须预留一定的空间以备扩容之需,一般情况下有超过50%的存储空间闲置,造成资源的严重浪费。
具备高性能、高灵活性、高扩展性和高安全性,对大文件的传输没有限制,且适合块级别的数据传输。
方式可按需提供存储容量,可以在线扩充以支持更多的用户、更多的存储设备和更多的并行数据通道。
在数据共享的实现上有着其独特的优势,但是它不适用于视频、测绘等大文件传输,而且不适用于块级别的数据传输。
使用主网络传输数据,所以性能上受到主网络环境的影响。
的优势和劣势决定了的应用范围。
共享要求很高,频繁交换小文件的文件级共享访问环境,一般都采用架构来实现。
多级存储管理方案基于三个重要的功能:
备份、归档和迁移。
备份是指存储设备上的数据定时或按一定策略拷贝到备份介质上,通常的备份介质是磁带。
被备份的数据仍然保留在存储设备上,备份主要的目的是为了防止存储设备上的数据被误删除或者意外丢失。
归档是指将重要的数据拷贝在某种介质上长期保存,通常的归档介质是光盘和磁带。
归档和备份最主要的区别就是被归档的数据在原存储设备上是不做保留的。
归档操作可以被理解成备份加上删除原文件。
迁移是指将存储设备上的数据拷贝到二级存储设备上,在存储设备上保留占位符并释放空间。
迁移和归档一样,都可以释放原存储设备上的空间。
归档和迁移的主要区别是,归档是将原文件彻底删除,如果再次需要使用该文件必须先手工将该文件恢复;而迁移则会在原存储设备上留下一个占位符,当该占位符被访问的时候,数据会自动从下一级存储设备回迁到原存储设备上,而无需进行人工干预。
存储性能指标
():
每秒输入输出次数,系统在单位时间内能处理的最大次数
带宽:
单位时间内通过的数据量
存储系统性能的两个主要衡量指标是数据吞吐量和输入/输出速率()。
数据吞吐量通常用表示,表明最大持续不变的数据速率。
通常最大数据速率可以通过读或写操作的顺序数据流检测,数据块的大小为64或更大。
输入/输出速率是系统每秒钟能够完成输入/输出()的最大值。
最大输入/输出速率通常也是通过读或写操作的顺序数据流进行测量,数据块的大小为单一扇区的大小或者是512字节。
华为赛门铁克的V1000系列产品的最大为100000,最大带宽为625,华为赛门铁克的S5500产品的最大为240000,最大带宽为800。
数据存储和数据访问
数据访问的需求
数据存储的需求
数据访问与数据存储的矛盾
应用系统中性能面临的问题
在线存储容量问题
在线存储可用性问题
存储模式
现代存储配置方式体现的是分布式计算形式下的客户机/服务器模式的特征。
客户机/服务器存储模式为服务器提供了数据存储的能力,也为网络客户端提供了数据存储的空间。
随着在线存储量的增大,服务器的性能也越来越强大,并配置了更多的、高速缓存和更高的网络带宽资源来处理来自用户的大量的网络访问请求。
而由于客户端用户需求的增长速度高于服务器能力的提高速度,因而服务器很快就会达到其性能的极限。
因为服务器的性能限制,最优化的存储配置几乎是不可能实现的。
除了处理来自客户端的访问请求以外,为了实现数据的查找,服务器上的信息共享也提出了大量的存储容量需求,因此需要在网络中设置多台服务器以满足不断增长的数据信息的存储需求。
由此导致了服务器的专门化演变。
网络服务器专门负责处理与客户机登录网络相关的各种工作,保存网络参数信息,并管理网络资源,而客户端资料以及共享的信息则保存在其各自的文件服务器上。
对在线存储空间的需求以及客户端的多重访问,要求网络中部署多台服务器以共同承担负载。
同时,数据库的规模也越来越大,这就要求在网络中部署数据库服务器。
数据库服务器的出现,为客户机/服务器存储模式起到了重要的推进作用,并促使其成为一种新的、扩展的存储解决方案。
的存储极限和变革
模式的存储极限:
性能提升和结构性限制
存储的变革:
服务器与存储设备的分离
数据流量所带来的挑战是促发存储技术变革的直接因素之一。
如今,数据存储以及数据访问所面临的问题也已经促使存储研究人员取得了技术上的突破,激发出创造性的解决方案来应对存储模式的局限性。
存储网络的出现改变了传统的存储方式,将存储“直接”与服务器相连变成与“网络”相连。
这种设计方式直接将存储设备挂接在网络上。
这样的技术革新将存储连接从服务器上分离出来,从而动态地改变了服务器的能力,为彻底解决应用系统中存在的系统性能扩展问题奠定基础。
同时,在这一变革的基础上,人们将能够构建扩展性极高的存储基础设施,用以处理大规模的数据访问任务,在服务器之间共享数据,并提高大规模在线存储容量的管理效率。
存储网络的存在意义
存储网络对传统模式的改进
在存储设备、服务器以及客户机之间建立了更多的直接访问路径使商业应用系统能够以更高的速率访问数据。
存储网络的两种形式——和
可以将存储设备连接在基于以太网的标准网络中
专门为存储建立一个基于光纤通道协议的独立网络
存储网络使得商业应用系统能够以更高的效率访问数据,换言之,存储网络使得应用系统能够更方便的共享数据,并将服务器从繁琐的操作中解放出来,专注于用户访问请求的应答,从而赋予服务器更为强大的数据连接能力。
存储网络已经分化为两种不同的模式,即所谓的网络连接存储(,)和存储区域网络(,)。
可以将存储设备连接在基于以太网()标准的现有网络中,并可以使用标准的网络协议。
而则专门为存储建立一个基于光纤通道(,)协议的独立网络。
存储网络对应用系统的益处
提升应用系统数据访问的可扩展性
整合应用系统数据
提供更高的带宽和集中配置提高数据访问速度
提高存储管理的效率以增强应用系统的可用性
由于不再需要对多份数据副本进行维护和同步,以往直接与服务器相连接的存储设备如今可以更为有效地为多台服务器提供支持。
避免了复制和同步过程,将有助于缩短数据维护所需的停机时间(因复制和同步地需求),从而提高了应用系统地可用性和可靠性。
同时,也消除了应用系统数据地多份数据副本所带来的状态和时间上地差异,数据的集成性也将得到增强。
主机系统的组成
应用系统:
、、
文件系统:
32、
操作系统:
家族、家族、家族
服务器处理器架构:
、、
服务器处理器、操作系统、文件系统和应用系统组成了与存储设备相连的主机系统。
、、、x86、
常见主机系统
按服务器的处理器架构(也就是服务器所采用的指令系统)划分,把服务器分为三种:
()复杂指令运算集
()精简指令运算集
()超长指令运算集
服务器是指在网络环境下运行相应的应用软件,为网络用户提供信息资源共享和各种服务的一种高性能计算机。
同时服务器也是网络世界中数据大量存储的地方,也就是存储设备通常服务的对象。
按服务器的处理器架构(也就是服务器所采用的指令系统)划分可以把服务器分为架构服务器、架构服务器和架构服务器三种。
从计算机诞生以来,人们一直沿用指令集(,复杂指令系统计算机)方式。
早期的桌面软件是按设计的,并一直沿续到现在,所以,微处理器()厂商一直在走的发展道路,包括、,还有其他一些现在已经更名的厂商,如(德州仪器)、以及(威盛)等。
在微处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个操作也是按顺序串行执行的。
顺序执行的优点是控制简单,但计算机各部分的利用率不高,执行速度慢。
架构的服务器主要以32架构(,英特尔架构)为主,而且多数为中低档服务器所采用。
(,精简指令集)的指令系统相对简单,它只要求硬件执行很有限且最常用的部分指令,大部分复杂的操作则使用成熟的编译技术,由简单指令合成。
目前在中高档服务器中普遍采用这一指令系统的,特别是高档服务器几乎全都采用指令系统的。
(,超长指令集架构)架构采用了先进的(清晰并行指令)设计,这种构架也叫做“64架构”。
每个时钟周期64可运行20条指令,而通常只能运行1-3条指令,能运行4条指令,可见要比和强大的多。
的最大优点是简化了处理器的结构,删除了处理器内部许多复杂的控制电路,这些电路通常是超标量芯片(和)协调并行工作时必须使用的,的结构简单,也能够使其芯片制造成本降低,价格低廉,能耗少,而且性能也要比超标量芯片高得多。
目前基于这种指令架构的微处理器主要有的64和的x86-64两种。
文件系统
文件系统是操作系统用于明确磁盘或分区上的文件的方法和数据结构,即在磁盘上组织文件的方法。
文件系统负责维护和管理文件与存储介质之间的关系。
文件系统的功能
文件系统的功能可以分为三个方面:
分配()、管理()和操作()
分配:
文件系统具有将设备组织成为功能性存储单元的能力。
文件系统负责对存储介质中的两个最重要的元素进行分配:
卷和文件。
“卷”代表的是物理设备及其相关属性;而“文件”代表的是数据的集合,操作系统或者是应用程序可以通过某种类型的命名方式对文件进行访问。
管理:
文件系统能够对保存在设备上的数据进行跟踪、保护和控制。
操作:
文件系统可以对逻辑数据序列进行查找定位,其所使用的查找手段取决于数据的可还原性以及系统的严密性。
关于“卷”和“文件”的分配,对于存储设备特别是磁盘上空间的分配,首先要对物理设备本身进行初始化或者是格式化。
这一过程会在系统中建立卷,每个卷对应于一个逻辑分区。
实际上,使用“卷”的目的,就是为了把划分磁盘空间的工作从物理磁盘的管理方式中解放出来,以方便的对磁盘空间(一个磁盘的部分或全部空间或者是多个磁盘组合而成的空间)进行统一管理。
一个卷可以对应于一个磁盘的某一个部分,也可以包含若干个物理磁盘。
卷初始化以后,就可以用来保存文件,也就是逻辑数据块的集合。
也即是文件是通过卷中数据容量的最小单位(簇或是块)来进行分配的。
应用系统数据库
按照数据结构来组织、存储和管理数据的仓库
数据库是存储在一起的相关数据的集合,这些数据可以为多种应用服务
数据的存储独立于使用它的程序
数据库是在文件系统的基础上发展起来的一种数据管理技术,弥补了文件系统在数据管理上的缺陷
数据库的分类
网状数据库数据库记录的各个字段之间提供链接。
其典型代表是
层次数据库字典和文件索引的快速访问能力。
有根节点的定向有序数。
关系数据库二元关系。
就是这类数据库产品的典型代表
备份技术产生的背景
只要发生数据传输、存储和交换就有可能产生数据故障
自然灾害、人为的信息攻击都在威胁着信息的安全
信息拥有者对数据存储和数据备份的需求
备份的定义
数据备份是将数据以某种方式加以保留,以便在系统遭受破坏或其他特定情况下重新加以利用的一个过程。
数据备份的核心是恢复,一个无法恢复的备份对于任何系统来说都是毫无意义的。
数据备份的意义不仅在于防范意外事件的破坏,而且还是历史数据保存归档的最佳方式。
数据备份的原则
稳定性
全面性
自动化
高性能
操作简单
容灾考虑
备份系统的组成
备份客户端:
需要备份数据的任何计算机都称为备份客户端。
通常是指应用程序、数据库或文件服务器。
备份客户端也用来表示能从在线存储上读取数据并将数据传送到备份服务器的软件组件。
备份服务器:
将数据复制到备份介质并保存历史备份信息的计算机系统称为备份服务器。
备份服务器通常分成两类:
主备份服务器:
用于安排备份和恢复工作,并维护数据的存放介质
介质服务器:
按照主备份服务器的指令将数据复制到备份介质上。
备份存储单元与介质服务器相连。
备份存储单元:
数据磁带、磁盘或光盘,通常由介质服务器控制和管理。
备份管理软件:
好的备份硬件是完成备份任务的基础,而备份软件则关系到是否能够将备份硬件的优良特性完全发挥出来。
数据备份的类型
全备份:
备份系统中的所有数据
优点:
恢复事件最短,最可靠,操作最方便
缺点:
备份的数量大,备份所需事件长
增量备份:
每备份上一次备份以后更新的所有数据
优点:
每次备份的数据少,占用空间少,备份事件短
缺点:
恢复时需要全备份及多份增量备份
差量备份:
备份上一次全备份以后更新的所有数据
优点:
数据恢复时间短
缺点:
备份时间长,恢复时需要全备份及差量备份
按需备份:
根据临时需要有选择地进行备份
数据备份的方式
D2T():
数据从磁盘阵列备份到磁带的方式
D2D():
数据从磁盘阵列备份到磁盘阵列的方式
D2D2T():
数据从磁盘阵列备份到磁盘库到磁带的方式
灾难
自然灾难、社会灾难、系统灾难、人为灾难
容灾与备份
容灾就是尽量减少或避免因灾难的发生而造成的损失
备份时容灾的基础
将全部或部分数据集合从应用主机的硬盘或阵列复制到其他的存储介质的过程
容灾不是简单的备份
真正的数据容灾就是要避免传统冷备份的先天不足,它能在灾难发生时,全面、及时地恢复整个系统。
容灾不仅仅是技术
由于容灾所承担的是用户最关键的核心业务,其重要性毋庸置疑,因此也决定了容灾是一个工程,而不仅仅是技术
容灾指标
()恢复时间目标
当灾难发生后,生成系统再次恢复工作所需的时间。
它是灾难发生后到重新恢复系统运作所花费时间的指标。
()恢复点目标
当灾难发生后,容灾系统能将数据恢复到灾难发生前的哪一个时间点的数据。
它是系统在灾难发生后将损失多少数据的指标。
容灾级别
1层-本地保存
1即没有任何异地备份或应急计划。
数据仅在本地进行备份恢复,没有数据送往异地。
事实上这一层并不具备真正灾难恢复的能力。
2层-异地保存
2的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。
指将本地备份的数据用交通工具送到远方。
这种方案相对来说成本较低,但难于管理。
3层-网络传输
3相当于1再加上热备份中心能力的进一步的灾难恢复。
热备份中心拥有足够的硬件和网络设备去支持关键应用。
相比于1,明显降低了灾难恢复时间。
4层-自动备份
4是在2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。
由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。
5层-采用中间件
5指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。
在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。
6层–数据级容灾
6则提供了更好的数据完整性和一致性。
也就是说,5需要两中心与中心的数据都被同时更新。
在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。
7层-应用级容灾
7可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。