1、Commvault数据迁移和归档方案Commvault 数据迁移和归档建议方案2019年12月一、 需求分析一.1 用户环境目前,用户有2台PC文件服务器,来存储办公文件。这些服务器,共享SAN上的存储设备。一.2 面临的挑战目前,用户存储系统面临的挑战: 海量数据的增长 海量数据的管理和维护 海量数据的可靠性 降低存储的总成本二、 系统设计原则二.1 用户问题的分析目前用户面临的主要问题是海量数据的维护和管理,随着数据增长的速度。对数据管理经历了一个从量变到质变的过程。我们认为,海量数据的管理面临如下几个问题: 巨大的数据,造成需要大容量的硬盘,高昂的硬件成本 在多种网络和多台主机环境下对数
2、据的快速检索和共享 简单有效的管理和存储资源的有效整合 数据的高可靠性和高可用性 这些数据必须是一直在线备查如果要解决这些问题,必须引入数据生命周期管理的概念:简而言之,就是将不同时期,不同价值的数据按需要存放到不同价值的硬件设备上。从而降低成本,优化存储方式,简化存储的管理,减少数据保护的备份窗口。二.2 一些概念和新的技术说明当前,大部分厂商对ILM方案描述成三个部分: 第一部分:是一组存储设备,他们有不同的容量、吞吐率、连接方式和价格。 第二部分:是数据引擎,能把关键的数据在不同的存储层面中相互移动,如:磁盘到磁盘到磁带(d2d2t)或其他的存储介质(象MO),这种移动不管是设备到设备还
3、是在本地或异地都将不受限制。 第三部分:在数据生命周期的不同时刻,必须正确了解每个数据以及与其相关联的价值,这一部分是不能直接买来的。大多数厂商未提到第三部分,只是匆忙把第一部分卖给你,绝大部分厂商也没有全面描述第二部分,第二部分能让你从ILM的软件/硬件投资中获得回报,CommVault Simpana软件就是这第二部分。随着廉价的磁盘的出现,ILM方案使存储层有了另一个选择,用这些“廉价磁盘”创建了被通常称为“disk to disk”的新的二级存储概念,还能指定磁带做容灾备份和对要求长期保存的关键数据作异地归档,廉价磁盘已经帮助把ILM概念推向前沿,用磁盘作二级存储相对磁带有下列优势:
4、恢复数据更快; 磁盘通常比磁带快,特别考虑到装载和查找数据的时间; 磁盘是随机存取并能优化查找,磁带是顺序存取,能进行很慢的随机文件调用; 多个主机能同时存取磁盘,磁盘有多个读写头; 用磁盘可消除操作磁带中的人为错误。 新的存储集合 许多厂商提供的基于磁盘备份的设备,使IT管理有了另外的选择来面对业务数据的保护这个目标。真正能实现这一目标的关键问题是要能够发挥磁盘做备份介质的优势,另外还要涉及到磁带技术、快照、数据迁移和合法规档。也很有必要利用所有在SAN、LAN、DAS或NAS上开发的存储架构。包括iSCSI已经建立了低成本的IP存储网络概念,利用已有的Ethernet网,也是一个有趣的选择
5、。 这种过多的存储类别选择创造了一个新的概念被称为存储集合,存储集合可得出这样的结论:存储不再是单独分离的实体,而是一个连续的池,具有多种多样的存储模式和响应时间,数据存储在这个集合中并根据存取和响应的需求在集合中从这里移到那里。 下跌悖论 当前IT管理者面临这样一种情况:当存储的费用和带宽的费用下跌的同时,数据在增长、数据管理更复杂、管理费用迅速上升。这种矛盾的情况被称为:“下跌悖论”。如果不用象CommVault Simpana这样统一的软件平台,而仅仅一直用传统的那种另人失望的方案,IT工作人员不可能成功应付那种矛盾的状况。 IT的挑战不是技术自身的追赶,而更重要的是利用技术来更好的保护
6、数据存取数据,而最终把它转化成公司的竞争优势。利用存储集合的效率是管理整体费用下降、扩大存储ILM软件投资回报的关键。存储费用的下跌悖论 数据分级管理 信息必须按它固有的生命来组织,信息是动态的!信息被创造后就有了生命,当它存在时,具有或多或少的使用周期,利用数据的生命周期,对数据进行管理或保护,最重要的是把用于IT的钱、人力和时间的效率最大化。数据分级管理常被称为ILM(Information Lifecycle Management)信息生命周期管理,就是针对这些问题的,把数据按优先级来分类,这种分类可以利用以下公认的因素来决定: 不需要存取的数据还要存放多久(分、小时、天); 必须要保留
7、或存取的数据要保持多久(天、月、年、永远); 当要存取这些数据时的响应时间是多长(秒、分、小时、天); 是否还有当地政府和行业关于数据保存的规章制度。 数据备份和数据迁移,数据归档的区别 如上图所示:从技术而言,备份就是在主机上有1份数据,磁带或备份设备中也有相同的数据。数据迁移是在主机上保留了数据的快捷方式或标志文件,在备份设备中是主体数据。而数据归档的情况是,数据都在备份设备中,主机上没有任何痕迹。二.3 设计原则和说明 高性能原则: 可以利用D2D2T方式,提高备份和迁移的性能和效率。 可以采用日志文件方式,替代文件扫描方式,提高扫描效率,减少文件系统的扫描时间。 利用DAR方式,即直接
8、获取恢复功能提供了利用磁盘的最佳效率,直接跳到要恢复或者访问数据所在的地方,读取数据或进行恢复,而不必在磁盘上顺序读取所有的数据来找到要恢复的数据加快访问单个数据对象的性能。 采用统一的ILM策略管理,使得在数据备份的时候,不需要造成迁移数据的回迁。 降低成本: 采用迁移和归档的方式,降低硬件成本。 采用多级分层存储的方式,进一步优化存储资源。 提供单一的大型迁移存储池,更好的优化文件存放方式,合理的利用存储卷。 实现整个系统统一的ILM管理,减少数据回迁的次数,减少回迁占用的数据空间。 可管理性与易操作性原则 直观有效的GUI管理界面,能够方便的维护所有的客户和存储资源。 提供完善简单的策略
9、管理。 能够提供丰富的报表,监控和分析备份系统和相关的存储资源。 支持远程维护和管理,提供完善的用户管理机制。 采用统一的界面,实现对整个备份和存储系统的管理。三、 数据迁移和归档方案三.1 迁移和归档方案系统架构系统结构说明:方案结构说明:在该方案中,会有1台专用的服务器作为Commvault管理服务器,同时这台服务器也连入SAN,作为介质服务器。另外其他服务器是客户端,在每台客户端上安装CV的备份和迁移客户端,同时安装介质服务器实行LAN-FREE的备份。在存储设备上分为2种硬件设备,包括:FC的生产磁盘阵列,归档磁盘阵列,这些都联入SAN。下面将对上面的体系结构进行说明: 1. 硬件设备
10、: 备份管理服务器 - 负责管理整个备份和迁移系统。 FC-SWITCH和FC-HBA - 连接光纤存储设备,实现LAN-FREE备份 FC-ARRAY - 在线应用存储的设备(1级存储)。 归档磁盘阵列 - 在线应用存储的设备(2级存储)。 2. 在各个计算机上安装下列主要软件模块: Commvault管理服务器模块:管理备份和迁移系统的工作、配置。管理所有的自动策略(备份,恢复,迁移等)。 SAN Media 服务器模块:管理所有的介质。实现LAN-FREE备份的方式。管理所有的元数据索引。 备份和迁移客户代理:负责将生产主机上的数据传送到介质服务器上。负责安装规则迁移数据到次级存储设备上
11、。数据流程说明:逻辑结构说明: 存储设备分为3个层次: FC-ARRAY作为主要存储,1级存储设备: SATA-ARRAY作为2级存储,分为2个层次:1. SATA-ARRAY作为SAN迁移的2级存储,必须划分多个LUN,对应FC-ARRAY的每个LUN和相应主机。2. SATA-ARRAY作为LAN迁移的2级存储,采用1个LUN,由CV管理服务器统一管理,作为主存储的统一池。如何CommServe接入在SAN中,该存储可以和SATA-ARRAY为同一台存储。数据流程说明:1. SAN上的数据迁移: 通过Commvault的Archiver客户端,将FC-ARRAY上符合要求的文件生成扫描文件
12、列表。 利用扫描文件列表,将相应的文件移动到SATA-ARRAY上,并且在FC-ARRAY上创建指向SATA-ARRAY上对应文件的快捷标志。 如果用户需要访问该文件数据,通过快捷标志,CV的Archiver客户端会将该文件回迁到主硬盘上,提供用户的访问。2. LAN上实行的数据迁移: 通过Commvault的Archiver客户端,将SATA-ARRAY上符合要求的文件生成扫描文件列表。 利用Commvault的Archiver客户端,将SATA-ARRAY上所有符合要求的数据通过网络迁移到CV管理服务器管理的SATA-ARRAY中。所有的数据可以以压缩方式存放在1个卷中。 如果用户需要访问
13、该文件数据,通过快捷标志,CV的Archiver客户端会将该文件通过网络回迁到本地硬盘上,再提供用户的访问。三.2 Commvault 迁移和归档系统技术特点 高性能 Commvault采用日志文件访问方式,提高了扫描效率,减少了文件系统扫描时间。 Commvault备份不会造成数据回迁,从而提高备份的效率。 Commvault的数据回迁采用DAR的方式,能够充分利用磁盘的性能,直接定位文件数据。 Commvault采用的DataInterFace Pairs方式,能够让数据通过专用的网络,从而避免和业务网络的互相干扰。同时,也能实现多块网卡的负载均衡。 低成本 Commvault支持采用多层
14、数据存储的方式,进一步降低成本。 Commvault利用单一的存储池来作介质池,优化存储的效率,提高存储的利用率。 Commvault的备份和数据迁移可以公用管理服务器和介质服务器,降低成本。 高可靠 Commvault内含DR备份模式,能够将管理服务器的环境全部备份下来,避免管理服务器失败,而无法管理所有的数据。 Commvault支持将数据复制到不同的存储介质上,从而实现备份介质的冗余。 Commvault的元数据索引采用分布式存放到各个Media Server上,这样就没有单点故障,任何一台MediaServer的崩溃都不会造成备份恢复的失败。 Commvault在每个备份介质集中,都包
15、含了相应的元数据索引,能够快速的从备份介质上重建索引。 Commvault的报警和报表机制能保证任何错误都能发送给系统管理员。 支持GridStor,确保备份和迁移的成功率。 易管理 Commvault采用全中文界面,方便管理。 Commvault支持WEB和远程管理。 直观完善的界面,所有的操作在一个窗口中就能维护管理。 所有的操作都可以基于策略,方便了相同部门和环境下的数据管理和备份。 丰富的报表,能明确管理所有的存储资源和客户端。 完善的用户分组和权限机制,确保备份系统的方便管理。三.3 Commvault 迁移和归档的技术特点 存储策略存储策略是:所有数据备份的逻辑目标。Commvau
16、lt通过存储策略实现了ILM的管理,能够方便的实现不同数据在不同介质上的无缝迁移。 定义备份设备的集合 定义了并发备份流的最大数目(实现多流的并发备份) 定义了所有的数据拷贝(备份的设备) 定义和备份任务相关联的方式在存储策略中定义了不同类型的拷贝(Copy),每个拷贝都有自己的属性集。这些属性定义了管理备份数据的方式、位置和保留时间。总共有3种拷贝:Primary Copy 所有备份数据都将首先备份到该存储策略的Primary Copy中。Synchronous Copy(不是Primary 和 Selective 的Copy) 先前所有的备份数据(全和增量)通过辅助拷贝可以复制到 Sync
17、hronous Copy中,该拷贝种的数据和Primary Copy或Source Copy(源拷贝)一样。如果该拷贝选择了InLine Copy选项,该拷贝就是Primary Copy的镜像格式,可以是磁盘到磁盘,磁盘到磁带,磁带到磁带。Selective Copy 先前所有的Full Backup Data(全备份数据)通过辅助拷贝可以复制到 Selective Copy中,所以Selective Copy中都是Primary Copy或者Sorce Copy中的全备份数据。所有相同存储策略中的不同数据拷贝,通过辅助拷贝操作,将数据在同一个存储策略中无缝的进行迁移。每个拷贝主要有3种属性:
18、存储策略属性: 库:Galaxy 使用此术语代表 ConmmCell 中所有存储设备资源。例如,磁带库和磁盘。二者在 Galaxy 中都显示为库。 介质代理:库所对应的MediaAgent。 驱动器池:(仅限于可移动媒体库)驱动器池是若干驱动器的逻辑排列。 暂存池:(scratch)在存储资源中设定的空介质集合,是新媒体或循环使用媒体的存储库,可以在存储资源中设置。保留时间策略属性:基本保留规则: 无限:此术语指定在该Copy上的数据,只能手工删除。而不会自动清除(一直保留)。 保留时间:此术语指定了保留数据的最小天数。 保留循环:此术语指定了要保留的最小循环数。每个循环都是从 1个完全备份(
19、或等价的备份)开始,经过任意次数的增量备份或差异备份甚至不同天数,到下一个全备份结束。(Commvault会自动判别)。注意:备份的数据只有同时满足了保留时间和保留循环才会自动清除。举例:当定义14Days 2 循环的保留策略。如果备份策略是,20天1个循环,那么数据保留是40天。是3天1个循环,那么数据保留是14天。扩展保留规则:(只针对全备份)拷贝源(Source Copy)可以定义辅助拷贝的源,没有指定就从Primary Copy上复制。通过辅助拷贝实现数据的ILM方案:能够跨越不同的存储介质,按不同的要求,实现不同的数据保留期限。 合成全备份合成全备份功能是在介质服务器上把上一个全备份
20、和与之相关的增量备份合并起来生成一个新的“全”备份,合成全备份的优势包括在生成全备份时不要再去接触原来的数据,这就消除了对应用服务器CPU的影响,同时可以创建一个新的全备份来做数据保护、设置新的站点和系统测试等用途。为了扩大ILM的效率,合成全备份能从不同的介质子上完成。例如,前一周的全备份在磁带上,而每天的增量备份在磁盘上,这样做是为了快速备份和快速恢复。合成全备份能用这个在磁带上的全备份和在磁盘上的增量备份来合成一个新的全备份,用来做异地保存或灾难恢复。这种灵活性使IT技术人员能裁剪恢复计划,利用所有层次的存储提供最大的性能和效率。 Backup ResumeGalaxy的备份、恢复、辅助
21、拷贝、合成全备份等一切数据传输的操作都具有检测点,从而能保证操作中断后的重起。这一功能对WAN上备份、恢复十分重要,也确保了备份、恢复的成功率。与对手的产品相比,他们只要部分功能有该特性,因此他们的成功率比Galaxy低。 Image备份Image备份的原理,是将主机上文件系统的分区或磁盘,作为一个虚拟的物理文件。直接从该文件备份数据。这样作只是对一个大文件进行备份,所以不需要对文件系统进行多次的文件访问和扫描,提高了效率,性能提高了510倍。同时Commvault通过快照机制能够保证备份时,整个文件系统的一致性,确保和应用系统没有干扰。在IMAGE备份结束的同时,Commvault还会将整个
22、文件系统的Object归档索引。这样恢复的时候,甚至能按照文件或目录进行恢复。Image备份步骤:1. 应用暂停,将内存中的数据刷新,来保证数据映像的一致性。2. 使用快照,创建完整的虚拟卷。3. 通过Image备份方式,备份该虚拟卷。4. 备份完毕,删除快照的虚拟卷。5. 通过Arch Index Objcect,将文件系统目标归档建索引。Commvault支持Oracle系统的IMAGE备份。 分布式的索引为了解决单个目录数据库(Catalog)的瓶颈问题和伸缩性的屏障,CommVault研发了两部分索引配置算法,在中心目录数据库中仅仅存放的是配置信息、客户端信息、作业内容和各种各样已经创
23、建的数据类型,这保证了中心“元记录”数据库的大小是可以管理的。索引的第二部分包括了一个简单的数据库,被放在Galaxy体系结构中的介质代理服务器上(MediaAgent),每个介质代理负责数据的传输和存储设备/带库的管理。对每个备份任务,备份数据在低层都被进行了索引,数据包括每个文件或对象的备份介质上的精确位置。由于可以配置多个MeiaAgent ,这就意味着有多个索引引擎,这样大大提高了系统的处理能力,减轻了CommServe的压力。其他的产品都是把索引集中在一台服务器上,当系统扩大是,索引服务器就成为了瓶颈。如果索引服务器和备份端跨越在WAN网上,效率会受严重的影响。当这些索引有增长的趋势
24、时,Galaxy软件把索引放到靠近实际备份数据的地方,来确保伸缩性,这样减小了来回传输索引数据到中心数据库的网络瓶颈,每个索引是同时存在介质服务器上和备份介质上每个备份任务的末尾,这种内嵌的索引冗余,能让介质和服务器之间相互提供错误切换来保证完整的安全。为了增强浏览和恢复的性能,每个介质服务器都维持一个索引的拷贝在服务器的磁盘缓冲区上,索引保持的天数和磁盘使用的极限都能由管理员来设置,如果需要,可用上次最近使用的原则来删除缓冲取中的索引信息。在浏览和恢复时如果缓冲取中没有索引,会自动重新从存储介质装入索引。三.4 Commvault 迁移和归档的产品说明制定分级存储的界面:四、 Commvau
25、lt的迁移和归档方案信息必须按它固有的生命来组织,信息是动态的!信息被创造后就有了生命,当它存在时,具有或多或少的使用周期,利用数据的生命周期,对数据进行管理或保护,最重要的是把用于IT的钱、人力和时间的效率最大化。数据的迁移和归档,也称为ILM(Information Lifecycle Management)信息生命周期管理,就是针对这些问题的,把数据按优先级来分类,这种分类可以利用以下公认的因素来决定: 不需要存取的数据还要存放多久(分、小时、天); 必须要保留或存取的数据要保持多久(天、月、年、永远); 当要存取这些数据时的响应时间是多长(秒、分、小时、天); 是否还有当地政府和行业关
26、于数据保存的规章制度。 了解数据存储的模式是正确管理数据的关键,只有通过了解这种模式,才能作出正确的技术决定去面对数据保留、恢复和存取的需求。最大化IT技术投资回报的因素有两个:第一,了解数据的存取模式,确定数据在存储集合中的优化存储,例如:次秒极的响应时间很清楚的是主存储范畴,大多象各种类型的RAID,然而,在数据损耗和丢失的事件后,恢复这些继续要求保留的数据就变得很关键。第二,影响IT数据保护投资的因素是选择“怎样”或“那里”存储数据的拷贝。有一些物理的选择,就象磁带驱动器和自动带库、光驱动器和jukeboxes以及基于磁盘的系统,从大容量的驱动器到ATA 或SATA磁盘器具,所以这些都各
27、有利弊。接下来怎样选择数据拷贝,有一些传统的备份工具能精确的把数据备份到设备上,也有一些硬件和软件技术,能够做快照、时间点拷贝、远程拷贝、镜像和原始数据复制,每一种这些方法也都各有利弊。当前,IT管理者有许多独立的技术工具,每种工具都有它的竞争优势并能解决一些IT问题,问题是需要在不同的时间来投资和需要每个技术做专门的培训,应用和管理这些先进的技术阻碍了费用的减少,肯定影响到公司的成本底线。特别需要一种单一的ILM工具,让IT管理员来管理这些技术,并且是基于应用数据特征和数据保护需求的。CommVault用Simpana数据存储和管理组件工具解决了这个问题,为ILM提供了一个引擎。CommVa
28、ult Simpana软件平台采用了一种全新的体系结构,专为操作简单、无缝连接和可伸缩性的存储方案而设计,以应对21世纪数据存储和管理需求。通过对传统数据管理中分离功能的紧密整合,利用完整的存储栈,从应用到设备,进行完整的、透明的管理,以自动操作的方式提供应用数据的存取和可用性。数据的索引、管理和传送都是建立CommVault经久考验的公共技术引擎CTE上的(CommVault Common Technology Engine),Simpana平台是统一进行数据保护、高可用性、迁移、归档、存储资源管理/SAN管理的基础,能用单一的、自动的平台来管理全局的数据、目录和索引。CTE是个底层的软件,
29、奠定了CommVault所有产品能执行元策略(Meta-Policy)的独特能力,通过CTE能把操作命令的特点转化成可控制的软件级或模块级的策略。Simpana平台包含了一系列可配置的软件模块,用来组织和实施真正的数据集中策略,来管理企业的信息存取,Simpana软件模块包括: 数据备份和恢复(Backup & Recovery); 迁移和归档(Archiver); 应用的高可用性/远程容灾(Quick Recovery); 存储资源管理(Storage Resource Management); SAN、网络和介质管理(SAN Meida Agent); 集中统一管理以上所有模块。 在Com
30、mVault Simpana问世之前,没有一个单一的统一软件能做所有这些事情。当今,用户被迫成了集成商,他们买来各种最好的单一解决方案来处理每个问题,不幸的是这些单个的产品彼此之间没有联系,在大多数情况下他们也不能共享存储。这直接导致了用户对ILM的失望,更重要的是失去了实施ILM承诺的经济上获利的机会。为了实现解决这个问题的最终目标,CommVault历经5年的努力,已经成功的开发出了Simpana平台,来帮助用户解决这些问题。Simpana软件模块对应ILM信息生命周期管理规律 内含各种独立功能的智能软件模块为数据移动操作提供了巨大的灵活性,这些移动操作有:备份和恢复、数据迁移、归档和数据
31、可用性。数据管理功能,如存储资源管理,能适合单独的部门或整个企业。 Simpana包括了下面软件模块: Backup & Recovery:完善的数据保护模块。 Archiver:数据迁移/分级存储/归档模块。Quick Recovery:快照管理和应用级的高可用,快速恢复模块。 Storage Resource Manager:存储管理模块包括进行存储资源管理(SRM)。 CommNet:能用单一的界面对本地和异地的多个CommCell进行管理,并提供策略管理、分析和跟踪二级存储、并提供统一的监控和报表等功能。 每个Simpana组件是一个单独的方案,都必须要用到CommVault CTE。这些模块也集成在一起共享CTE,提供单一集成的控制台,并且能创建集中的策略利用每个组件来完成数据管理的作业。用Simpana,IT现在能创建基于数据特性和优先级的智能策略。Simpan
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1