数据归档方案.docx
《数据归档方案.docx》由会员分享,可在线阅读,更多相关《数据归档方案.docx(5页珍藏版)》请在冰豆网上搜索。
数据归档方案
数据归档方案大纲
一、什么是数据归档
1、数据归档定义
数据存档(dataarchiving)是将不再经常使用的数据移到一个单独的存储设备来进行长期保存的过程。
数据存档由旧的数据组成,但它是以后参考所必需且很重要的数据,其数据必须遵从规则来保存。
数据存档具有索引和搜索功能,这样文件可以很容易地找到。
二、为什么要进行数据归档
1、数据归档的好处
IT部门通常愿意将归档作为应用相关加强的理由。
具体说来,其带来的好处包含如下的几个方面:
节约成本:
数据归档很大程度上都与降低成本的话题密不可分。
并且作为每GB存储所耗费的成本相关。
许多厂商会提供整体拥有成本这样的分析。
所有的诸如此类的分析都将产生一个正面的结果,其前提是同意有关数据输入及对该模型的假设。
缩短备份窗口:
即便是备份到磁盘上使用了数据压缩和重复数据删除技术,备份管理员往往会遇到备份窗口相关的压力,原因是数据增长实在是太快了,年增长率通常达到约50%甚至更多。
因此备份完全没有改动的数据是没有必要的。
归档可以从备份任务中剥离数十TB的数据甚至更多。
法规遵从:
正如前文提到的那样,政府要求以及法律规定是履行数据归档策略的重要因素之一。
即要满足这样的要求,同时又要降低成本并不是一件容易的事情。
知识保留:
在当今大数据时代,企业越来越意识到海量数据分析的价值。
意识到这点并非难事,但在如今的市场保持有竞争力的地位并非易事。
提升的性能:
通过减少需要管理的数据量,或者将非活跃数据从活跃数据中剥离出来,企业可能会看到系统性能的微弱提升。
2、数据归档的意义
高效存储管理的最佳实践核心之一就是归档。
这种技术能够释放出代价高昂的存储资源,改善性能,并有助于保护那些需要长期保存的数据。
存在的问题:
通常我们在某种程度上会默认将数据归档认为是某种形式的存储基础架构。
在很早之前也确实如此,即将陈旧的数据从昂贵的磁盘上移除。
通常这意味着将数据迁移到磁带并就此将其遗忘。
一般保存期限是7年,但恢复往往是问题所在,诸如磁带的损坏、应用程序的废弃以及数据格式的转变。
企业为响应各类法律相关的电子检索头疼不已,因为他们不得不检索、恢复并读取潜在的成百上千盘磁带来找寻其中的一小段数据,并且要在很短的时间内完成。
归档技术的双重角色——企业和法律的双重需要:
即便是在今天,海量数据驱使陈旧的数据迁移到更低成本的媒介,以获取直接的经济回报,然而归档技术正逐渐成为存储管理任务中的一项分支,以及驱动业务的一种应用。
作为业务应用,其主要使用场景仍然是出于规范因素的数据保存;但迁移后直接将其遗忘已经远远不够了。
以某种格式进行数据恢复成为必然,而且这种格式是无法预期的,取决于合规审核者或法庭的一时兴起。
况且,某些数据,比如健康卫生相关的信息,需要在产生后的20年中保存查找。
邮件、SharePoint以及其它文件系统数据几乎成为所有企业的问题领域,其过分消耗海量空间并且受限于法律规范。
由于各种新的需求,IT经理人在部署归档方案时需以合作的方式,和业务及法务部门进行协作。
IT人员很难预计到法律规范的实际要求,不过他们应当了解那些可以使归档部署有助于业务需求的技术。
我们将列举出一些归档技术以使存储经理人认识到市场上大量的可选方案以及他们可以获取到的功能。
当归档技术成为管理应用时:
随着归档的最终目的从存储管理转变为数据管理,归档方案有了大量数据管理应用的特性。
随之而来的是关键的使用者也发生了转变。
存储经理人不再是唯一的关键用户,归档应用还应当考虑CIO,合规主任和律师的感受。
用户的关注点也倾向于更严格的行业规范,尤其是在财务和医疗行业。
归档有从通用到专用的不同解决方案。
不过其中的绝大部分都包含分类、迁移、索引和数据发现特性。
许多还会包含加速长期数据恢复、数据销毁、数据重复删除及压缩、单一实例存储和完整性检查的功能。
而最终包含哪些特性通常由目标用户和使用场景决定。
由于早期的归档技术仅限于向离线备份磁带迁移,企业或许会将新的归档应用看成一块“新的绿地”。
在绝大多数情况下,传统磁带仍需要保存在库中,只是有不同的保留和过期策略。
存储经理人需要确保备份策略不会和归档策略产生冲突。
过早销毁数据可能会使企业陷于法规要求时无法满足合规规范的危险境地。
而另一方面,将数据多保留一些有助于电子发现工作,即便这并非强制性的要求。
不管怎样,其结果对成本的影响都会让企业在各自利弊之前权衡两难。
三、数据归档的标准和规范
1、现代归档的总体特征
最新技术的发展会对归档方式的效率产生巨大的积极影响,以下几点特征需要牢记:
低成本存储:
节约成本仍然是寻求主存储替代方案的主要动机。
数据耐用性:
归档数据必须得到很好的保护,对耐用性的需求包括站点灾难以及存储组件故障。
归档就是要保留数据,而不是转移数据或丢失数据。
方便存取数据:
归档数据必须能够轻松存取——如果不行,那又何必归档呢?
无线可扩展性:
当今的架构需要轻松扩展,从而节约成本。
非破坏性的技术迁移:
解决方案必须能够无中断地迁移到新的组件技术,从而提供长期利益,并从当前投资中实现成本节约。
2、归档存储的新技术特性
市面上出现了一些新的热门技术选项,实时归档策略时必须加以考虑:
擦除基于代码的对象存储:
磁盘归档食物链中有史以来最伟大的事就是纠删码技术的出现,它有效地创建了数据开销,以便在组件故障时保护数据,这类似于“RAID技术添加奇偶作为开销”的方式。
然而,纠删码与RAID不同,纠删码技术以数据分散的形式增加了开销,而RAID技术则在一组固定的硬件组件上运行。
纠删码的分散算法将单独文件或对象转化为许多数据元素,每个数据元素都携带少量冗余,这样用户只需要取回数据元素的一部分来检索完整对象。
当擦除基于代码的对象存储被部署时,无需复制,数据自然就能得到保护,以防止硬件组件故障。
此外,当对象存储分散在多个站点时(称为“地理分布”),数据会得到进一步保护,防止站点级灾难,同样也不要复制。
由于不需要数据复制,更不必说硬件是用来存储和保护数据的。
这就是为何从根本上来说,充分利用纠删码技术的数据存储能够大大降低硬件成本。
同时,由于只管理较少的数据,软件成本也有可能下降。
最后,由于纠删码可在组件层面或驱动器层面处理硬件故障,而不是像RAID方式那样只能在机柜或机箱层面处理故障,我们很容易就会发现,在纠删码环境中将组件升级到新技术并不需要破坏性的叉车升级方式。
LTFS和NAS磁带:
关于LTFS(线性磁带文件系统),已经有很多传言了。
该技术于2010年推出,并能够实现全线的磁带使用模式。
LTFS技术在磁带盒上提供了一个完整的自我描述文件系统,这使用户像是在自己的文件系统中将数据读取和写入到磁带上,用户可以逐字地将文件拖动到磁带上,甚至永远不用再担心“必须使用专属备份应用程序而在磁带上读写数据”的问题。
当今市面上有一些解决方案,能够让大型磁带库像NAS共享一样被访问,读取磁带上的数据会变得多么轻松?
越来越多的软件解决方案现在就支持LTFS格式,由于LTFS是作为SNIA组织的开放式标准而被推动的,LTFS磁带非常适合长期归档应用程序,这是因为开放式标准更有可能针对未来系统做好准备。
LTFS软件能够将磁带上数据的读取和可移植性提升至全新的水平。
数据和磁带完整性检查:
在磁带领域,数据耐用性的革命性特点就是数据完整性检查。
一些产品让用户能够制定策略,确定磁带盒旋转到驱动器里的频率是多少,以测试磁带和磁带上数据的完整性。
这就像旋转酒瓶进行长期保存一样。
然而,与旋转酒瓶不同,用户能够对可疑的磁带采取行动,防止数据丢失。
3、选择归档解决方案要素
必要项:
数据归档
数据迁移
数据索引
查找工具
最好具有项:
数据消除
重复删除
压缩
单一实例存储
完整性检查
硬件特性:
可扩展性
成本效益
可靠性
可变性(根据要求)
完整性检查
最后一点需要强调的是,归档软件需要有自动完成功能。
没人希望归档都是手工操作的。
一款设计良好的归档软件需要能很好的适应企业的归档策略。
自动化的归档进程往往能帮助我们自动执行好企业的归档策略并且保证不落下任何东西。
与此同时,软件也需要为归档进程创建详细的日志说明。
四、我们的归档方案
数据归档的好处
IT部门通常愿意将归档作为应用相关加强的理由。
具体说来,其带来的好处包含如下的几个方面:
节约成本:
数据归档很大程度上都与降低成本的话题密不可分。
并且作为每GB存储所耗费的成本相关。
许多厂商会提供整体拥有成本这样的分析。
所有的诸如此类的分析都将产生一个正面的结果,其前提是同意有关数据输入及对该模型的假设。
缩短备份窗口:
即便是备份到磁盘上使用了数据压缩和重复数据删除技术,备份管理员往往会遇到备份窗口相关的压力,原因是数据增长实在是太快了,年增长率通常达到约50%甚至更多。
因此备份完全没有改动的数据是没有必要的。
归档可以从备份任务中剥离数十TB的数据甚至更多。
法规遵从:
正如前文提到的那样,政府要求以及法律规定是履行数据归档策略的重要因素之一。
即要满足这样的要求,同时又要降低成本并不是一件容易的事情。
知识保留:
在当今大数据时代,企业越来越意识到海量数据分析的价值。
意识到这点并非难事,但在如今的市场保持有竞争力的地位并非易事。
提升的性能:
通过减少需要管理的数据量,或者将非活跃数据从活跃数据中剥离出来,企业可能会看到系统性能的微弱提升。
THANKS!
!
!
致力为企业和个人提供合同协议,策划案计划书,学习课件等等
打造全网一站式需求
欢迎您的下载,资料仅供参考