长期归档数据格式调研汇总.docx-资源下载

长期归档数据格式调研汇总.docx

1、长期归档数据格式调研汇总归档格式研究工程协同研发过程涉及到多种工具，例如CAD软件、PDM系统，产品设计数据一般有CAD模型、CAM模型、2D图纸、文档规范、有限元分析模型和各种报告等组成。传统产品定义数据交换中间媒介是工程图纸，工程图纸也作为合法证据留存。专项装置产品的生命周期通常超过50年，工程图纸归档与长期保存对于专项装置产品来说十分关键。目前，许多企业正在将传统2D工程图纸替换到更加先进的3D标注模型。因此，研究如何长期保存3D条件下的产品定义数据十分必要和迫切。同时，软件不断过时导致计算机应用程序、备份格式延续性受到挑战。专业的工程设计软件通常依赖于计算机平台，随着计算机平台的不断发

2、展，专业工程设计软件的数据长期保存问题变得更加复杂。如何建立具备完整性、可持续性的数据仓库一直是近期研究热点。1. 基于LOTAR项目研究成果的归档数据格式研究LOTAR（Long Term Archiving and Retrieval）是国际上一个著名的与航空工业相关的归档项目，该项目的参与者包括重要的航空工业企业（空客、波音、达索航空、洛克希德马丁、BAE等）、监管机构（FAA、JAA等）和政府机构（NASA、ESA、NIST等），LOTAR项目的目标是归档3D CAD和PDM信息，并遵从监管、法律和业务上的需求。该项目基于2个不断改进的标准：长期归档系统框架OAIS，实际的产品定义数据

3、标准STEP（即ISO10303）。1.1. 传统数据保存技术传统数字数据的保存技术包括3个主策略：数据迁移、技术仿真和封装。数据迁移旨在定期迁移与计算机应用程序相关的数字化数据，一般是从旧版本软件迁移到新版本软件中。这类案例通常要求在短期内完成，导致的风险是相关数据在传输过程中的由于版本兼容性问题导致的数据损失。仿真旨在通过将现有软件环境转换到未来平台环境以克服数据迁移方式的缺点。与数据迁移不同，仿真仍以原始格式存储数据，通过仿真技术，重新生成数据的外观、使用体验以及软件环境，目前有VMWare、QEMU、Xen等虚拟仿真平台能够实现该技术，但是不成熟。封装旨在解决所依赖软件和应用系统

4、技术陈旧的问题。它将数字化归档信息和相关元数据封装到一个逻辑容器中，辅以完整的规格说明和描述归档格式所需要的信息。其缺点是在技术条件和用户需求不断变化的条件下，更新所有封装信息十分复杂。1.2. 基于LOTAR项目研究成果数据归档实施建议专项装置产品在开展3D标注模型归档问题研究中，建议借鉴LOTAR项目的先进经验，研究NAS/EN9300系列标准等相关成果，结合专项装置产品实际情况制定符合现状的3D标注模型归档系列标准。在此基础上开发归档系统并实施验证。具体实施过程如下：1) 基于STEP中性格式的系列标准研究及NAS/EN9300标准本地化。a) STEP中性格式产品模型数据交换标准STE

5、P是国际标准化组织(ISO)所属技术委员会TC184(工业自动化系统技术委员会)下的“产品模型数据外部表示”(ExternalRepresentationofProductModelData)分委员会SC4所制订的国际统一CAD数据交换标准。所谓产品模型数据是指为在覆盖产品整个生命周期中的应用而全面定义的产品所有数据元素，它包括为进行设计、分析、制造、测试、检验和产品支持而全面定义的零部件或构件所需的几何、拓扑、公差、关系、属性和性能等数据，另外，还可能包含一些和处理有关的数据。产品模型对于下达生产任务、直接质量控制、测试和进行产品支持功能可以提供全面的信息。 STEP为产品在它的生命周期内规

6、定了惟一的描述和计算机可处理的信息表达形式。这种形式独立于任何特定的计算机系统，并能保证在多种应用和不同系统中的一致性。这一标准还允许采用不同的实现技术，便于产品数据的存取、传输和归档。STEP标准是为CAD/CAM系统提供中性产品数据而开发的公共资源和应用模型，它涉及到了建筑、工程、结构、机械、电气、电子工程及船体结构等无所不包的所有产品领域。在产品数据共享方面，STEP标准提供四个层次的实现方法： ASCII码中性文件；访问内存结构数据的应用程序界面；共享数据库共享知识库。STEP标准在下述几个方面有着明显的优越性：一是经济效益显著；二是数据范围广、精度高，通过应用协议消除了产品数据

7、的二义性；三是易于集成，便于扩充；四是技术先进、层次清楚，分为通用资源(子标准40系列)、应用资源(子标准100系列)和应用协议(子标准200系列)三部分。如今，STEP标准已经成为国际公认的CAD数据文件交换全球统一标准，许多国家都依据STEP标准制订了相应的国家标准。我国STEP标准的制订工作由CSBTSTC159/SC4完成，STEP标准在我国的对应标准号为GB16656。STEP标准存在的问题是整个体系极其庞大，标准的制订过程进展缓慢，数据文件比IGES更大。目前商用CAD系统提供的STEP应用协议还只有AP203“配置控制设计”，内容包括产品的配置管理、曲面和线框模型、实体模型的小平

8、面边界表示和曲面边界表示等以及AP214“汽车机械设计过程的核心数据”两种。使用任何的主流三维设计软件Pro/E、UG、CATIA、Solidworks等等都可以直接打开。b) NAS/EN9300标准图 11 9300-1XX系列标准2) 基于以上标准的应用技术开发及应用实践，包括：a) 选用或开发合适的转换和验证工具；b) 选择某些典型零部件，开展归档试点验证，建立3D归档管理流程；c) 开展保障长期存储及原始凭证性的技术应用。2. HTLM5数据格式研究HTML5是HTML下一个主要的修订版本，现在仍处于发展阶段。目标是取代1999年所制定的HTML 4.01和XHTML 1.0标准，以

9、期能在互联网应用迅速发展的时候，使网络标准达到符合当代的网络需求。广义论及HTML5时，实际指的是包括HTML、CSS和JavaScript在内的一套技术组合。它希望能够减少浏览器对于需要插件的丰富性网络应用服务（plug-in-based rich internet application，RIA)，如Adobe Flash、Microsoft Silverlight，与Oracle JavaFX的需求，并且提供更多能有效增强网络应用的标准集。具体来说，HTML5添加了许多新的语法特征，其中包括, ,和元素，同时集成了SVG内容。这些元素是为了更容易的在网页中添加和处理多媒体和图片内容而添加

10、的。其它新的元素包括, , , 和,是为了丰富文档的数据内容。新的属性的添加也是为了同样的目的。同时也有一些属性和元素被卸载掉了。一些元素，像, 和被修改，重新定义或标准化了。同时APIs和DOM已经成为HTML5中的基础部分了。HTML5还定义了处理非法文档的具体细节，使得所有浏览器和客户端程序能够一致地处理语法错误。1. 2. 2.1. HTML5特性1) 语义特性（Class：Semantic）HTML5赋予网页更好的意义和结构。更加丰富的标签将随着对RDFa的，微数据与微格式等方面的支持，构建对程序、对用户都更有价值的数据驱动的Web。2) 本地存储特性（Class: OFFLINE

11、& STORAGE）基于HTML5开发的网页APP拥有更短的启动时间，更快的联网速度，这些全得益于HTML5 APP Cache，以及本地存储功能。Indexed DB（html5本地存储最重要的技术之一）和API说明文档。3) 设备兼容特性 (Class: DEVICE ACCESS)从Geolocation功能的API文档公开以来，HTML5为网页应用开发者们提供了更多功能上的优化选择，带来了更多体验功能的优势。HTML5提供了前所未有的数据与应用接入开放接口。使外部应用可以直接与浏览器内部的数据直接相连，例如视频影音可直接与microphones及摄像头相联。4) 连接特性（Class:

12、 CONNECTIVITY）更有效的连接工作效率，使得基于页面的实时聊天，更快速的网页游戏体验，更优化的在线交流得到了实现。HTML5拥有更有效的服务器推送技术，Server-Sent Event和WebSockets就是其中的两个特性，这两个特性能够帮助我们实现服务器将数据“推送”到客户端的功能。5) 网页多媒体特性(Class: MULTIMEDIA)支持网页端的Audio、Video等多媒体功能，与网站自带的APPS，摄像头，影音功能相得益彰。6) 三维、图形及特效特性（Class: 3D, Graphics & Effects）基于SVG、Canvas、WebGL及CSS3的3D功能

13、，用户会惊叹于在浏览器中，所呈现的惊人视觉效果。7) 性能与集成特性（Class: Performance & Integration）没有用户会永远等待你的LoadingHTML5会通过XMLHttpRequest2等技术，解决以前的跨域等问题，帮助您的Web应用和网站在多样化的环境中更快速的工作。8) CSS3特性(Class: CSS3)在不牺牲性能和语义结构的前提下，CSS3中提供了更多的风格和更强的效果。此外，较之以前的Web排版，Web的开放字体格式（WOFF）也提供了更高的灵活性和控制性。2.2. HTML5标准语义化格式一个不带CSS样式的HTML5布局HTML5文档的头部区

14、域HTML5文档的导航区域HTML5文档的主要内容区域 HTML5文档的主要内容区域的侧边导航或菜单区 HTML5文档的主要内容区域的内容区以下是一个section和article的嵌套，循环表现章节与内容之间的父子关系，包含关系。 HTML5文档的嵌套区域，可以对某个article区域进行头部和脚部的定义。这样做，可以有非常清晰和严谨的文档目录结构关系。 HTML5文档的脚部区域3. 基于分布式文件系统（HDFS）的数据格式研究Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS有着高容错性的特点，而且它提供高吞吐量来访问应用程序的数

15、据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据。Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过， Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高。下文介绍Hadoop目前已有的几种文件格式，分析其特点、开销及使用场景。3.1. Hadoop中的文件格式3.1.1. SequenceFileSequenceFile是Hadoop API 提供的一种二进制文件，它将数据以的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writ

16、able 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile，不过它的key为空，使用value 存放实际的值，这样是为了避免MR 在运行map 阶段的排序过程。如果你用Java API 编写SequenceFile，并让Hive 读取的话，请确保使用value字段存放数据，否则你需要自定义读取这种SequenceFile 的InputFormat class 和OutputFormat class。图 31 Sequencefile 文件结构3.1.2. RCFi

17、leRCFile是Hive推出的一种专门面向列的数据格式。它遵循“先按列划分，再垂直划分”的设计理念。当查询过程中，针对它并不关心的列时，它会在IO上跳过这些列。需要说明的是，RCFile在map阶段从远端拷贝仍然是拷贝整个数据块，并且拷贝到本地目录后RCFile并不是真正直接跳过不需要的列，并跳到需要读取的列，而是通过扫描每一个row group的头部定义来实现的，但是在整个HDFS Block 级别的头部并没有定义每个列从哪个row group起始到哪个row group结束。所以在读取所有列的情况下，RCFile的性能反而没有SequenceFile高。图 32 RCFile 文件结

18、构3.1.3. AvroAvro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑，若要读取大量数据时，Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的，所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。图 33 Avro MR 文件格式3.1.4. 文本格式除上面提到的3种二进制格式之外，文本格式的数据也是Hadoop中经常碰到的。如TextFile 、XML和JSON。文本格式除了会占用更多磁盘资源外，对

19、它的解析开销一般会比二进制格式高几十倍以上，尤其是XML 和JSON，它们的解析开销比Textfile 还要大，因此强烈不建议在生产系统中使用这些格式进行储存。如果需要输出这些格式，请在客户端做相应的转换操作。文本格式经常会用于日志收集，数据库导入，Hive默认配置也是使用文本格式，而且常常容易忘了压缩，所以请确保使用了正确的格式。另外文本格式的一个缺点是它不具备类型和模式，比如销售金额、利润这类数值数据或者日期时间类型的数据，如果使用文本格式保存，由于它们本身的字符串类型的长短不一，或者含有负数，导致MR没有办法排序，所以往往需要将它们预处理成含有模式的二进制格式，这又导致了不必要的预处

20、理步骤的开销和储存资源的浪费。3.1.5. 外部格式Hadoop实际上支持任意文件格式，只要能够实现对应的RecordWriter和RecordReader即可。其中数据库格式也是会经常储存在Hadoop中，比如Hbase，Mysql，Cassandra，MongoDB。这些格式一般是为了避免大量的数据移动和快速装载的需求而用的。他们的序列化和反序列化都是由这些数据库格式的客户端完成，并且文件的储存位置和数据布局(Data Layout)不由Hadoop控制，他们的文件切分也不是按HDFS的块大小（blocksize）进行切割。3.2. 文件存储大小比较与分析选取一个TPC-H标准测试来说明

21、不同的文件格式在存储上的开销。因为此数据是公开的，所以读者如果对此结果感兴趣，也可以对照后面的实验自行做一遍。Orders 表文本格式的原始大小为1.62G。我们将其装载进Hadoop 并使用Hive 将其转化成以上几种格式，在同一种LZO 压缩模式下测试形成的文件的大小。表 31不同格式文件大小对比Orders_text117326900451.61G非压缩TextFileOrders_tex2772681211736MLZO压缩TextFileOrders_seq119355135871.80G非压缩SequenceFileOrders_seq2822048201783MLZO压缩Seq

22、uenceFileOrders_rcfile116487463551.53G非压缩RCFileOrders_rcfile2686927221655MLZO压缩RCFileOrders_avro_table115683593341.46G非压缩AvroOrders_avro_table2652962989622MLZO压缩Avro从上述实验结果可以看到，SequenceFile无论在压缩和非压缩的情况下都比原始纯文本TextFile大，其中非压缩模式下大11%，压缩模式下大6.4%。这跟SequenceFile的文件格式的定义有关： SequenceFile在文件头中定义了其元数据，元数据的大

23、小会根据压缩模式的不同略有不同。一般情况下，压缩都是选取block 级别进行的，每一个block都包含key的长度和value的长度，另外每4K字节会有一个sync-marker的标记。对于TextFile文件格式来说不同列之间只需要用一个行间隔符来切分，所以TextFile文件格式比SequenceFile文件格式要小。但是TextFile 文件格式不定义列的长度，所以它必须逐个字符判断每个字符是不是分隔符和行结束符。因此TextFile 的反序列化开销会比其他二进制的文件格式高几十倍以上。RCFile文件格式同样也会保存每个列的每个字段的长度。但是它是连续储存在头部元数据块中，它储存实际数

24、据值也是连续的。另外RCFile 会每隔一定块大小重写一次头部的元数据块（称为row group，由hive.io.rcfile.record.buffer.size控制，其默认大小为4M），这种做法对于新出现的列是必须的，但是如果是重复的列则不需要。RCFile 本来应该会比SequenceFile 文件大，但是RCFile 在定义头部时对于字段长度使用了Run Length Encoding进行压缩，所以RCFile 比SequenceFile又小一些。Run length Encoding针对固定长度的数据格式有非常高的压缩效率，比如Integer、Double和Long等占固定长度的数

25、据类型。在此提一个特例Hive 0.8引入的TimeStamp 时间类型，如果其格式不包括毫秒，可表示为”YYYY-MM-DD HH:MM:SS”，那么就是固定长度占8个字节。如果带毫秒，则表示为”YYYY-MM-DD HH:MM:SS.fffffffff”，后面毫秒的部分则是可变的。Avro文件格式也按group进行划分。但是它会在头部定义整个数据的模式（Schema），而不像RCFile那样每隔一个row group就定义列的类型，并且重复多次。另外，Avro在使用部分类型的时候会使用更小的数据类型，比如Short或者Byte类型，所以Avro的数据块比RCFile 的文件格式块更小。3

26、.3. 序列化与反序列化开销分析我们可以使用Java的profile工具来查看Hadoop 运行时任务的CPU和内存开销。以下是在Hive 命令行中的设置：hiveset mapred.task.profile=true;hiveset mapred.task.profile.params =-agentlib:hprof=cpu=samples,heap=sites, depth=6,force=n,thread=y,verbose=n,file=%s当map task 运行结束后，它产生的日志会写在$logs/userlogs/job-文件夹下。当然，你也可以直接在JobTracker的Web界面的logs或jobtracker.jsp 页面找到日志。我们运行一个简单的SQL语句来观察RCFile 格式在序列化和反序列化上的开销：hive select O_CUSTKEY,O_ORDERSTATUS from orders_rc2 where O_ORDERSTATUS=P

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？