5外文翻译1.docx

资源描述

5外文翻译1.docx

《5外文翻译1.docx》由会员分享，可在线阅读，更多相关《5外文翻译1.docx（13页珍藏版）》请在冰豆网上搜索。

5外文翻译1.docx

5外文翻译1

本科毕业设计外文翻译

（2010届）

题目：

面向对象数据库Xindice的应用系统

学生姓名韩文杰

指导教师王奔

专业班级软件工程2008（2+2）2班

所在学院计算机科学与技术学院

提交日期2010年3月

使用开源XML数据库Xindice构建鼻咽癌2D/MS库

--FengLi,MaoyuLi,ZhiqiangXiao,PengfeiZhang,JianlingLiandZhuchuChen

地址：

中国卫生部癌症蛋白组织学重点实验室中南大学湘雅医院中南大学癌症研究所

Email:

FengLi-fengl@;MaoyuLi-maoyuli@;ZhiqiangXiao-zqxiao2001@;PengfeiZhang-jimszhang0421@;JianlingLi-jianlingli2001@;ZhuchuChen*-tcbl@

1.摘要

1.1背景

许多蛋白质组学的倡议要求所有信息要用统一的标准来集成。

这些信息来自于收集的样品和展示给公众的实验结果的数据。

这些不同格式和结构的数据的集成和转换对我们来说是一个巨大的挑战。

XML技术因为它的简单性和灵活性在处理这类问题时给我们呈现出一个希望。

鼻咽癌（NPC）是最常见的癌症之一，在南部中国和东南亚，这标志着鼻咽癌发病的地理和种族差异。

尽管有一些癌症蛋白质组数据库，现在仍没有鼻咽癌蛋白质组数据库。

1.2结果

用人类蛋白质标记语言编辑器将原始实验数据原始实验数据捕获到一个XML文档，将XML文档导入原生XML数据库Xindice。

关于鼻咽癌蛋白质组的2D/MS库是由Apache,，PHP，Xindice创建的。

这个库提供了一种通过互联网访问数据库的方法。

在我们的网站上，同时两种方法（关键字查询，点击查询）来访问鼻咽癌蛋白质组学数据库的实体。

1.3结论

我们2D/MS存储库可以用于共享的鼻咽癌蛋白质组学原始数据，这些数据来自于凝胶型的蛋白质实验。

用于构建用户自己的蛋白质存储库的数据库和PHP源代码可以在http:

//www.xyproteomics.org/上访问到。

2.背景

人类和其他模型有机体基因组计划的完成提供了一系列的基础设施来允许我们对细胞发信号、规则、新陈代谢的动态过程有一个更好的了解。

尽管所有的细胞中都含有完整的基因组，但是在特定细胞中只有基因的一小部分被表达。

在不同的条件和同一器官的不同组织中，一个特定组的蛋白质被表达或翻译后修饰来执行细胞的特定功能。

术语蛋白质组是蛋白质和基因组和混合体，它指整个的蛋白质成份，连同所有在一个挑选的细胞中共有原子价修正蛋白质。

随着后基因组学的到来，功能性基因组学已经变成了生物研究的一个新焦点，当评定全功能性蛋白质时，蛋白质组已经成为一个非常有希望的领域。

为了了解不同蛋白质所扮演的角色和解剖蛋白质之间相互作用的网络，一个高渗透的方法学正在被应用在这个新出现的领域。

结果，通过高渗透的蛋白质组方法大量的实验数据产生。

这些高渗透的蛋白质组方法有大型双杂交系统，高全质量光谱技术，多维色谱仪。

同时，随着蛋白质组信息量的迅速增加，对有一个公共库蛋白质组库和在实验室之间交流原始蛋白质组的实验数据有着迫切需求。

原始实验数据通常是由不同的生成仪器，实验室和方法产生，因此仍难以直接交换原始蛋白质组数据。

最近，一个新的特殊的组织，名为PSI（蛋白质组学标准计划）成立于在美国华盛顿举办的人类蛋白质组组织会议上，定义数据表示社区标准会议蛋白质组学的数据比较方便，交流和核查。

由于在我们实验室产生的原始蛋白质组实验数据和在大多数蛋白质组学实验室使用的技术还是基于2D/MS系统，我们打算把精力集中在由2D/MS系统一般蛋白质组学格式产生的原始蛋白质组学数据的交换上。

目前，形成了一些与整个蛋白质组学标准相关的XML模型如PEDRo，HUP-ML和AGML。

在这些模型中，PEDRo,HUP-ML是两个用于处理蛋白质组学原始数据流行的模型。

PEDRo是由诺曼佩顿教授率领的一个小组开发，考虑到凝胶蛋白质组数据与其他的XML模式的许多方面，如mzXML，mzData和mzIdent，更具体地说应为质谱数据。

HUP-ML是另一个基于XML面向蛋白质组分析的格式，它是由Kamijoetal.在2002年的AOHUPOXML专题讨论会上提出的。

HUP-ML是建立在典型的2D/MS系统之上的，可以被大多数的实验室使用。

在这里，我们把HUP-MLeditor作为数据采集的软件，把HUP-ML数据模型作为鼻咽癌蛋白质组库。

鼻咽癌在中国南部和东南亚是最常见的癌症之一，这表明鼻咽癌的发病具有明显的地域和种族差异。

公共蛋白质组库是研究复杂的癌症机制基础设施。

虽然有许多癌症蛋白质组数据库，但就我们所知一直没有鼻咽癌蛋白质组数据库。

在本文中，我们用HUP-ML编辑器来收集原始鼻咽癌蛋白质组学数据，包括实验结果和实验条件。

然后，将这些XML文件导入Xindice数据库，PHP是用来把来自Web客户端的查询请求传递给数据库管理系统，并查询结果以HTML格式返回给客户端。

PHP源代码可以从我们的网站http:

//www.xyproteomics.org/上下载以构建用户自己的蛋白质组库。

3.结果

在鼻咽癌2D/MS库中鼻咽癌凝聚型蛋白质组实验数据的Xpath的查询结构如图3.1所示。

图3.1Xpath查询结果

这个2D/MS库的结构如图3.2所示。

图3.22D/MS库的结构

要检索一个标识点的精确信息，我们提供了两种选择来查询信息。

一种方式是通过文本输入来查询数据库，可以输入一个NCBI加入数字，蛋白质名称或别名，或者基因的名称。

另一种查询方法是点击2-DE凝胶图上的点击点。

这两种查询方法都是建立在Xpath查询之上。

这个Xpath查询结果是将返回一个XML文档。

为了显示一个可读的查询结果，在将结果输送给客户端浏览器之前XLST处理器的转换工作是必须的。

SablotronXSLT处理器转变结果的一个例子如图3.3所示。

图3.3Sablotron处理器转化结果

在右上方的框中，有返回结果的点用红色十字叉在二维凝胶图像中标出，同时查询点的蛋白质详细信息显示在右下角的框中。

另一种查询方法是直接点击二维凝胶图像中的一个点。

如果这个点在实验中已经被确定，详细的蛋白质信息将显示在右下角的框中。

这两种方法都允许用户进入NCBI数据库通过超链接访问蛋白质的相关功能的注释信息。

在我们的鼻咽癌蛋白质组学库中，肽质量指纹图中的每一个单一同位素峰的顶点都是用MascotDistiller策略提取的，被保持为mgf文件。

所有的mgf文件都被转化成文本文件并且被输入到HUP-ML文档中。

当用户点击确定点的MS-MAP图上的超链接时，数据库管理系统就会查询该点，从ms_peak_list标签中抽取单一同位素峰到PHP上，然后PHP会被转化成模仿的肽质量指纹图。

通过这种方法，模拟的肽质量指纹图能够被每一个人分享，不受大量的质谱制造商定义的文件格式的限制。

图3.4展示了一个确定的蛋白谷胱甘肽转移由单一同位素峰列表生成的欧米茄1-1的肽质量指纹图。

图3.4欧米茄1-1的肽质量指纹图

讨论

目前有两种用于存储蛋白质组学实验数据的数据库管理系统，它们是关系数据库管理系统（RDMS）和XML数据库系统。

当前最流行的2D/MS数据库采用SWISS-2DPAGE或者免费的数据库。

SWISS-2DPAGE数据库是建立在瑞士生物信息研究所的Make2ddb软件基础之上的。

Make2ddb后端的数据库系统是PostgreSQL数据库管理系统。

虽然SWISS-2DPAGE数据库已经建立，某些重要实验信息和原始数据仍不能集合到数据库中，如蛋白质分离和识别的条件，实验样品的详细说明，原始质谱图等。

如果研究人员使用其他免费的关系数据库，他必须用很大的努力来设计、优化信息数据库。

关系数据库的优点是因为它的特定的设计结构和关系模型，关系数据库能够很容易地用来存储、管理和查询结构化的信息。

然而用HUP-ML模型集成的蛋白质组数据的复杂数据结构使我们用关系数据库构建蛋白质组库变得困难了。

此外，如果我们用关系数据库作为后端数据库，将蛋白质组数据映射到表中，这样的数据库管理系统强迫我们将数据分割成许多小段以满足第三范式的要求。

当一个查询能够使数据库管理系统将许多片段整合成原始数据时，片段就能够导致效率问题。

XML技术是互联网语言的下一代技术。

它具有强大的数据交换能力。

XML技术特别适合展示生物数据和方法。

它是目前在许多领域的共同选择包括蛋白质组学领域。

因为XML具有高灵活性并且能够提供一个开发的框架来定义标准规范。

随着网络服务迅速增长，XML在数据交换和共享方面得到蓬勃发展，并且形成了两种基于XML的新数据库技术：

原生XML数据库管理系统和XML数据库管理系统。

使用原生XML数据库系统，没有必要将特定的蛋白质组模式映射到关系数据库中。

Xindice是一个由Apache开发的开源原生XML数据库。

它是一个促进基于WEB工具和标准的建设的软件基础。

相比其他开放源码的XML数据库，例如eXist和xmldb，我们认为Xindice具有更好的稳定性，更好的兼容性和技术支持。

因此，我们决定采用原生XML数据库Xindice来存储、管理、查询原始鼻咽癌蛋白质组实验数据的集合。

PEDRoDB是另一个新的用来存储、搜索、传播实验蛋白质组数据的数据库存储系统。

它用Xindice存储XML格式的原始蛋白质组数据。

PEDRoDB是一个以原始数据采集软件Pedro为基础的数据库系统。

Pedro已近被开发出来用于编码实验数据并且生成基于XML的PEML（蛋白质组学实验标记语言）文件。

PEML以Pedro模型为基础用于本地存储或者提交一个数据库。

不像基于Make2ddb，更多强调凝聚注释，2D/MS数据库，PEDRoDB数据库被设计用来提供更多的信息，允许详细地比较获取结果的方式。

然而，PEDRoDB不能用于下载，至少在我们的写作方面。

HUP-ML文档采用平面文件结构，在某种意义上它可以被视为一个数据库或关系数据库中的一个表。

XML文件可以直接投入相同的目录中，可以被文件管理系统处理。

但是，这种方法的功能还不够，因为它不能提供一个数据库的优点，如事件安全救助机制，并行控制和高效率的索引和查询。

因此，通过部署NXD的HUP-ML文件，整个系统能够更有效和安全。

Xindice是一个开源的原生XML数据库，具有XPath的查询效率，对XUpdate的支持，与现有的XML开发工具的紧密集成的特点。

然而，Xindice受到公共原生XML数据库的局限。

因为与关系数据库相比它的少量存在，并且没有太多NXD的支持技术和应用可用。

PEDRo和HUP-ML都代表了使用XML技术来交换原始蛋白质组数据的当前成果。

目前使用已经存在的成果如PEDRo和HUP-ML作为系统设计的起点而不是全新设计是一个不错的选择。

要选择原始蛋白质组软件，我们认为凝聚注释比详细的实验条件描述更有用。

因此，我们选用HUP-ML集成来自不同源的凝聚蛋白质组数据信息。

肽质量指纹图和并串联质谱是目前在鉴定蛋白质方面最常用的两种技术。

由于在不同实验室使用的质谱是由不同制造商制定的，由不同装置生成的肽质量指纹图和MS/MS图使用只能由质谱制造商的特定软件才能打开的不同文件格式，这大大增加了交换原始质谱数据的困难。

一个标准的峰值列表格式，例如mzData由PSI提供，需要从最初的质谱制造商提供的软件协议到第三方软件开发公司的许多协议并且会被下一个版本取代。

我们提取单一同位素峰列表，其中包括了从原始地图数据中提取的m/z数据，然后把它输入到鼻咽癌库中。

通过单一同位素峰列表，用户可以查看肽质量指纹图和比较用户自己的MS图。

尽管Xindice适合作为鼻咽癌库的后端服务器，为了提高数据库查询的性能，有些因素应该被考虑在内。

数据库索引是一个用来改进数据库查询性能的强大技术。

假设浏览器通常使用蛋白质名称和NCBI号来查询数据库。

在这里，我们采用元素protein_name、protein_data和accession属性来索引鼻咽癌集合，但是与没有数据库索引相比，它花费几乎相同的时间。

意外发现可能是Xindice的一个bug或者是我们实现上的一个问题。

数据文件的大小是另一个影响因素。

现在集成216个点的所有数据到Xindice中的文件大小是600KB。

与5MB的Xindice的文件限制相比，这可以被视为作为一个中等大小的文件。

由于Xindice的是专为管理许多中小型的文件而设计的，它不是把一切都融入到一个文件的好方法，即使当前的鼻咽癌文档的大小仍然是可以接受的。

集成所有的东西到一个大的文件中会增加文件的复杂性并且需要更多的时间来进行数据查询，尤其是在确定的点数量增加的情况下。

我们认为一种解决办法是提取每一个点的数据到一个单独的文件中，当数据量增大时把所有的文件输入到一个集合中。

这也是优化的重要一步，涉及构建我们的鼻咽癌库。

虽然数据库基准测试尚未进行，最好是进行优化和调整数据库之前进行数据库基准测试。

4.结论

利用我们的PHP源代码，通过万维网2D/MS实验数据能以一个很容易理解的格式传递。

我们的平台一个固有的展示字母数字字符串的优势是使用XML技术数据能够很容易地存储并很容易地在不同计算机平台和应用之间传输，这特别适合蛋白质组学的web-services发展。

PHP加上XML的另一个优势是这个平台能够被快速构建，这能够极大地降低在数据库设计、存储和交换使用不同标准格式的实验室之间的数据方面的努力。

我们的网站提供了更多的2D/MS实验结果的信息，如发现点，双向电泳地图，峰值列表。

图4.1Xupdate界面

5.方法

测试的材料和XML源文件

从湖南省湘雅医院出现鼻咽癌症状的5个病人中获得的新鲜鼻咽癌活检样品用于这项研究。

在去除和清洗掉血液后，该样品用液态氮立即冻结并保存在零下80度的环境下，同时被组织学证实为低分化鳞状细胞癌。

样品准备的协议，2-DE和质谱的现场鉴定都如先前描述的一样。

MascotDistiller方法被用来从原始的质谱文件中获取单一同位素峰值。

然后利用Mascot搜索引擎同位素峰值被用来搜索MSDB数据库。

搜索参数可以通过以下的步骤确定：

Homosapiens作为分类选择；容忍的误差范围为±100ppm；未接的网站数允许到1；固定修改选定arbamidomethyl（半胱氨酸）；变量修改被选定为氧化（甲基）或无。

所有的实验条件和实验结果，如2-DE凝聚图像，凝胶图像的肽质量指纹峰名单，确定点的蛋白质信息等由HUP-ML编辑器集成到XML文档中并且利用HUP-ML编辑器以HUP-ML模式hup-ml.dtd验证正确性。

XML文档的模式可以从JHUPO上下载。

在双向电泳凝胶的鼻咽癌图中，用MALDI-TOF质谱光谱法确定了216个点，其中41个点是由MALDI-TOF质谱确定，剩下的由Q-TOF质谱确定。

软件环境

我们用康柏电脑顺从370，运行着windows2000专业版作为我们的服务器。

我们用J2SDK1.4.2作为我们的java开发环境，Apache1.3.29作为Web服务器，用PHP服务器接收客户端浏览器请求，把XML文档的查询结果返回给浏览器。

作为本源XML数据库Xindice-1.0装在数据库服务器上来存储、管理原始蛋白质组XML文档集合，处理查询请求，用XUpdagte更新实验结果。

Xindice-XMLRPC0.6装在WEB服务器上来作为一个简单的访问应用程序接口的XML-RPC来操纵Xindice数据库。

从DSTC上下载下来XMLDBGUI，把它装在web服务器监听本地上的Xindice的状态，用如图五所示本地机上的XUpdate功能来更新存储库。

交换蛋白质组数据的结构

Appel曾被成功用在构建ExPASy的2D/MS库上。

XML存储库是根据Appel提出的规则设计的。

不像以postgreSQLRMDB为基础的Make2ddb包，XML存储库是以本源XML数据库为基础的。

不同的源信息，包括IEF条件、SDS-PAGE条件、2-DE凝胶图像，和现场点确认信息，包括蛋白质名称、肽质量指纹图中的同位素峰的顶点列表、MS/MS标签，是首先要用HUP-ML编辑器收集进一个XML文档的。

然后，不同的HUP-ML文档被导入Xindice数据库，不用修改相应的模式。

交换蛋白质组数据的结构如图3.2所示。

为了操纵Xindice数据库，XML-RPC被用作WEB服务的API。

6.作者的贡献

FL和MYL实现了这个软件，协同数据采集。

PFZ和JLL指导生成数据库中数据的实验，在查询数据库回应方面做出贡献。

ZQX和ZCC监督了数据设计和开发，后者领导了论文写作。

参考文献

[1]TyersM,MannM:

Fromgenomicstoproteomics.Nature,2003,422（6928）:

193-197.

[2]BogyoM,HurleyJH:

Proteomicsandgenomics.CurrOpinChemBiol2003,

（1）:

2-4.

[3]WilliamsM:

Genomics,proteomicsandgnomics.CurrOpinInvestigDrugs2001,2（4）:

437-439.

[4]BinzPA,MullerM,WaltherD,BienvenutWV,GrasR,HooglandC,BouchetG,GasteigerE,FabbrettiR,GayS,PalagiP,WilkinsMR,RougeV,TonellaL,PaesanoS,RossellatG,KarmimeA,BairochA,SanchezJC,AppelRD,HochstrasserDF:

Amolecularscannertoautomateproteomicresearchandtodisplayproteomeimages.AnalChem1999,71（21）:

4981-4988.

[5]PrinceJT,CarlsonMW,WangR,LuP,MarcotteEM:

Theneedforapublicproteomicsrepository.NatBiotechnol2004,22（4）:

471-472.

[6]OrchardS,HermjakobH,JulianRKJ,RunteK,ShermanD,WojcikJ,ZhuW,ApweilerR:

CommoninterchangestandardsForproteomicsdata:

Publicavailabilityoftoolsandschema.Proteomics2004,4

（2）:

490-491.

[7]Laoudj-ChenivesseD,MarinP,BennesR,Tronel-PeyrozE,LeterrierF:

Highperformancetwo-dimensionalgelelectrophoresisusingawettingagentTergitol

NP7.Proteomics2002,2（5）:

481-485.

[8]JonesA,HuntE,WastlingJM,PizarroA,StoeckertCJJ:

Anobjectmodelanddatabaseforfunctionalgenomics.Bioinformatics2004,20（10）:

1583-1590.

[9]GarwoodKL,TaylorCF,RunteKJ,BrassA,OliverSG,PatonNW:

Pedro:

aconfigurabledataentrytoolforXML.Bioinformatics2004,20（15）:

2463-2465.

[10]GarwoodK,McLaughlinT,GarwoodC,JoensS,MorrisonN,TaylorCF,CarrollK,EvansC,WhettonAD,HartS,SteadD,YinZ,BrownAJ,HeskethA,ChaterK,HanssonL,MewissenM,GhazalP,HowardJ,LilleyKS,GaskellSJ,BrassA,HubbardSJ,OliverSG,PatonNW:

PEDRo:

adatabaseforstoring,searchinganddisseminatingexperimentalproteomicsdata.BMCGenomics2004,5

（1）:

68.

[11]StanislausR,JiangLH,SwartzM,ArthurJ,AlmeidaJS:

AnXMLstandardforthedisseminationofannotated2DGelelectrophoresisdatacomplementedwithmassspectrometryresults.BMCBioinformatics2004,5:

[12]PedrioliPG,EngJK,HubleyR,VogelzangM,DeutschEW,RaughtB,PrattB,NilssonE,AngelettiRH,ApweilerR,CheungK,CostelloCE,HermjakobH,HuangS,JulianRK,KappE,McCombME,OliverSG,OmennG,PatonNW,SimpsonR,SmithR,TaylorCF,ZhuW,AebersoldR:

Acommonopenrepresentationofmassspectrometrydataanditsapplicationtoproteomicsresearch.NatBiotechnol2004,22（11）:

1459-1466.

[13]TaylorCF,PatonNW,GarwoodKL,KirbyPD,SteadDA,YinZ,DeutschEW,SelwayL,WalkerJ,Riba-GarciaI,MohammedS,DeeryMJ,HowardJA,DunkleyT,AebersoldR,KellDB,LilleyKS,RoepstorffP,YatesJR,BrassA,BrownAJ,CashP,GaskellSJ,HubbardSJ,OliverSG:

Asystematicapproachtomodeling,capturing,anddiss

展开阅读全文