外文翻译.docx - 冰豆网

资源描述

外文翻译.docx

《外文翻译.docx》由会员分享，可在线阅读，更多相关《外文翻译.docx（10页珍藏版）》请在冰豆网上搜索。

外文翻译.docx

外文翻译

关系数据库中的自然语言查询的处理

介绍

自然语言处理（NLP）是生物信息学的一个新兴的领域。

NLP的目标是开发出新一代的数据采集和分析工具。

NLP的应用之一是在用户查询的相关性的基础上从数据库中进行信息的检索。

目前，关系数据库管理系统（RDMS）已经成为管理大容量生物医学信息的标准技术。

大部分数据库的信息检索包含一个清单，该清单由填在表格中的查询参数组成。

当参数集合非常大时，带有许多控制元素的表格可能占用超过整个屏幕的区域。

因此，用户在每个时刻仅仅能抓住表格信息中的一部分。

即使将大表格细分为小的部分，进而组合成一个应用程序向导也不能解决这个问题，因为用户会很快的厌烦，看不到下一步，也不确定下一步做什么。

然而，通过界面工具制作的友好界面，在用户的意图和它的具体实现上，也有一定的差距。

因此，用户和计算机间理想的交流方式将是使用自然语言的方式。

显而易见，用户对自己母语的掌握比任何其他的人造语言都要好，甚至是被使用的程序设计语言或可视化关联语言。

使用自然语言输入的单个查询字段对许多表格字段的替代使得查询变得便利，因为用户能够看到在每一步选定的是什么，这跟在输入字段中通过简单地编辑一个短语来修改在前一步所做的选择一样好。

但是，如果用户不是这个科目领域的专家，一个单纯的空白输入区域也许会使用户灰心。

的确，她能问什么又如何询问呢？

当然，这类用户应该被引导，而且引导者的任务是完成这个主题领域的概念方案。

概念方案体现了这个领域的基本概念，基本概念的解释性定义以及用图表表示的他们之间的关系。

通常，本领域的概念设计不是其本身的最终目标。

开发方案类似于一套数据以及其应用于其他程序中的联系的定义。

在本文件中，我们开发了基于果蝇体节基因段信息表达的概念模式，目的是帮助形成用自然语言对数据库的查询。

通过制成明确的术语定义，概念模式将帮助用户学习在这个领域中各个术语代表的具体含义。

开发概念模式的另一个原因是生物医学语言的复杂性，该语言充斥着行话、同义词和模棱两可的术语。

概念模式通过包含这些术语作为概念来帮助使用自然语言进行数据处理查询。

提及术语“自然语言”相当的模棱两可是重要的。

它的原始解释（传统的人工智能）隐含着一个用户和计算机间的实质的自由对话。

据计算这种关联最终将变得相当普遍。

然而，传统的自然语言系统（作为规则，基于语法途径）的构建的实施导致了具有几乎相反含义的原始解释的词的修正。

修正前的词句在当今常被认为是语法构成上的正确和相当拘泥的语言类型。

在我们的实现中，与以上描述的两个极端的解释相比较，术语“自然语言”有了不同的中间性的意思。

一方面，一个查询的总体句法的正确度不是必要的，并且在许多情况下，通过互联网搜索引擎，它也许有相同的电报风格。

另一方面，我们使用了一种查询理解技术。

为了明确说明疑问的含义，该技术允许对来自查询的实用的、语义的、语句的信息的最大限度的利用。

系统和方法

科目范畴和数据库

目前，关于基因表达模型的监视信息数量正变得空前的巨大。

生物发育学的科学进步与基于疾病的遗传信息的理解力的改良都取决于对这些数据进行的适时的全面的开发利用。

当前，果蝇基因表达的空间和时间上的详细信息可用于基因控制分裂（阿卡玛，1987；英厄姆，1988）。

紧跟着受精和产卵，新成型的合子核经历一系列快速和同步的核分裂。

到第九次这样的防裂为止，胞核已经偏移到了球的皮质，而且胚胎开始进入合胞体的胚盘的发育阶段。

本阶段（作为胚胎的第4阶段）在受精后持续了从90分钟时到130分钟，并包括11到13的三个分裂周期。

胚胎的第5阶段在受精后的130分开始到180分结束。

其中尤其重要的时期是从核分裂第13周期的结束到原肠胚形成之始，该时期被称为分裂周期14A。

在此时期，基因段起决定作用，膜的内陷和单元细胞的多次分裂发生了（法伊和阿尔伯特，1983）。

控制果蝇基因段的遗传学网络是少数完全以遗传学的功能的水准为特色的遗传学网络之一。

初始的基因段测定是对转录起主要作用的16基因表达的结果。

这些若干基因（母体等位基因）表示来自提供非对称的初始条件的母体基因组。

其他的是合子基因，表达的类型在空间上变得更加的优雅。

其中尤其重要的是间隙、对儿规则和磁极段类基因段的成员（阿卡玛，1987；英厄姆，1988）。

不同的自然环境下的杂交方法被应用于研究RNA和蛋白质编码。

近来，我们引进了一种新的方法来定量测量在细胞分辨力上的基因表达水平。

这个方法监视在蛋白质水平上的基因段表达，并且包括以下被描述的若干步骤。

基因表达通过共焦扫描显微镜使用荧光标记抗体的方法来测定。

每一个基因在共焦显微镜的每一个单一频率被检测。

每个胚胎每次扫描三个基因的表达。

三个胚胎图像组合后形成结果图像，接着该结果图像被应用于构建一个二进制的核子遮罩。

该核子遮罩用来降低胚胎图像在桌面所包含的定量数据，而该数据是基于胚胎的每个细胞核的基因表达。

所有的这些操作使用一种标准的图像处理包Khoros来执行。

我们从一个准确进化时间未知的固定胚胎来获得基因表达数据。

如此，从许多例子来看，现在的动力学应该被重建，那些例子中的每一个都表现不同的发展阶段。

重建中的基本步骤是确定每个胚胎的发育年龄。

分裂期常常被认为是在分裂14A之前，因为从9到13的每个分裂期都持续12分钟或更少的时间。

然而，分裂期14A大约持续50分钟长，因此，整个周期内，其他的标记被用来标记胚胎的变化。

首先，通过可视化的基因表达检测，我们看到所有的胚胎变形了，从一对基因变成8个等价的基因。

接着，103个胚胎使用标准的曲线，表示了作为发育期功能的隔膜内陷。

通过这个，起始于分裂期14A的准确的发育年龄在实验上被确定了。

第三，通过这个模式识别方法，所有其他的胚胎的发育年龄被预测了。

定量的基因表达数据更进一步使每个基因段表达的数据趋于平均化。

此又被命名为整合数据。

基因段的表达主要是沿着胚胎身体前后主轴的功能位置。

这意味着，为了描述和分析基因段的表达，考虑单面向的数据就是足够的。

单维度的的定量的基因段的表达数据从中央的在前后主轴方向的长条区域的10%中提取了。

定量的基因表达数据的处理步骤包括数据统一、注册和求平均。

在数据统一阶段间，定量的基因表达数据被分析了，为了处理由于背景信号出现导致的失真。

为了消除胚胎中单一的小的个体差异，定量的基因表达数据被迫接受注册。

两种注册方法被使用了（玛雅妮库娃等人，1999；科兹洛夫等人，2000）。

两种方法都是基于每个图像的典型特征的抽取（又被称为地面控制点，GCPs）。

坐标转换的应用是为了在不同的图像中尽可能接近的寻找符合GCPs的一致点。

在数据平均化阶段，对于给定基因的已注册的规范化的数据、时间类和胚胎集被平均化了，并且被映射到了平均胚胎的一套核心上（科兹洛夫等人，2002）。

这个操作将整合数据在一个给定的时间间隔，以细胞分辨力水平投在所有体节基因的表达上。

两套整合数据产生了，其一是基于整个胚胎图像的，另一个是基于沿胚胎整体前后主轴方向10%长条区域的。

上述描述的方法的应用导致了大量的基因段表达类型的数字图像连同基于细胞分辨率水平的基因段遗传网络的定量的基因表达数据的获取。

目前，这些信息被储存在FlyEx数据库中。

FlyEx采用IBMDB2v7.2开发做为数据库管理系统。

它包含了从809个胚胎中获得的14个基因段表达模型和基于每个胚胎图像的核子基因表达的定量的经过处理的数据。

这个整合数据可在8个时间点用于9个体节基因中。

概念方案

概念设计是一个有向图，图中的节点是知识领域的概念，边缘定义了概念之间的关系。

设计结构定义如下：

“→是…的特点”（“胚胎”,“发育期”）

“→是一个例子”（“分裂期14A的开始”,“发育期”）

“→由…得到”（“分裂期14A的开始”,“隔膜内陷”）

上述列表的每一行定义了两个概念间的一种关系。

为表示概念图式，我们开发了equirank集合算法。

概念图式形式上被描述为一个图表。

图表中每个节点的序列值通过它与根节点的距离被定义，根节点的序列值为0。

节点的序列被循环决定—父节点的序列值超过其最大子节点的序列值乘1。

具有相同序列值的节点被放在一行上。

在同一线上的节点的布局取决于它们之间的相互关系。

算法采用在这些节点之间距离最小的约束条件下将边缘长度的和减到最小的方法来决定节点之间的相互关系。

自然语言查询的数据处理

有一些语义、语法的分析法来自动分析和理解自然语言文本。

传统的语法分析法是基于一个句子的分析法，该分析是根据语法为了确定句子的结构的分析。

此方法导致了用户和开发者之间的若干问题。

开发者不得不指定所有的各种各样的查询，而且用户的查询由于句法的错误也可能被误解。

此外，基于句法分析法的系统完全依靠于指定的语言、它的句法和语法。

而且，它是几乎不可能的使用它们来处理任意其他的语言。

例如，句法分析法被应用于1998年的微软英语查询中。

我们使用基于语义法的语言理解技术。

这项技术由Narinyany（1979）引进，被Zhigalov（1998）发展。

它解释了任意的自然语言的合乎文法的语法单位，并将其引入知识领域的概念。

在图1中，提供了我们的系统中的使用自然语言查询的处理的主要步骤。

首先，具有相近意思的高阶的概念被映射到数据库对象上的逻辑层次所替代。

在被称为字典查询的步骤中，一个初始的语义组件链被构建了。

语义分析步骤将初始的语义组件链转换为一个语义网络。

语义网络正式的代表一个查询。

在SQL查询和优化步骤，语义网络被转换成数据库的SQL查询。

查询的高级处理步骤执行科目范畴特有的查询处理。

例如，在不同的视图中显示数据（作为表格，图表和图像）。

所有的程序都采用java语言编写。

同义词和高层面的概念的处理。

自然语言查询的处理过程是将不同的单词表格组合转换为逻辑层的有限集的条目。

该逻辑层被用来产生到数据库的SQL查询。

除了逻辑层术语外，一个查询还包括它们的同义词和高层的概念。

表1构建将同义词和高层概念转为逻辑层术语的部分表格片段

分裂期11

分裂期14A

核掩码

阶段

0.5

胚胎

0.5

合胞体

0.5

同义词和高层概念到逻辑层术语的转换通过下述特殊的规则执行。

像‘阶段4’→‘分裂期11’,‘阶段5’→‘分裂期14A’,‘胚胎合胞体’→‘核掩码’,等规则的左边部分包含了上位词或同义词，右边部分是逻辑层术语。

专门的字典包含了所有的由上位词和同义词组成的单词表。

上位词和同义词可能包含了不只一个单词表（比如，阶段4，基因类）。

因此，一个为识别这些概念的表被构建了。

这个表包含了每一个单词表概念到逻辑术语的假定可能性。

如果这个概念由n个单词形成，那么我们假定它的可能性为1/n。

表1表示了构建表的片段。

当逻辑术语出现在第一行时，表的左列包含了字典的主要单词。

为了举例说明这个算法，让我们考虑一下这个查询‘哪一个胚胎属于阶段5？

’。

首先，如果这个查询的任意一个单词在字典内，算法将核对它。

在我们的例子里，这些单词是阶段和5，并且查询包含这些术语的主要单词。

下一步，向量L从这些主导词中形成了，如果词在字典里被找到了，那么组件被赋值为1，否则，被赋值为0。

然后，表就被转换为了矩阵A。

由单词表现在表1中，我们得到L=[10100]，并且

接着向量R=L*A被计算了。

得到的结果是整合后的可能性值。

在我们的例子里，有R=[0.510]。

如果条件R=1被满足了，那么在字典中找到的单词将被转换为逻辑术语。

在我们的例子里，单词阶段和5到逻辑术语分裂期14A的整合可能行值等于1，因此，转换阶段5→分裂期14A被执行了。

字典查询。

在字典查询阶段，一个查询的所有词与储存在知识域字典内的所有词进行比较。

带有字典项的话语被转换为主导词，每一个单词与预定义的组件建立联系（例如，表格，字段，值，等）。

初始的语义组件链用这种方式被构建了。

作为一个英语词典，我们使用包含在Linux中的英语字典。

这个词典包含大约16000个主要单词。

每个单词的主要的形式以一组标记被提供了。

该标记定义了其他单词形式的产生规则。

每一个标记用一个大写字母表示，并定义了为产生一个特定的单词需为单词加上什么。

例如，四个单词从主要的单词码中产生了，该单词码被提供的标记为DGRS。

mask+−ed=masked,G:

mask+−ing=masking,

mask+−er=masker,S:

mask+−s=masks.

单词转换为主导词的算法过程如下。

第一步，如果给定的词在字典内，它将核对它。

如果是这样的话，它意味着主导词被使用在查询中。

否则，主导词将被重建。

产生单词形式的所有规则被应用在试着移除通过这些规则指定的词缀上。

例如，如果单词masked被使用在了用户查询中，基于规则G，R和S的应用程序不会产生结果，而基于规则D的应用程序将产生符合主导词mask一致性形式的变形词。

接下来算法核查，通过应用转换规则，初始词表能否从主导词表中产生。

在以上被给的例子里，算法核查了字典中单词mask是否被标记D供给。

因此，单词masked能够通过增加后缀ed从单词mask中产生。

为了构建知识域的俄语字典，通过增加其他的单词形式，我们扩充了形态学的字典。

这些形式从可能的俄语字典站点下载（），其大概包括了一百万个单词。

语义分析。

在这一步，一个初始的语义链被转换成了一个代表具体查询含义的语义网络。

初始的语义链是一系列的基本语义部分，不包含任意的子组件。

语义分析算法执行这些语义组件到高级组件的连续分类，查询的语义网络自底向上被构建了。

为了组合语义组件，生产规则原理被应用了。

每一个规则代表了这个暗示：

如果<适用性条件>那么<执行操作>。

<适用性条件>定义了语义组件的一种配置。

<执行操作>定义了一系列的操作，如果生产规则是合适的，那么操作将被执行。

每一个规则都有他自己的优先级。

具有高优先级的规则优先被处理，如果两条规则具有相同的优先级，处理的顺序未定义。

所有的语义组件都以类型，描述和主体为特征。

固定集合的属性对应语义部分的每个类型。

语义部分的描述定义了他的属性的比值。

大多数组件的最重要的属性是它们的定位。

定位指定了这些语义部分映射的数据库对象。

语义部分的主体代表了以任意形式语言（例如，结构化查询语言）描述的结果查询的片段。

有各种类型的语义部分。

表类型的语义部分被直接映射到了数据库表上，而字段类型部分被映射到了数据库表的字段上。

关系类型的语义部分被用来定义其他类型语义部分之间的关系操作（>,<,=,等）。

半区间和区间类型的部分分别描述了对应字段值的一边和两边区域（例如，>5,≤5,>5and<8）。

集合类型部分代表了主要的集合操作（COUNT,SUM,MIN,MAX）,其算数运算执行在数据库表的一些行上。

逻辑运算的语义部分提供的操作对象是AND，OR和NOT。

谓词和功能类型的语义部分是用来组合其他部分的高级部分。

谓词代表了一个SQL查询中的行选择的条件。

函数联合了集合类型的部分和表或字段类型的部分（例如，COUNT（embryo.*），COUNT（embryo.embrid））。

SQL查询和优化。

为了将语义网络转换为SQL查询，选择语句被使用了。

其格式为：

select（字段列表）from（表格列表）where（条件）。

其中，字段列表和表格列表是数据库中的字段和表格，此表格中的字段将被选择。

另外，条件作为选择的标准。

SQL查询的产生算法是这样的。

表格，字段，函数类型的语义部分代表用户需要的数据。

因此，这些部分对应SQL查询的select子句，而开始的语义部分的定位定义了数据源，其对应from子句。

语义成分谓词描述了一个选择标准，其对应where子句。

为了举例说明我们的语义分析器的工作，让我们考虑一个自然语言查询的例子。

扫描的胚胎哪一个处于bcd表达，并属于晚的暂时类别。

原始的语义链被写为如下形式：

晶胚（表,胚胎,‘胚胎’）bcd（值,蛋白质名,‘bicoid’）and（逻辑,-,-）late（半区域,embryo.temporal,≥5）temporalclass（字段,胚胎的暂时性,‘embryo.temporal’）。

这儿和下面，每一个语义成分的类型，定位和主体都被显示在大括号里。

首先，生产规则将lateandtemporalclass组合成谓词类型的语义部分。

embryos（table,embryo,‘embryo’）bcd（valueprotein.name,‘bicoid’）and（logic）（predicate,embryo.temporal,embryo.temporal≥5）.

下面，bcd部分被谓词代替。

embryos（table,embryo,‘embryo’）（predicate,protein.name,protein.name=‘bicoid’）and（logic）（predicate,embryo.temporal,embryo.temporal≥5）.然后，使用and操作，两个谓词被组合成一个新的。

embryos（table,embryo,‘embryo’）（predicate,-,protein.name=‘bicoid’andembryo.temporal≥5）.最后，合成的语义链得到了，而且，SQL查询能够被产生了。

其如下所示：

SELECTembryo.*FROMembryo,protein,embryochannelWHERE（protein.name=‘bicoid’andembryo.temporal≥5）and（embryo.embrid=embryochannel.embridandprotein.prid=embryochannel.prid）.

定向域的查询处理。

除了一般的自然语言查询的语义分析，还有一种在知识领域背景下的查询的高级处理的必然。

例如，一个用户可能要求以不同的方式（表格，图形，图像）显示数据或通过一个规定的方法处理数据。

为了实现知识域定向的语义分析，我们提供了一种特殊类型的语义部分组，其中每一个部分与一种处理过程相关。

例如，如果单词“定量数据和表格”在一个查询中，其相应的过程将被激活，然后，将执行以前步骤的SQL查询，并将以表格的形式显示查询结果。

基于微软英语查询的测试系统的设计

为了评价我们系统对自然语言查询形成的准确度的敏感性，我们使用MicrosoftSQLServer7.0开发了测试数据库，其作为我们数据库FlyEx的一部分。

它包括三个表：

embryo,proteinandembryochannel。

表embryo的字段是embrid（primarykey）,name（embryoname）,cleavage（cleavagecycle）andtemporal（timeclass）。

表protein包含两个字段prid（primarykey）andname（genename）。

这个embryochannel是一个帮助表，包含两个字段embrid和prid，并以一种多对多的关系连接了embryo和protein表。

和若干基因和胚胎的信息一道，这个数据库是呈粒子数增加的。

基于自然语言查询的数据处理的测试系统被设计了，其使用的是微软英语查询，并包含实体embryo和gene，及他们之间的关系。

实现

信息检索

为了规定和执行对数据库的查询，自然语言前段的html表格（图2）是为用户来填写的。

一个查询的文本被键入文本框字段QUERY中。

列表QUERYEXAMPLES为了方便包含了一组预定义的标注查询。

在列表中的一个查询被选择后，这个查询就自动显示在字段QUERY中，而且在执行前可以被编辑。

一个查询默认返回满足选择标准的所有行。

文本字段MAX.NUMBEROFROWSRETURNED允许用户定义查询结果被返回的行数。

如果查询结果的行数小于字段指定的行数，那么返回所有的行。

通过按按钮SENDQUERY，一个查询将被执行，而且之后查询结果将显示在新的浏览器窗口中。

自然语言的查询显示在这个窗口的上部，其中常常从数据库中检索信息的词呈红色显示。

而查询的结果以表格的形式显示在下部。

由此系统自动产生的SQL查询显示在结果下面。

该SQL查询能被编辑，而且通过按按钮SENDQUERY，它能被送至服务器。

链接SWITCHTORUSSIAN的选择调用查询表格的俄语版本。

以俄语提交和执行的查询类似于英语的查询。

自然语言处理器的性能

为明确表达自然语言的查询，用户能使用描述在概念模式中的任意概念。

无论使用的是高一级概念的查询还是低一级概念的查询，系统都平等的解释。

例如分裂期11至13是发育阶段4的一部分，查询“什么胚胎属于发育阶段4？

”返回一个属于这些周期的胚胎列表。

为明确表达自然语言的查询，用户也可以输入任意形式的单词（例如，embryoorembryos,geneorgenes,maskormasked）。

此查询能被明确的表述为作为一个完整短语或作为一个关键词列表。

例如，查询“embryosKrgteve”返回的结果与查询“WhichembryoswerescannedforexpressionofKruppel,giantandeven-skipped?

”返回的结果是一样的。

使用同义词或者甚至使用行话的查询都能被明确的表述。

例如，一个基因名既能以全名被介绍，也能以一个符号，或甚至以三个大写字母为简称的缩写来被介绍。

它们每一个都对应基因的相同注释（例如，‘BHE’-bcd,gtandeve）。

查询“多少...?

”允许满足任意标准的返回行的数目（例如，Howmanyembryosarescannedforexpressionofbcdandbelongtolatetemporalclasses?

）。

除此之外，它很可能将这些行列在屏幕上（例如，Howmanygeneswerescannedforexpressioninembryotn1?

Listthesegenes.）。

本系统最重要的特征之一是包含基于数字属性价值的任意分配条件的可能性。

下面的语义结构重组被支持了：

largerthan,greaterthan,morethan,>,≥,≤,<,lessthan,smallerthan,fromntom,n–m。

在查询中，它很可能使用逻辑操作符AND,OR,NOT来结合选择标准。

例如，查询“WhichembryoswerescannedforexpressionofKruppelandgiantandeven-skipped?

”返回一个被扫描的所有的基因表达的胚胎列表。

而查询“WhichembryoswerescannedforexpressionofKruppelorgiantoreven-skipped”返回一个被扫描的至少这些基因表达的胚胎列表。

查询“显示模式...”返回一个分节基因表达的模式。

当需要不同胚胎中的若干模式时，一个胚胎列表被显示了，其胚胎名与胚胎图像相链接。

当需要某个胚胎的模式时，它将代替胚胎列表立刻显示出来。

定量的已处理的表达数据能以不同的格式显示给用户，像表格，平面图或3d图像。

为检索信息，用户不得不指定其期望的查询格式。

例如，“Selectasaflatgraph

展开阅读全文