外文翻译.docx-资源下载

外文翻译.docx

1、外文翻译关系数据库中的自然语言查询的处理介绍自然语言处理（NLP）是生物信息学的一个新兴的领域。NLP的目标是开发出新一代的数据采集和分析工具。NLP的应用之一是在用户查询的相关性的基础上从数据库中进行信息的检索。目前，关系数据库管理系统（RDMS）已经成为管理大容量生物医学信息的标准技术。大部分数据库的信息检索包含一个清单，该清单由填在表格中的查询参数组成。当参数集合非常大时，带有许多控制元素的表格可能占用超过整个屏幕的区域。因此，用户在每个时刻仅仅能抓住表格信息中的一部分。即使将大表格细分为小的部分，进而组合成一个应用程序向导也不能解决这个问题，因为用户会很快的厌烦，看不到下一步，也不确定

2、下一步做什么。然而，通过界面工具制作的友好界面，在用户的意图和它的具体实现上，也有一定的差距。因此，用户和计算机间理想的交流方式将是使用自然语言的方式。显而易见，用户对自己母语的掌握比任何其他的人造语言都要好，甚至是被使用的程序设计语言或可视化关联语言。使用自然语言输入的单个查询字段对许多表格字段的替代使得查询变得便利，因为用户能够看到在每一步选定的是什么，这跟在输入字段中通过简单地编辑一个短语来修改在前一步所做的选择一样好。但是，如果用户不是这个科目领域的专家，一个单纯的空白输入区域也许会使用户灰心。的确，她能问什么又如何询问呢？当然，这类用户应该被引导，而且引导者的任务是完成这个主题领域的

3、概念方案。概念方案体现了这个领域的基本概念，基本概念的解释性定义以及用图表表示的他们之间的关系。通常，本领域的概念设计不是其本身的最终目标。开发方案类似于一套数据以及其应用于其他程序中的联系的定义。在本文件中，我们开发了基于果蝇体节基因段信息表达的概念模式，目的是帮助形成用自然语言对数据库的查询。通过制成明确的术语定义，概念模式将帮助用户学习在这个领域中各个术语代表的具体含义。开发概念模式的另一个原因是生物医学语言的复杂性，该语言充斥着行话、同义词和模棱两可的术语。概念模式通过包含这些术语作为概念来帮助使用自然语言进行数据处理查询。提及术语“自然语言”相当的模棱两可是重要的。它的原始解释（传统

4、的人工智能）隐含着一个用户和计算机间的实质的自由对话。据计算这种关联最终将变得相当普遍。然而，传统的自然语言系统（作为规则，基于语法途径）的构建的实施导致了具有几乎相反含义的原始解释的词的修正。修正前的词句在当今常被认为是语法构成上的正确和相当拘泥的语言类型。在我们的实现中，与以上描述的两个极端的解释相比较，术语“自然语言”有了不同的中间性的意思。一方面，一个查询的总体句法的正确度不是必要的，并且在许多情况下，通过互联网搜索引擎，它也许有相同的电报风格。另一方面，我们使用了一种查询理解技术。为了明确说明疑问的含义，该技术允许对来自查询的实用的、语义的、语句的信息的最大限度的利用。系统和方法科目

5、范畴和数据库目前，关于基因表达模型的监视信息数量正变得空前的巨大。生物发育学的科学进步与基于疾病的遗传信息的理解力的改良都取决于对这些数据进行的适时的全面的开发利用。当前，果蝇基因表达的空间和时间上的详细信息可用于基因控制分裂（阿卡玛，1987；英厄姆，1988）。紧跟着受精和产卵，新成型的合子核经历一系列快速和同步的核分裂。到第九次这样的防裂为止，胞核已经偏移到了球的皮质，而且胚胎开始进入合胞体的胚盘的发育阶段。本阶段（作为胚胎的第4阶段）在受精后持续了从90分钟时到130分钟，并包括11到13 的三个分裂周期。胚胎的第5阶段在受精后的130分开始到180分结束。其中尤其重要的时期是从核分裂

6、第13 周期的结束到原肠胚形成之始，该时期被称为分裂周期14A。在此时期，基因段起决定作用，膜的内陷和单元细胞的多次分裂发生了（法伊和阿尔伯特，1983）。控制果蝇基因段的遗传学网络是少数完全以遗传学的功能的水准为特色的遗传学网络之一。初始的基因段测定是对转录起主要作用的16基因表达的结果。这些若干基因（母体等位基因）表示来自提供非对称的初始条件的母体基因组。其他的是合子基因，表达的类型在空间上变得更加的优雅。其中尤其重要的是间隙、对儿规则和磁极段类基因段的成员（阿卡玛，1987；英厄姆，1988）。不同的自然环境下的杂交方法被应用于研究RNA 和蛋白质编码。近来，我们引进了一种新的方法来定量

7、测量在细胞分辨力上的基因表达水平。这个方法监视在蛋白质水平上的基因段表达，并且包括以下被描述的若干步骤。基因表达通过共焦扫描显微镜使用荧光标记抗体的方法来测定。每一个基因在共焦显微镜的每一个单一频率被检测。每个胚胎每次扫描三个基因的表达。三个胚胎图像组合后形成结果图像，接着该结果图像被应用于构建一个二进制的核子遮罩。该核子遮罩用来降低胚胎图像在桌面所包含的定量数据，而该数据是基于胚胎的每个细胞核的基因表达。所有的这些操作使用一种标准的图像处理包Khoros来执行。我们从一个准确进化时间未知的固定胚胎来获得基因表达数据。如此，从许多例子来看，现在的动力学应该被重建，那些例子中的每一个都表现不同

8、的发展阶段。重建中的基本步骤是确定每个胚胎的发育年龄。分裂期常常被认为是在分裂14A之前，因为从9到13 的每个分裂期都持续12分钟或更少的时间。然而，分裂期14A大约持续50分钟长，因此，整个周期内，其他的标记被用来标记胚胎的变化。首先，通过可视化的基因表达检测，我们看到所有的胚胎变形了，从一对基因变成8个等价的基因。接着，103个胚胎使用标准的曲线，表示了作为发育期功能的隔膜内陷。通过这个，起始于分裂期14A的准确的发育年龄在实验上被确定了。第三，通过这个模式识别方法，所有其他的胚胎的发育年龄被预测了。定量的基因表达数据更进一步使每个基因段表达的数据趋于平均化。此又被命名为整合数据。基因段

9、的表达主要是沿着胚胎身体前后主轴的功能位置。这意味着，为了描述和分析基因段的表达，考虑单面向的数据就是足够的。单维度的的定量的基因段的表达数据从中央的在前后主轴方向的长条区域的10%中提取了。定量的基因表达数据的处理步骤包括数据统一、注册和求平均。在数据统一阶段间，定量的基因表达数据被分析了，为了处理由于背景信号出现导致的失真。为了消除胚胎中单一的小的个体差异，定量的基因表达数据被迫接受注册。两种注册方法被使用了（玛雅妮库娃等人，1999；科兹洛夫等人，2000）。两种方法都是基于每个图像的典型特征的抽取（又被称为地面控制点，GCPs）。坐标转换的应用是为了在不同的图像中尽可能接近的寻找符合G

10、CPs的一致点。在数据平均化阶段，对于给定基因的已注册的规范化的数据、时间类和胚胎集被平均化了，并且被映射到了平均胚胎的一套核心上（科兹洛夫等人，2002）。这个操作将整合数据在一个给定的时间间隔，以细胞分辨力水平投在所有体节基因的表达上。两套整合数据产生了，其一是基于整个胚胎图像的，另一个是基于沿胚胎整体前后主轴方向10%长条区域的。上述描述的方法的应用导致了大量的基因段表达类型的数字图像连同基于细胞分辨率水平的基因段遗传网络的定量的基因表达数据的获取。目前，这些信息被储存在FlyEx数据库中。FlyEx采用IBM DB2 v7.2开发做为数据库管理系统。它包含了从809个胚胎中获得的14个

11、基因段表达模型和基于每个胚胎图像的核子基因表达的定量的经过处理的数据。这个整合数据可在8个时间点用于9个体节基因中。概念方案概念设计是一个有向图，图中的节点是知识领域的概念，边缘定义了概念之间的关系。设计结构定义如下：“是的特点”(“胚胎”,“发育期”)“是一个例子”(“分裂期14A的开始”,“发育期”)“由得到”(“分裂期14A的开始”,“隔膜内陷”)上述列表的每一行定义了两个概念间的一种关系。为表示概念图式，我们开发了equirank集合算法。概念图式形式上被描述为一个图表。图表中每个节点的序列值通过它与根节点的距离被定义，根节点的序列值为0。节点的序列被循环决定父节点的序列值超过其最大子

12、节点的序列值乘1。具有相同序列值的节点被放在一行上。在同一线上的节点的布局取决于它们之间的相互关系。算法采用在这些节点之间距离最小的约束条件下将边缘长度的和减到最小的方法来决定节点之间的相互关系。自然语言查询的数据处理有一些语义、语法的分析法来自动分析和理解自然语言文本。传统的语法分析法是基于一个句子的分析法，该分析是根据语法为了确定句子的结构的分析。此方法导致了用户和开发者之间的若干问题。开发者不得不指定所有的各种各样的查询，而且用户的查询由于句法的错误也可能被误解。此外，基于句法分析法的系统完全依靠于指定的语言、它的句法和语法。而且，它是几乎不可能的使用它们来处理任意其他的语言。例如，句法

13、分析法被应用于1998年的微软英语查询中。我们使用基于语义法的语言理解技术。这项技术由Narinyany（1979）引进，被Zhigalov（1998）发展。它解释了任意的自然语言的合乎文法的语法单位，并将其引入知识领域的概念。在图1中，提供了我们的系统中的使用自然语言查询的处理的主要步骤。首先，具有相近意思的高阶的概念被映射到数据库对象上的逻辑层次所替代。在被称为字典查询的步骤中，一个初始的语义组件链被构建了。语义分析步骤将初始的语义组件链转换为一个语义网络。语义网络正式的代表一个查询。在SQL查询和优化步骤，语义网络被转换成数据库的SQL查询。查询的高级处理步骤执行科目范畴特有的查询处理。

14、例如，在不同的视图中显示数据（作为表格，图表和图像）。所有的程序都采用java语言编写。同义词和高层面的概念的处理。自然语言查询的处理过程是将不同的单词表格组合转换为逻辑层的有限集的条目。该逻辑层被用来产生到数据库的SQL查询。除了逻辑层术语外，一个查询还包括它们的同义词和高层的概念。表1 构建将同义词和高层概念转为逻辑层术语的部分表格片段ff分裂期11分裂期14A核掩码阶段0.50.5040.500500.50胚胎000.5合胞体000.5同义词和高层概念到逻辑层术语的转换通过下述特殊的规则执行。像阶段 4 分裂期11, 阶段 5 分裂期14A, 胚胎合胞体核掩码, 等规则的左边部分包含

15、了上位词或同义词，右边部分是逻辑层术语。专门的字典包含了所有的由上位词和同义词组成的单词表。上位词和同义词可能包含了不只一个单词表（比如，阶段4，基因类）。因此，一个为识别这些概念的表被构建了。这个表包含了每一个单词表概念到逻辑术语的假定可能性。如果这个概念由n个单词形成，那么我们假定它的可能性为1/n。表1表示了构建表的片段。当逻辑术语出现在第一行时，表的左列包含了字典的主要单词。为了举例说明这个算法，让我们考虑一下这个查询哪一个胚胎属于阶段5？。首先，如果这个查询的任意一个单词在字典内，算法将核对它。在我们的例子里，这些单词是阶段和5，并且查询包含这些术语的主要单词。下一步，向量L从这些主

16、导词中形成了，如果词在字典里被找到了，那么组件被赋值为1，否则，被赋值为0。然后，表就被转换为了矩阵A。由单词表现在表1中，我们得到L=10100，并且接着向量R=L*A被计算了。得到的结果是整合后的可能性值。在我们的例子里，有R=0.5 1 0。如果条件R=1被满足了，那么在字典中找到的单词将被转换为逻辑术语。在我们的例子里，单词阶段和5到逻辑术语分裂期14A的整合可能行值等于1，因此，转换阶段5分裂期14A 被执行了。字典查询。在字典查询阶段，一个查询的所有词与储存在知识域字典内的所有词进行比较。带有字典项的话语被转换为主导词，每一个单词与预定义的组件建立联系（例如，表格，字段，值，等

17、）。初始的语义组件链用这种方式被构建了。作为一个英语词典，我们使用包含在Linux中的英语字典。这个词典包含大约16000个主要单词。每个单词的主要的形式以一组标记被提供了。该标记定义了其他单词形式的产生规则。每一个标记用一个大写字母表示，并定义了为产生一个特定的单词需为单词加上什么。例如，四个单词从主要的单词码中产生了，该单词码被提供的标记为 DGRS。D : mask + ed = masked, G : mask + ing =masking, R : mask +er = masker,S : mask +s =masks.单词转换为主导词的算法过程如下。第一步，如果给定的词在字典内

18、，它将核对它。如果是这样的话，它意味着主导词被使用在查询中。否则，主导词将被重建。产生单词形式的所有规则被应用在试着移除通过这些规则指定的词缀上。例如，如果单词masked被使用在了用户查询中，基于规则G，R和S的应用程序不会产生结果，而基于规则D的应用程序将产生符合主导词mask一致性形式的变形词。接下来算法核查，通过应用转换规则，初始词表能否从主导词表中产生。在以上被给的例子里，算法核查了字典中单词mask是否被标记D供给。因此，单词masked能够通过增加后缀ed从单词mask中产生。为了构建知识域的俄语字典，通过增加其他的单词形式，我们扩充了形态学的字典。这些形式从可能的俄语字典站点下

19、载（），其大概包括了一百万个单词。语义分析。在这一步，一个初始的语义链被转换成了一个代表具体查询含义的语义网络。初始的语义链是一系列的基本语义部分，不包含任意的子组件。语义分析算法执行这些语义组件到高级组件的连续分类，查询的语义网络自底向上被构建了。为了组合语义组件，生产规则原理被应用了。每一个规则代表了这个暗示：如果那么。定义了语义组件的一种配置。定义了一系列的操作，如果生产规则是合适的，那么操作将被执行。每一个规则都有他自己的优先级。具有高优先级的规则优先被处理，如果两条规则具有相同的优先级，处理的顺序未定义。所有的语义组件都以类型，描述和主体为特征。固定集合的属性对应语义部分的每个类型。

20、语义部分的描述定义了他的属性的比值。大多数组件的最重要的属性是它们的定位。定位指定了这些语义部分映射的数据库对象。语义部分的主体代表了以任意形式语言（例如，结构化查询语言）描述的结果查询的片段。有各种类型的语义部分。表类型的语义部分被直接映射到了数据库表上，而字段类型部分被映射到了数据库表的字段上。关系类型的语义部分被用来定义其他类型语义部分之间的关系操作（,5,5,5and, , , , lessthan, smaller than, from n to m, n m。在查询中，它很可能使用逻辑操作符AND, OR, NOT来结合选择标准。例如，查询“Which embryos were

21、scanned for expression ofKruppel and giant and even-skipped?”返回一个被扫描的所有的基因表达的胚胎列表。而查询“Which embryos were scanned forexpression of Kruppel or giant or even-skipped”返回一个被扫描的至少这些基因表达的胚胎列表。查询“显示模式 .”返回一个分节基因表达的模式。当需要不同胚胎中的若干模式时，一个胚胎列表被显示了，其胚胎名与胚胎图像相链接。当需要某个胚胎的模式时，它将代替胚胎列表立刻显示出来。定量的已处理的表达数据能以不同的格式显示给用户，像表格，平面图或3d图像。为检索信息，用户不得不指定其期望的查询格式。例如，“Select as a flat graph

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？