生物信息学复习题word精品.docx

资源描述

生物信息学复习题word精品.docx

《生物信息学复习题word精品.docx》由会员分享，可在线阅读，更多相关《生物信息学复习题word精品.docx（52页珍藏版）》请在冰豆网上搜索。

生物信息学复习题word精品.docx

生物信息学复习题word精品

名词解释

1..生物信息学:

是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，

也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科。

2.二级数据库：

在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：

是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（＞）表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：

是GenBank数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：

第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

5.Entrez检索系统：

是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接

的数据库多，使用方便，能够进行交叉索引等特点。

6.BLAST基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P94

7.查询序列（querysequence）：

也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P98

8.打分矩阵（scoringmatrix）：

在相似性检索中对序列两两比对的质量评估方法。

包括基

于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM两类方法。

P29

9.空位（gap）：

在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比

对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P29

10.空位罚分：

空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入

不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

P37

11.E值：

衡量序列之间相似性是否显著的期望值。

12•低复杂度区域：

BLAST搜索的过滤选项。

指序列中包含的重复度高的区域，如poly（A）。

13•点矩阵（dotmatrix）:

构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

14.多序列比对：

通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。

15.分子钟：

认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。

16.系统发育分析：

通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构：

指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。

系统发育图：

用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。

18.直系同源：

指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。

（书：

在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。

）

19.旁系（并系）同源：

指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这

些基因在功能上可能发生了改变。

（书：

由于基因重复事件产生的相似序列。

）

20.外类群：

是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。

21.有根树：

能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法（UPGM）:

最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。

23.邻接法（neighbor-joiningmethod）:

是一种不仅仅计算两两比对距离，还对整个树的

长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGM算法要求进化速率保持恒

定的缺陷。

24.最大简约法（MP：

在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。

25.最大似然法（ML）它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概

率最大的进化树。

最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上

构建系统发育树。

26.一致树（consensustree）：

在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。

27.自举法检验（Bootstrap）：

放回式抽样统计法。

通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。

28.开放阅读框（ORF：

开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。

29.密码子偏性（codonbias）：

氨基酸的同义密码子的使用频率与相应的同功tRNA的水

平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效

应称为密码子偏性。

30.基因预测的从头分析：

依据综合利用基因的特征，如剪接位点，内含子与外显子边界调控区，预测基因组序列中包含的基因。

31.结构域（domain）:

保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存

在，也可能与其他结构域组合。

相同功能的同源结构域具有序列的相似性。

32.超家族：

进化上相关，功能可能不同的一类蛋白质。

33.模体（motif）：

短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20

个残基。

34.序列表谱（profile）：

是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分的表格。

35.PAM矩阵：

PAM旨可接受突变百分率。

一个氨基酸在进化中变成另一种氨基酸的可能性，

通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。

一个PAM单位是

蛋白质序列平均发生1%的替代量需要的进化时间。

36.BLOSUM巨阵：

模块替代矩阵。

矩阵中的每个位点的分值来自蛋白比对的局部块中的替代

频率的观察。

每个矩阵适合特定的进化距离。

例如，在BLOSUM6矩阵中，比对的分值来自

不超过62%一致率的一组序列。

37.PSI-BLAST：

位点特异性迭代比对。

是一种专门化的的比对，通过调节序列打分矩阵

（scoringmatrix）探测远缘相关的蛋白。

38.RefSeq：

给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人承认的Genbank

序列。

39.PDB（ProteinDataBank）:

PDB中收录了大量通过实验（X射线晶体衍射，核磁共振NMR

测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。

PDB数据库的访问号由一个数字和三个字母组成（如,4HHB,同时支持关键词搜索，还可以FASTA

程序进行搜索。

40.GenPept:

是由GenBank中的DNA序列翻译得到的蛋白质序列。

数据量很大，且随核酸序

列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。

41.折叠子（Fold）:

在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有

特定的空间取向。

42.TrEMBL:

是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序

列（CDS）翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PRO■数据库中。

43.MMDB（MolecularModelingDatabase）:

是（NCB）所开发的生物信息数据库集成系统

Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。

与PDB相比，

对于数据库中的每一个生物大分子结构，MMD具有许多附加的信息，如分子的生物学功能、

产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。

44.SCOP数据库:

提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白

质结构数据库PDB中的所有条目。

SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：

到PDB的连接，序列，参考文献，结构的图像等。

可以按

结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类

（class）、折叠子（fold）、超家族（superfamily）、家族（family）、单个PDB蛋白结构记录。

45.PROSITE:

是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助

识别蛋白质家族的统计特征。

PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、

与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。

46.GeneOntology协会:

编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。

从3个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。

47.表谱（PSSM）:

指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。

48.蛋白质组p179:

是指一个基因组中各个基因编码产生的蛋白质的总体，即一个基因组的全部蛋白产物及其表达情况。

49.中心法则是指遗传信息从DNA传递给RNA再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA即完成DNA勺复制过程。

这是所有有细胞结构的生物所遵循的法则。

50.一级数据库:

数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理

和注释

51.基因芯片（genechip）,又称DNA微阵列（microarray）,是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

52.序列比对：

为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

53.数据库查询（databasequery）:

是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。

54.数据库搜索（databasesearch）:

在分子生物信息学中有特定含义，它是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

55.相似性（similarity）:

数学上，相似性指两个图形的形状完全相似。

若存在两个点的集，其中一个能透过放大缩小、平移或旋转等方式变成另一个，就说它们具有相似性。

56.同源性：

在进化上或个体发育上的共同来源而呈现的本质上的相似性，但其功能不一定相同。

57.同一性：

是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。

58.一致序列：

在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

59.HMM隐马尔可夫模型）：

是统计模型，它用来描述一个含有隐含未知参数的马尔可

夫过程。

其难点是从可观察的参数中确定该过程的隐含参数。

然后利用这些参数来作进一步

的分析，例如模式识别。

60.简约性信息位点：

指基于DNA或蛋白质序列、利用最大简约法构建系统发育树时，在两个及以上分类单元（的序列）中存在差异，且其中至少有两种变异类型在该位点出现两次及以上，此类位点称为简约性信息位点。

61.信息位点：

由位点产生的突变数目把其中的一课树与其他树区分开的位点。

62.非信息位点：

对于最大简约法来说没有意义的点。

63.标度树：

分支长度与相邻节点对的差异程度成正比的树。

64.非标度树：

只表示亲缘关系无差异程度信息。

65.有根树：

单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其他任何节点。

66.无根树：

只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考种，可以在无根树中指派根节点。

67.注释（annotation）对数据库中原始的DNA碱基序列添加相关信息（比如编码的基因，氨基酸序列等）或其他的注解。

68.基因组注释（Genomeannotation）是利用生物信息学方法和工具，对基因组所有基因的

生物学功能进行高通量注释，是当前功能基因组学研究的一个热点。

69.虚拟细胞：

一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。

70.质谱（MS）是一种准确测定真空中离子的分子质量/电荷比（m/z）的方法，从而使分子质量

的准确确定成为可能。

71.分子途径是指一组连续起作用以达到共同目标的蛋白质。

72.先导化合物：

是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。

73.权重矩阵（序列轮廓）：

它们表示完全结构域序列，多序列联配中每个位点的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法（课件定义）。

74.系统发育学（phylogenetic）:

确定生物体间进化关系的科学分支。

75.系统生物学（systemsbiology）:

是研究一个生物系统中所有组分成分（基因、mRNA

蛋白质等）的构成以及在特定条件下这些组分间的相互关系，并分析生物系统在一定时间内

的动力学过程。

76.蛋白质组（proteome）:

是指一个基因组、一种生物或一个细胞/组织的基因组所表达

的全套蛋白质。

77.ESI电喷雾离子化：

一种适合大分子如蛋白质离子化没有明显降解的质谱技术。

78.微阵列芯片：

是指采用光导原位合成或微量点样等方法，将大量生物大分子比如核酸片

段、多肽分子甚至组织切片、细胞等生物样品有序地固化于支持物（如玻片、尼龙膜等载体）的表面，组成密集二维分子排列，然后与已标记的待测生物样品中靶分子反应，通过特定的

仪器，比如激光共聚焦扫描仪或电荷偶联摄影像机对反应信号的强度进行快速、并行、高效

地检测分析，从而判断样品中靶分子的数量。

79.有监督分析法：

这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预定义的类目中。

80.聚类分析：

指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

81.虚拟消化：

针对重要疾病特定靶标生物大分子的三维结构或定量构效关系（Quantitative

structure-activityrelationships，QSAR模型，从现有小分子数据库中，搜寻与靶标生

物大分子结合或符合QSAR模型的化合物，进行筛选实验研究。

82.无监督分析法：

这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。

83.GenBank:

是美国国家生物技术信息中心（NationalCenterforBiotechnology

Information,NCBI）建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人

员直接提供或来源于大规模基因组测序计划（Benson等，1998）。

84.EMBL:

（欧洲分子生物学实验室）（TheEuropeanMolecularBiologyLaboratory），

于1974年由欧洲14个国家加上亚洲的以色列共同发起建立，包括一个位于德国Heidelberg

的核心实验室，及三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部。

85.DDBJ:

（DNADataBankofJapan），于1984年建立，是世界三大DNA数据库之一，与

NCBI的GenBank,EMBL的EBI数据库共同组成国际DNA数据库，每日都交换更新数据和信息，并主持两个国际年会一国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。

86.BLAST:

是英语BellLabsLayeredSpace-Time的缩写，是一项新的通信技术，它采

用多天线系统利用多径传播效应以达到提高频谱利用率的目的。

87.BLASTn:

是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序

列作一对一地核酸序列比对。

88.BLASTp:

是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

88.ClustslX：

是一种利用渐近法（progressivealignment）进行多条序列比对的软件。

即从多条序列中最相似（距离最近）的两条序列开始比对，按照各个序列在进化树上的位置，由近及远的将其它序列依次加入到最终的比对结果。

89.Entrez:

是美国国家生物技术信息中心所提供的在线资源检索器。

该资源将GenBank序

列与其原始文献出处链接在一起。

Entrez是由NCBI主持的一个数据库检索系统。

90.Medline文摘数据库:

是美国国立医学图书馆（TheNationalLibraryofMedicine,简

称NLM生产的国际性综合生物医学信息书目数据库，是当前国际上最权威的生物医学文献数据库。

91.SRS（sequenceretrievalsystem）：

是欧洲生物信息研究所开发的SR（SequeneeRetrieval

System）是以WWW界面运行的数据库检索系统，其主要功能是将所有数据库建立参照（eross-referenees）索引，用户可通过输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进行检索，从而得到用户所需的序列或相关内容。

92.SWLSS—MODEL：

是一个自动化的蛋白质比较建模服务器。

93.homologymodeling：

对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以

该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型。

94.Abinitioprediction：

仅根据序列本身来预测其结构

95.molecularphylogenetictree：

又名分子进化树，是生物信息学中描述不同生物之间的相关关系的方法。

通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。

96.genetree（基因树）：

是指基于单个同源基因差异构建的系统发生树。

96.neighbor—joiningmethod:

是一种不仅仅计算两两比对距离，还对整个树的长度进行最

小化，从而对树的拓扑结构进行限制，能够克服UPGM算法要求进化速率保持恒定的缺陷。

97.maximumparsimonymethod：

在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。

98.MEGA（MolecularEvolutionaryGeneticsAnalysis）：

isanintegratedtoolforautomatieandmanualsequeneealignment,inferringphylogenetietrees,miningweb-baseddatabases,estimatingratesofmoleeularevolution,andtestingevolutionaryhypotheses.

99.BioEdit:

是一个序列编辑器与分析工具软件。

功能包括：

序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘

100.EST：

（ExpressedSequeneeTag表达序列标签一是从一个随机选择的cDNA克隆，进行5'

端和3'端单一次测序挑选出来获得的短的cDNA部分序列。

101.GSS:

基因组勘测序列，是基因组DNA克隆的一次性部分测序得到的序列。

包括随机的

基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exontrapped获得基因组序列、通过AluPCR获得的序列、以及转座子标记序列等。

102.ORF：

是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。

（P86,指从5'端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。

）

103.promoter（启动子）：

是基因（gene）的一个组成部分，控制基因表达（转录）的起始时间和表达的程度。

104.3'UTR：

3'非翻译区的缩写，真核生物的转录终止信号是在3'非翻译区的：

polyA。

105.CpGisland:

CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，

CpG呆持或高于正常概率。

106.coiledcoil:

卷曲螺旋，是蛋白质中由2~7条a螺旋链相互缠绕形成类似麻花状结构的总称。

卷曲螺旋是控制蛋白质寡聚化的元件，在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

107.heptadrepeat:

七肽重复区是典型的卷曲螺旋结构类型之一，由多个七肽单元连接而成

的重复序列。

108.structuredomain:

结构域，是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。

109.motif:

蛋白质序列中较短的保守区域，通常为按一定的模式排列的氨基酸残基也称为指纹（figureprint）。

110.linuxoperatingsystem:

linux操作系统，Linux是一类Unix计算机操作系统的统称。

Linux操作系统也是自由软件和开放源代码发展中最著名的例子。

111.BioPerl:

aninternationalassociationofusers&developersofopensourcePerltoolsforbioinformatics,genomicsandlifescience

112.PubMed:

是一个免费的生物医学文摘数据库，提供部分论文的摘要及指向全文的链接。

作为Entrez资讯检索系统的一部分。

113.HGP（humangenomeproject）：

是一项规模宏大，跨国跨学科的科学探索工程。

114.ncRNA:

非编码RNA（Non-codingRNA）是指不编码蛋白质的RNA

115.miRNA:

是一类由内源基因编码的长度约为22个核苷酸的非编码单链RNA分子，它

们在动植物中参与转录后基因表达调控。

填空题

1.常用的三种序列格式：

NBRF/PIR,FASTA和GDE

展开阅读全文