生物信息学复习题.docx

资源描述

生物信息学复习题.docx

《生物信息学复习题.docx》由会员分享，可在线阅读，更多相关《生物信息学复习题.docx（35页珍藏版）》请在冰豆网上搜索。

生物信息学复习题.docx

生物信息学复习题

名词解释

1..生物信息学:

是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛开展，生命科学和计算机科学相结合形成的一门新学科。

：

在一级数据库、实验数据和理论分析的根底上针对特定目标衍生而来，是对

生物学知识和信息的进一步的整理。

3.FASTA序列格式：

是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号〔>〕表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：

是GenBank数据库的根本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个局部：

第一局部包含整个记录的信息〔描述符〕；第二局部包含注释；第三局部是引文区，提供了这个记录的科学依据；第四局部是核苷酸序列本身，以“//〞结尾。

5.Entrez检索系统：

是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有的数据库多，使用方便，能够进展交叉索引等特点。

6.BLAST：

根本局部比对搜索工具，用于相似性搜索的工具，对需要进展检索的序列与数据

库中的每个序列做相似性比拟。

P94

7.查询序列〔querysequence〕：

也称被检索序列，用来在数据库中检索并进展相似性比拟

的序列。

P98

8.打分矩阵〔scoringmatrix〕：

在相似性检索中对序列两两比对的质量评估方法。

包括基于理论〔如考虑核酸和氨基酸之间的类似性〕和实际进化距离〔如PAM〕两类方法。

P29

9.空位〔gap〕：

在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最优比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P29

10.空位罚分：

空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入

不代表真正的进化事件，所以要对其进展罚分，空位罚分的多少直接影响比照的结果。

P37

11.E值：

衡量序列之间相似性是否显著的期望值。

12.低复杂度区域：

BLAST搜索的过滤选项。

指序列中包含的重复度高的区域，如poly〔A〕。

13.点矩阵〔dotmatrix〕：

构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列一样碱基的对应位置〔x，y〕加点，如果两条序列完全一样如此会形成一条主对角线，如果两条序列相似如此会出现一条或者几条直线；如果完全没有相似性如此不能连成直线。

14.多序列比对：

通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。

15.分子钟：

认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断

出物种起源的时间。

16.系统发育分析：

通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推

断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构：

指在进化树上任何一个分支节点，一个父分支都只能被分成两

个子分支。

系统发育图：

用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。

18.直系同源：

指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似

或不同的功能。

〔书：

在缺乏任何基因复制证据的情况下，具有共同祖先和一样功能的同源基因。

〕

19.旁系〔并系〕同源：

指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这

些基因在功能上可能发生了改变。

（书：

由于基因重复事件产生的相似序列。

）

20.外类群：

是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。

21.有根树：

能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法〔UPGMA〕：

最初，每个序列归为一类，然后找到距离最近的两类将其

归为一类，定义为一个节点，重复这个过程，直到所有的聚类被参加，最终产生树根。

23.邻接法〔neighbor-joiningmethod〕：

是一种不仅仅计算两两比对距离，还对整个树的长度进展最小化，从而对树的拓扑结构进展限制，能够克制UPGMA算法要求进化速率保持恒定的缺陷。

24.最大简约法〔MP〕：

在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基

酸替换的进化树。

25.最大似然法〔ML〕：

它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。

最大似然法允许采用不同的进化模型对变异进展分析评估，并在此根底上构建系统发育树。

26.一致树〔consensustree〕：

在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。

27.自举法检验〔Bootstrap〕：

放回式抽样统计法。

通过对数据集屡次重复取样，构建多个进化树，用来检查给定树的分枝可信度。

28.开放阅读框〔ORF〕：

开放阅读框是基因序列的一局部，包含一段可以编码蛋白的碱基序列。

29.密码子偏性〔codonbias〕：

氨基酸的同义密码子的使用频率与相应的同功tRNA的水

平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏性。

30.基因预测的从头分析：

依据综合利用基因的特征，如剪接位点，内含子与外显子边界调控区，预测基因组序列中包含的基因。

31.结构域〔domain〕：

保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。

一样功能的同源结构域具有序列的相似性。

32.超家族：

进化上相关，功能可能不同的一类蛋白质。

33.模体〔motif〕：

短的保守的多肽段，含有一样模体的蛋白质不一定是同源的，一般10-20

个残基。

34.序列表谱〔profile〕：

是一种特殊位点或模体序列，在多序列比拟的根底上，氨基酸的权值和空位罚分的表格。

35.PAM矩阵：

PAM指可承受突变百分率。

一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。

一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。

36.BLOSUM矩阵：

模块替代矩阵。

矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。

每个矩阵适合特定的进化距离。

例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。

37.PSI-BLAST：

位点特异性迭代比对。

是一种专门化的的比对，通过调节序列打分矩阵〔scoringmatrix〕探测远缘相关的蛋白。

38.RefSeq：

给出了对应于基因和蛋白质的索引，对应于最稳定、最被人承认的Genbank序列。

39.PDB〔ProteinDataBank〕：

PDB中收录了大量通过实验〔X射线晶体衍射，核磁共振NMR〕测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。

PDB

数据库的访问号由一个数字和三个字母组成〔如，4HHB〕，同时支持关键词搜索，还可以FASTA

程序进展搜索。

40.GenPept:

是由GenBank中的DNA序列翻译得到的蛋白质序列。

数据量很大，且随核酸序列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。

41.折叠子〔Fold〕：

在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。

42.TrEMBL：

是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列（CDS）翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。

43.MMDB（MolecularModelingDatabase）：

是〔NCBI〕所开发的生物信息数据库集成系统

Entrez的一个局部，数据库的内容包括来自于实验的生物大分子结构数据。

与PDB相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比拟工具。

44.SCOP数据库：

提供关于结构的蛋白质之间结构和进化关系的详细描述，包括蛋白

质结构数据库PDB中的所有条目。

SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：

到PDB的连接，序列，参考文献，结构的图像等。

可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类〔class〕、折叠子〔fold〕、超家族〔superfamily〕、家族〔family〕、单个PDB蛋白结构

记录。

45.PROSITE：

是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

PROSITE中涉与的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE

还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。

46.GeneOntology协会：

编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。

从3个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。

47.表谱〔PSSM〕：

指一X基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索

序列数据库。

48.蛋白质组p179：

是指一个基因组中各个基因编码产生的蛋白质的总体，即一个基因组的全部蛋白产物与其表达情况。

49.中心法如此是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成DNA的复制过程。

这是所有有细胞结构的生物所遵循的法如此。

50.一级数据库：

数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释

51.基因芯片〔genechip〕，又称DNA微阵列〔microarray〕，是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的根本原理是通过杂交检测信息。

52.序列比对：

为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

53.数据库查询〔databasequery〕：

是指对序列、结构以与各种二次数据中的注释信息进展关键词匹配查找检索。

54.数据库搜索〔databasesearch〕：

在分子生物信息学中有特定含义，它是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

55.相似性〔similarity〕：

数学上，相似性指两个图形的形状完全相似。

假如存在两个点的集，其中一个能透过放大缩小、平移或旋转等方式变成另一个，就说它们具有相似性。

56.同源性：

在进化上或个体发育上的共同来源而呈现的本质上的相似性，但其功能不一定一样。

57.同一性：

是指两序列在同一位点核苷酸或氨基酸残基完全一样的序列比例。

58.一致序列：

在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

59.HMM〔隐马尔可夫模型〕：

是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。

其难点是从可观察的参数中确定该过程的隐含参数。

然后利用这些参数来作进一步的分析，例如模式识别。

60.简约性信息位点：

指基于DNA或蛋白质序列、利用最大简约法构建系统发育树时，在两个与以上分类单元〔的序列〕中存在差异，且其中至少有两种变异类型在该位点出现两次与以上，此类位点称为简约性信息位点。

61.信息位点：

由位点产生的突变数目把其中的一课树与其他树区分开的位点。

62.非信息位点：

对于最大简约法来说没有意义的点。

63.标度树：

分支长度与相邻节点对的差异程度成正比的树。

64.非标度树：

只表示亲缘关系无差异程度信息。

65.有根树：

单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其他任何节点。

根树：

只明确节点间的关系，无进化发生方向的信息，通过引入外群或外部参考种，可以在无根树中指派根节点。

67.注释〔annotation〕对数据库中原始的DNA碱基序列添加相关信息〔比如编码的基因，氨基酸序列等〕或其他的注解。

68.基因组注释（Genomeannotation）是利用生物信息学方法和工具，对基因组所有基因的生物学功能进展高通量注释，是当前功能基因组学研究的一个热点。

69.虚拟细胞：

一种建模手段，把细胞定义为许多结构，分子，反响和物质流的集合体。

70.质谱（MS）是一种准确测定真空中离子的分子质量/电荷比（m/z）的方法，从而使分子质量的准确确定成为可能。

71.分子途径是指一组连续起作用以达到共同目标的蛋白质。

72.先导化合物：

是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。

73.权重矩阵〔序列轮廓〕：

它们表示完全结构域序列，多序列联配中每个位点的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法〔课件定义〕。

74.系统发育学〔phylogenetic〕：

确定生物体间进化关系的科学分支。

75.系统生物学〔systemsbiology〕：

是研究一个生物系统中所有组分成分〔基因、mRNA、蛋白质等〕的构成以与在特定条件下这些组分间的相互关系，并分析生物系统在一定时间内的动力学过程。

76.蛋白质组〔proteome〕：

是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。

77.ESI电喷雾离子化：

一种适合大分子如蛋白质离子化没有明显降解的质谱技术。

78.微阵列芯片：

是指采用光导原位合成或微量点样等方法，将大量生物大分子比如核酸片段、多肽分子甚至组织切片、细胞等生物样品有序地固化于支持物〔如玻片、尼龙膜等载体〕的外表，组成密集二维分子排列，然后与已标记的待测生物样品中靶分子反响，通过特定的仪器，比如激光共聚焦扫描仪或电荷偶联摄影像机对反响信号的强度进展快速、并行、高效地检测分析，从而判断样品中靶分子的数量。

79.有监视分析法：

这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预定义的类目中。

80.聚类分析：

指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

81.虚拟消化：

针对重要疾病特定靶标生物大分子的三维结构或定量构效关系〔Quantitativestructure-activityrelationships，QSAR〕模型，从现有小分子数据库中，搜寻与靶标生物大分子结合或符合QSAR模型的化合物，进展筛选实验研究。

82.无监视分析法：

这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。

83.GenBank：

是美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI）建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划（Benson等，1998）。

84.EMBL：

〔欧洲分子生物学实验室〕〔TheEuropeanMolecularBiologyLaboratory〕，于1974年由欧洲14个国家加上亚洲的以色列共同发起建立，包括一个位于德国Heidelberg的核心实验室，与三个位于德国Hamburg，法国Grenoble与英国Hinxton的研究分部。

85.DDBJ：

（DNADataBankofJapan），于1984年建立，是世界三大DNA数据库之一，与NCBI的GenBank，EMBL的EBI数据库共同组成国际DNA数据库，每日都交换更新数据和信息，并主持两个国际年会－国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是一样的。

86.BLAST：

是英语BellLabsLayeredSpace-Time的缩写，是一项新的通信技术，它采用多天线系统利用多径传播效应以达到提高频谱利用率的目的。

87.BLASTn：

是核酸序列到核酸库中的一种查询。

库中存在的每条序列都将同所查序列作一对一地核酸序列比对。

88.BLASTp：

是蛋白序列到蛋白库中的一种查询。

库中存在的每条序列将逐一地同每条所查序列作一对一的序列比对。

88.ClustslX：

是一种利用渐近法〔progressivealignment〕进展多条序列比对的软件。

即从多条序列中最相似〔距离最近〕的两条序列开始比对，按照各个序列在进化树上的位置，由近与远的将其它序列依次参加到最终的比对结果。

89.Entrez：

是美国国家生物技术信息中心所提供的在线资源检索器。

该资源将GenBank序列与其原始文献出处在一起。

Entrez是由NCBI主持的一个数据库检索系统。

90.Medline文摘数据库：

是美国国立医学图书馆（TheNationalLibraryofMedicine,简称NLM）生产的国际性综合生物医学信息书目数据库，是当前国际上最权威的生物医学文献数据库。

91.SRS（sequenceretrievalsystem）：

是欧洲生物信息研究所开发的SRS〔SequenceRetrievalSystem〕是以界面运行的数据库检索系统，其主要功能是将所有数据库建立参照（cross-references）索引，用户可通过输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进展检索，从而得到用户所需的序列或相关内容。

92.SWLSS—MODEL：

是一个自动化的蛋白质比拟建模服务器。

93.homologymodeling：

对于一个未知结构的蛋白质，找到一个结构的同源蛋白质，以该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型。

94.Abinitioprediction：

仅根据序列本身来预测其结构

95.molecularphylogenetictree：

又名分子进化树，是生物信息学中描述不同生物之间的相关关系的方法。

通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。

96.genetree〔基因树〕：

是指基于单个同源基因差异构建的系统发生树。

96.neighbor—joiningmethod：

是一种不仅仅计算两两比对距离，还对整个树的长度进展最小化，从而对树的拓扑结构进展限制，能够克制UPGMA算法要求进化速率保持恒定的缺陷。

97.maximumparsimonymethod：

在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。

98.MEGA（MolecularEvolutionaryGeneticsAnalysis）：

isanintegratedtoolforautomaticandmanualsequencealignment,inferringphylogenetictrees,miningweb-baseddatabases,estimatingratesofmolecularevolution,andtestingevolutionaryhypotheses.

99.BioEdit：

是一个序列编辑器与分析工具软件。

功能包括：

序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、根本序列处理功能、质粒图绘制等等。

100.EST：

（ExpressedSequenceTag）表达序列标签—是从一个随机选择的cDNA克隆，进展5’端和3’端单一次测序挑选出来获得的短的cDNA局部序列。

101.GSS：

基因组勘测序列，是基因组DNA克隆的一次性局部测序得到的序列。

包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exontrapped获得基因组序列、通过AluPCR获得的序列、以与转座子标记序列等。

102.ORF：

是基因序列的一局部，包含一段可以编码蛋白的碱基序列，不能被终止子打断。

〔P86，指从5‘端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。

〕

103.promoter〔启动子〕：

是基因〔gene〕的一个组成局部，控制基因表达〔转录〕的起始时间和表达的程度。

104.3’UTR：

3’非翻译区的缩写，真核生物的转录终止信号是在3’非翻译区的：

polyA。

105.CpGisland：

CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，CpG保持或高于正常概率。

106.coiledcoil：

卷曲螺旋，是蛋白质中由2~7条α螺旋链相互缠绕形成类似麻花状结构的总称。

卷曲螺旋是控制蛋白质寡聚化的元件，在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。

107.heptadrepeat：

七肽重复区是典型的卷曲螺旋结构类型之一，由多个七肽单元连接而成的重复序列。

108.structuredomain：

结构域，是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。

109.motif：

蛋白质序列中较短的保守区域，通常为按一定的模式排列的氨基酸残基

也称为指纹〔figureprint〕。

110.linuxoperatingsystem：

linux操作系统，Linux是一类Unix计算机操作系统的统称。

Linux操作系统也是自由软件和开放源代码开展中最著名的例子。

111.BioPerl：

aninternationalassociationofusers&developersofopensourcePerltoolsforbioinformatics,genomicsandlifescience

112.PubMed：

是一个免费的生物医学文摘数据库，提供局部论文的摘要与指向全文的。

作为Entrez资讯检索系统的一局部。

113.HGP（humangenomeproject）：

是一项规模宏大，跨国跨学科的科学探索工程。

114.ncRNA：

非编码RNA〔Non-codingRNA〕是指不编码蛋白质的RNA。

115.miRNA：

是一类由内源基因编码的长度约为22个核苷酸的非编码单链RNA分子，它们在动植物中参与转录后基因表达调控。

填空题

1.常用的三种序列格式：

NBRF/PIR,FASTA和GDE

2.初级序列数据库：

GenBank，EMBL和DDBJ

3.蛋白质序列数据库：

SWISS-PROT和TrEMBL

4.提供蛋白质功能注释信息的数据库：

KEGG〔京都基因和基因组百科全书〕和PIR〔蛋白质信息资源〕

5.目前由NCBI维护的大型文献资源是PubMed

6.数据库常用的数据检索工具：

Entrez，SRS，DBGET

7.常用的序列搜索方法：

FASTA和BLAST

8.高分值局部联配的BLAST参数是HSPs〔高分值片段对〕，E〔期望值〕

9.多序列联配的常用软件：

Clustal

10.蛋白质结构域家族的数据库有：

Pfam，SMART

11.系统发育学的研究方法有：

表现型分类法，遗传分类法和进化分类法

12.系统发育树的构建方法：

距离矩阵法，最大简约法和最大似然法

13.常用系统发育分析软件：

PHYLIP

14.检测系统发育树可靠性的技术：

bootstrapping和Jack-knifing

15.原核生物和真核生物基因组中的注释所涉与的问题是不同的

16.检测原核生物ORF的程序：

NCBIORFfinder

展开阅读全文