生物信息学考试题Word下载.docx
《生物信息学考试题Word下载.docx》由会员分享,可在线阅读,更多相关《生物信息学考试题Word下载.docx(21页珍藏版)》请在冰豆网上搜索。
是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
ORF:
开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。
编码一个蛋白质的外显子连接成为一个连续的ORF。
当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。
这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)ORF识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA。
序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。
相似性(similarity)/(identify):
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
生物数据库检索(databasequery,数据库查询):
对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查找.
生物数据库搜索(databasesearch):
通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列.
E值:
对某个已识别出的相似度值S,E值是分值大于等于S的期望频率,改值可以被理解为期望随机得到等于S或大于S值的分值数目。
序列比对(alignment):
为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列.
同源性(homology):
生物进化过程中源于同一祖先的分支之间的关系.
Refseq:
美国国家生物信息技术中心(NCBI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库。
3’UTR:
3’非翻译区的缩写,真核生物的转录终止信号是在3’非翻译区的:
polyA。
CpGisland:
是DNA上的一个区域,富含GC,两者以磷酸酯键相连,长度:
约几百到几千bp不等,常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG岛具有阻止序列甲基化的作用。
GSS:
基因组勘测序列,是基因组DNA克隆的一次性部分测序得到的序:
cosmid/BAC/YAC末端序列、通过Exon列。
包括随机的基因组勘测序列、trapped获得基因组序列、通过AluPCR获得的序列、以及转座子标记(序列等。
EST:
表达序列标签—是从一个随机选择的cDNA克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA部分序列,代表一个完整基因的一小部分.。
MEGA(MolecularEvolutionaryGeneticsAnalysis):
是一款免费的构树软件,:
它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度mRNA氨基酸序列及遗传距离进行系统发生分评估等全套功能,能对DNA、析以及基因分化年代的分析。
maximumparsimonymethod:
最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。
neighbor—joiningmethod:
邻接法,基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。
在重建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有效的的基于距离数据重建系统树的方法之一。
molecularphylogenetictree:
分子进化树,精确地反映物种间或群体间在进:
化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。
Domain:
功能域。
蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。
某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。
EMBL:
EMBL实验室—欧洲分子生物学实验室,EMBL数据库—是非盈利:
性学术组织EMBL建立的综合性数据库,EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ数据库中的数据进行交换,并同步更新。
BLAST:
BasicLocalAlignmentSearchTool,基本的基于局部对准的搜索工具;
一种快速查找与给定序列具有连续相同片断的序列的技术。
SRS(sequenceretrievalsystem):
序列查询系统,是EBI提供的多数据库查询:
工具之一。
有与Entrez类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。
dynamicprogramming:
动态规划程序;
它将一个问题合理分解成一些小的子问题,然后利用部分计算解得到最终答案。
MatchscoremaximumlikelihoodapproachmethylationmicroarraymicrosatelliteMIAME(theminimuminformationaboutamicroarrayexperiment)minisatellitemismatchscoremolecularclock匹配得分最大似然法:
序列比较算法对相同字符匹配设置的得分。
指在一系列的序列比对中,考虑每一个字符被替代的概率的一种系统发生学方法;
也是一种基于纯统计的系统发生重建方法。
一个甲基(—CH3)附着在一个核苷酸的含氮碱基或者蛋白质上。
在一个固体基片上的已知位置固定了DNA探针的有序阵列。
在基因组中很多非常短的核酸序列出现的区域,例如串接出现5‘-CA-3‘的重复序列;
通常在个体间变化很大。
PAMunit:
PAM单位是一种进化单位;
特别地,指被观察的对象中每100个残基发生一个替换所需要的平均进化时间。
对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除。
PubMed:
是一个免费的生物医学文摘数据库,提供部分论文的摘要及指:
向全文的链接。
作为Entrez资讯检索系统的一部分。
motif:
又称模体,实序列中局部的保守区域,或者是一组序列中共有的一小:
段序列模式。
通常由2、个二级结构单位组成,3一般为α螺旋、β折叠和环。
motif作为结构域中的亚单位,表现结构域的各种生物学功能。
tructuredomain:
结构域,是在蛋白质三级结构中介于二级和三级结构之间:
的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。
coiledcoil:
卷曲螺旋,是蛋白质中由2~7条α螺旋链相互缠绕形成类似麻花状结构的总称。
卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。
NCBI:
美国国立生物技术信息中心(NationalCenterforBiotechnologyInformation),1988年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。
提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank数据库,PubMed医学文献检索数据库等。
。
Conservedsequence:
保守序列。
演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。
Tandemrepeatsequences:
串联重复序列。
染色体上同一碱基序列的多拷贝重复,在物理作图中用作标记物。
Sequencetaggedsite:
序列示踪位点,简写为STS。
在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。
由于可以通过PCR检测到,STS在将来源于许多不同实验室的
基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。
表达的序列标签(ESTs)就是那些得自cDNAs的STSs。
Genemapping:
基因作图。
对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。
Physicalmap:
物理图谱。
不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因等)的位置图。
界标之间的距离用碱基对度量。
对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;
最高分辨率的物理图谱是染色体中完整的核苷酸序列。
UniGene:
美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同一条基因的所有片断拼接成完整的基因进行收录。
非蛋白质编码区:
非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成份或由其表达的RNA成分:
内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)短散置元、(shortinterspersedelements)长散置元、(longinterspersedelements)、伪基因(pseudogenes)等。
除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。
PAM方阵:
指的是氨基酸置换矩阵,属于打分矩阵,用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。
BLAST(BasicLocalAlignmentSearchTool):
基于局部序列排比的常用数据库搜索工具。
二级数据库:
对于原始生物分子进行整理、分类的结果。
是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的(存放从初级数据库派生而来的序列信息的数据库)
权重矩阵:
基础上针对特定的应用目标而建立的数据库。
标度树(scaledtree):
分支长度与相邻节点对的差异程度成正比的树。
rootedtree有根树:
含有一个被认为是公共祖先的节点、并且该节点到其他节点只存在唯一路径的一棵系统发生树。
无根树(unrootedtree):
只表明节点间的关系,无进化发生方向的信息,通过引用外群或外部参照物种,可以在无根树中指派跟节点。
(一种系统发育树,所有在树中的种系的最后共同祖