生物信息学复习题Word格式.docx
《生物信息学复习题Word格式.docx》由会员分享,可在线阅读,更多相关《生物信息学复习题Word格式.docx(31页珍藏版)》请在冰豆网上搜索。
生物信息学步入后基因组时代后,其发展方向主要有:
①各种生物基因组测序及新基因的发现;
②单核苷酸多态性(SNP)分析;
③基因组非编码区信息结构与分析;
④比较基因组学和生物进化研究;
⑤蛋白质结构和功能的研究。
3)美国国家生物技术信息中心(NCBI)的主要工作是什么?
请列举3个以上Entrez系统可以检索的数据库。
(NCBI维护的数据库)NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。
为科学界开发,维护和分享一系列的生物信息数据库;
开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。
维护的主要数据库包括
PubMed、核酸序列数据库GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。
4)序列的相似性与同源性有什么区别与联系?
SequencesimilarityandhomologyWhatisthedifferencewiththecontact?
相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;
而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。
P147
5)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?
blastn是将给定的核酸序列与核酸数据库中的序列进行比较;
Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;
Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;
Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;
Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。
P97
6)简述BLAST搜索的算法思想。
BLASTsearchalgorithmoutlinedideas.
BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;
当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;
一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。
P95
7)什么是物种的标记序列?
Whatisaspeciesmarkersequences?
指物种特有的一段核苷酸序列。
可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。
8)什么是多序列全局比对的累进算法?
(三个步骤)Whatismoreprogressivesequenceglobalalignmentalgorithm?
(Threesteps)
第一,所有的序列之间逐一比对(双重比对);
第二,生成一个系统树图,将序列按相似性大致分组;
第三,使用系统树图作为引导,产生出最终的多序列比对结果。
P52
9)简述构建进化树的步骤,每一步列举1-2种使用的软件或统计学方法。
Phylogenetictreewasconstructedoutlinedsteps,eachsteplisted1-2kindsofsoftwareorstatisticalmethods.
(1)多序列比对:
ClustalW
(2)校对比对结果:
BIOEDIT
(3)建树:
MEGA
(4)评估系统发育信号和进化树的牢固度:
自举法(Bootstrap)P114
10)简述除权配对法(UPGMA)的算法思想。
Descriptionsexpairingmethod(UPGMA)algorithmforthought.
通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。
P119
11)简述邻接法(NJ)构树的算法思想。
Descriptionadjacency(NJ)methodconfigurationtreealgorithmideas.
邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。
这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。
P117
12)简述最大简约法(MP)的算法思想。
P68Descriptionsmaximumparsimony(MP)algorithmideas
是一种基于离散特征的进化树算法。
生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。
在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。
P120
13)简述最大似然法(ML)的算法思想。
P69Descriptionsmaximumlikelihood(ML)algorithmideas
该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。
P122
14)UPGMA构树法不精确的原因是什么?
P69UPGMAmethodpapyriferaWhatisthecauseinaccurate
由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;
这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。
P119,倒数第2段,前4行。
15)在MEGA2软件中,提供了哪些碱基替换距离模型,试列举其中3种,解释其含义。
InMEGA2software,whichprovidesabasesubstitutionsdistancemodel,inwhichthreekindscitetoexplaintheirmeaning.
碱基替换模型包括,No.ofdifferences、p-distance、Jukes-Cantordistance、Tajima-Neidistance、Kimur2-parameterdistance、Tamura3-parameterdistance、Tamura-Neidistance
p-distance:
表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到
Jukes-Cantor:
模型假设ATCG的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计
Kimura2-parameter:
模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的
16)列举5项DNA序列分析的内容及代表性分析工具。
EnumeratefiveDNAsequenceanalysisofthecontentandrepresentativenessanalysistools.
(1)寻找重复元件:
RepeatMasker
(2)同源性检索确定是否存在已知基因:
BLASTn
(3)从头开始方法预测基因:
Genscan
(4)分析各种调控序列:
TRES/DRAGONPROMOTORFINDER
(5)CpG岛:
CpGPlotP130,表格
代表性工具:
ORFFinder、BLASTn、tBLASTx、BLASTx、GeneWise
17)如何用BLAST发现新基因?
HowtodiscovernewgenesusingBLAST?
答:
从一个一直蛋白质序列开始,通过tBLASTn工具搜索一个DNA数据库,可以找到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。
然后通过BLASTx或BLASTp在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因。
18)试述SCOP蛋白质分类方案ShishuSCOPproteinclassificationscheme
SCOP将PDB数据库中的蛋白质按传统分类方法分成α型、β型、α/β型、α+β型,并将多结构域蛋白、膜蛋白和细胞表面蛋白、N蛋白单独分类,一共分成7种类型,并在此基础上,按折叠类型、超家族、家族三个层次逐级分类。
对于具有不同种属来源的同源蛋白家族,SCOP数据库按照种属名称将它们分成若干子类,一直到蛋白质分子的亚基。
19)试述SWISS-PROT中的数据来源。
ShishuSWISS-PROTdatasource.
(1)从核酸数据库经过翻译推导而来;
(2)从蛋白质数据库PIR挑选出合适的数据;
(3)从科学文献中摘录;
(4)研究人员直接提交的蛋白质序列数据。
20)TrEMBL哪两个部分?
TrEMBLWhichtwoparts?
(1)SP-TrEMBL(SWISS-PROTTrEMBL)
包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。
(2)REM-TrEMBL(REMainingTrEMBL)
包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。
21)试述PSI-BLAST搜索的5个步骤。
ShishuPSI-BLASTsearchoffivesteps.
[1]选择待查序列(query)和蛋白质数据库;
[2]PSI-BLAST构建一个多序列比对,然后创建一个序列表谱(profile)又称特定位置打分矩阵(PSSM);
[3]PSSM被用作query搜索数据库
[4]PSI-BLAST估计统计学意义(Evalues)
[5]重复[3]和[4],直到没有新的序列发现。
22)列举5种常用的系统发育分析