生物信息学复习题.docx-资源下载

生物信息学复习题.docx

1、生物信息学复习题生物信息学复习题二、问答题1）生物信息学的发展经历了哪几个阶段 Bioinformatics has gone through What are the stages答：生物信息学的发展经历了3个阶段。第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作；第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。2）生物信息学步入后基因组时代后，其发展方向有哪几个方面。Bio

2、informatics into the post-genomic era, its development direction which aspects答：生物信息学步入后基因组时代后，其发展方向主要有：各种生物基因组测序及新基因的发现；单核苷酸多态性（SNP）分析；基因组非编码区信息结构与分析；比较基因组学和生物进化研究；蛋白质结构和功能的研究。3）美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举3个以上Entrez系统可以检索的数据库。（NCBI维护的数据库）NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物，医学问题。为科学界开发，维护和分享一系列的生

3、物信息数据库；开发和促进生物信息学数据库，数据的储存，交换以及生物学命名规则的标准化。维护的主要数据库包括答：PubMed、核酸序列数据库GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。4）序列的相似性与同源性有什么区别与联系？Sequence similarity and homology What is the difference with the contact?答：相似性是指序列之间相关的一种量度，两序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物种具有共同的祖先，强调进化上的亲缘关系。P1475）BLAST套件的blastn、blastp、bl

4、astx、tblastn和tblastx子工具的用途什么？答：blastn是将给定的核酸序列与核酸数据库中的序列进行比较；Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较，可以寻找较远的关系；Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对，对分析新序列和EST很有用；Tblastn将给定的氨基酸序列与核酸数据库中的序列（双链）按不同的阅读框进行比对，对于寻找数据库中序列没有标注的新编码区很有用；Tblastx只在特殊情况下使用，它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列，然后进行蛋白质序列比对。P976

5、）简述BLAST搜索的算法思想。BLAST search algorithm outlined ideas.答：BLAST是一种局部最优比对搜索算法，将所查询的序列打断成许多小序列片段，然后小序列逐步与数据库中的序列进行比对，这些小片段被叫做字”word”；当一定长度的的字（W）与检索序列的比对达到一个指定的最低分（T）后，初始比对就结束了；一个序列的匹配度由各部分匹配分数的总和决定，获得高分的序列叫做高分匹配片段（HSP），程序将最好的HSP双向扩展进行比对，直到序列结束或者不再具有生物学显著性，最后所得到的序列是那些在整体上具有最高分的序列，即，最高分匹配片段（MSP），这样，BLAST

6、既保持了整体的运算速度，也维持了比对的精度。P957）什么是物种的标记序列？What is a species marker sequences?答：指物种特有的一段核苷酸序列。可以通过相似性查询，得到某一序列在数据库中的某一物种中反复出现，且在其他物种中没有的明显相似的序列。8）什么是多序列全局比对的累进算法？（三个步骤）What is more progressive sequence global alignment algorithm? (Three steps)答：第一，所有的序列之间逐一比对（双重比对）；第二，生成一个系统树图，将序列按相似性大致分组；第三，使用系统树图作为引导，产

7、生出最终的多序列比对结果。P529）简述构建进化树的步骤，每一步列举1-2种使用的软件或统计学方法。Phylogenetic tree was constructed outlined steps, each step listed 1-2 kinds of software or statistical methods.答：（1）多序列比对：Clustal W （2）校对比对结果：BIOEDIT（3）建树：MEGA（4）评估系统发育信号和进化树的牢固度：自举法（Bootstrap）P11410）简述除权配对法（UPGMA）的算法思想。Descriptions ex pairing metho

8、d (UPGMA) algorithm for thought.答：通过两两比对聚类的方法进行，在开始时，每个序列分为一类，分别作为一个树枝的生长点，然后将最近的两序列合并，从而定义出一个节点，将这个过程不断的重复，直到所有的序列都被加入，最后得到一棵进化树。P11911）简述邻接法（NJ）构树的算法思想。Description adjacency (NJ) method configuration tree algorithm ideas.答：邻接法的思想不仅仅计算最小两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制。这种算法由一棵星状树开始，所有的物种都从一个中心节点出

9、发，然后通过计算最小分支长度的和相继寻找到近邻的两个序列，每一轮过程中考虑所有可能的序列对，把能使树的整个分支长度最小的序列对一组，从而产生新的距离矩阵，直到寻找所有的近邻序列。P11712）简述最大简约法（MP）的算法思想。P68Descriptions maximum parsimony (MP) algorithm ideas答：是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则，所需变异次数最少（演化步数最少）的演化树可能为最符合自然情况的系统树。在具体的操作中，分为非加权最大简约分析（或称为同等加权）和加权最大简约分析，后者是根据性状本身的演化规律（比如DNA不同位点进化速率

10、不同）而对其进行不同的加权处理。P12013）简述最大似然法（ML）的算法思想。P69Descriptions maximum likelihood (ML) algorithm ideas答：是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型，然后对所有可能的进化树进行评估，通过对每个进化位点的替代分配一个概率，最后找出概率最大的进化树。P12214）UPGMA构树法不精确的原因是什么？P69UPGMA method papyrifera What is the cause inaccurate答：由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一

11、个分子钟；这种算法当所构建的进化树的序列进化速率明显不一致时，得到的进化树相对来说不准确的。P119,倒数第2段，前4行。15) 在MEGA2软件中，提供了哪些碱基替换距离模型，试列举其中3种，解释其含义。In MEGA2 software, which provides a base substitutions distance model, in which three kinds cite to explain their meaning.答：碱基替换模型包括，No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei

12、distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distance：表示有差异的核苷酸位点在序列中所占比例，将有差异的核苷酸位点数除已经比对的总位点数就可以得到Jukes-Cantor：模型假设 A T C G 的替换速率是一致的，然后给出两个序列核苷酸替换数的最大似然估计Kimura 2-parameter：模型考虑到了转换很颠换队多重击中的影响，但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的16）列举5项DNA序列分析的内容及代表性分析工具

13、。Enumerate five DNA sequence analysis of the content and representativeness analysis tools.答：（1）寻找重复元件：RepeatMasker （2）同源性检索确定是否存在已知基因：BLASTn （3）从头开始方法预测基因：Genscan （4）分析各种调控序列：TRES/DRAGON PROMOTOR FINDER (5) CpG岛：CpGPlot P130，表格代表性工具：ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise 17）如何用BLAST发现新基因？How to

14、 discover new genes using BLAST? 答：从一个一直蛋白质序列开始，通过tBLASTn工具搜索一个DNA数据库，可以找到相应的匹配，如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTx或BLASTp在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因。18）试述SCOP蛋白质分类方案Shishu SCOP protein classification scheme答：SCOP将PDB数据库中的蛋白质按传统分类方法分成型、型、/型、+型，并将多结构域蛋白、膜蛋白和细胞表面蛋白、N蛋白单独分类，一共分成7种类型，并在此基础上，按

15、折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族，SCOP数据库按照种属名称将它们分成若干子类，一直到蛋白质分子的亚基。19）试述SWISS-PROT中的数据来源。Shishu SWISS-PROT data source.答：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据。20）TrEMBL哪两个部分？ TrEMBL Which two parts?答：（1）SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据，所有的SP-

16、TrEMBL序列都已被赋予SWISS-PROT的登录号。（2）REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。21）试述PSI-BLAST 搜索的5个步骤。Shishu PSI-BLAST search of five steps.答：1 选择待查序列（query）和蛋白质数据库；2 PSI-BLAST 构建一个多序列比对，然后创建一个序列表谱（profile）又称特定位置打分矩阵（PSSM）；3 PSSM被用作 query搜索数据库4 PSI-BLAST 估计统计学意义 (E values)5 重复 3 和 4 , 直到没有新的序列发现。22）列举5种常用的系统发育分析

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？