最新生物信息学简答题.docx

资源描述

最新生物信息学简答题.docx

《最新生物信息学简答题.docx》由会员分享，可在线阅读，更多相关《最新生物信息学简答题.docx（11页珍藏版）》请在冰豆网上搜索。

最新生物信息学简答题.docx

最新生物信息学简答题

生物信息学简答题

1.生物分子至少携带着三种信息

遗传信息功能相关的结构信息进化信息

2.生物信息学的目标和任务

收集和管理生物分子数据

数据分析和挖掘

开发分析工具和实用软件

3.生物信息学研究意义

认识生物本质

改变生物学的研究方式

在医学上的重要意义

4.生物信息学与实验生物学的关系

实验生物学（传统生物学or现代生物学）：

是实验性的；为生物信息学提供相应的数据生物信息学：

生物信息的搜集、整理、注释、管理；建立并利用生物信息学数据库；开发生物信息学软件；研究生物信息学算法

生物信息学对实验数据分析与利用的结果，为进一步合理、有效地设计实验方案，研究方向等提供有力的指导和合理的建议。

使得新的生物学研究的出发点是理论的

生物信息学分析的结果必须通过生物实验科学来进一步验证

5.生物信息学主要研究内容

1、生物分子数据的收集与管理

2、数据库搜索及序列比较

3、基因组序列分析

4、基因表达数据的分析与处理

5、蛋白质结构与功能预测

6、代谢途径分析与解析

6.生物分子数据库应满足：

（1）时间性

（2）注释（3）支撑数据（4）数据质量（5）集成性（6）非冗余性

7.一个数据库记录（entry）一般由两部分组成：

1.原始序列数据2.描述这些数据生物学信息的注释

8.FASTA格式

序列分析软件最常用的格式，包括三部分：

在注释行的第一列用字符“>”标识，后面是序列的名字和来源；

标准的单字符标记的序列；序列中没有数字或其他非字符。

可选的“*”表示序列的结束，它可能出现也可能不出现，但它是许多序列分析程序正确读取序列所必须的。

9.SWISS-PROT的三个特点：

注释、非冗余、交叉索引

（1）注释SWISS-PROT数据分为核心数据和注释两大类。

（2）最小冗余尽量将相关的数据归并，降低数据库的冗余程度。

如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。

（3）与其它数据库的连接：

对于每一个登录项，有指向其它数据库的指针

10.SWISS-PROT数据的来源：

（1）从核酸数据库经过翻译推导而来；

（2）从蛋白质数据库PIR挑选出合适的数据；

（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据

11.导致的结果：

冗余数据可能导致的潜在错误

如果一组DNA或氨基酸序列包含了大量非常相关序列族，则相应的统计分析将偏向这些族，在分析结果中，这些族的特性被夸大；

序列间不同部分的显著相关，在数据样本抽样时可能是有偏的和不正确的；

如果这些数据是被用于预测，则这些序列将使预测方法—如人工智能方法—发生偏离

12.消除误差合理利用数据库：

严格、合理地构建数据库

去除污染的序列，合理地把握数据库的非冗余和冗余的标准

合理、恰当地使用数据库

结合实验研究，合理有效利用数据库

坚持实验第一原则,实践是检验真理的唯一标准

13.Entrez系统的使用

进入NCBI主页（www.ncbi.nlm.nih），即可看到位于页面上部的数据库检索栏，其缺省检索选项为核酸序列数据库AllDatabases，应该先选择适当的数据库，然后在检索栏中输入需要查询的内容。

14.如何设计科研计划

资料查询资料汇总分析优劣寻找出路制定方案斗胆创新

15.序列比较的根本任务是：

寻找序列之间的相似性辨别序列之间的差异

16.目的：

1.相似序列：

相似的结构，相似的功能

2.判别序列之间的同源性3.推测序列之间的进化关系

17.序列比对的基本思想，

是找出检测序列和目标序列的相似性。

比对过程中需要在检测序列或目标序列中引入空位（一般用”-”来表示），以表示插入或删除（图2）来比较两个（双序列比对）或多个序列（多序列比对）,使得这些序列获得最大匹配。

18.蛋白质打分矩阵

等价矩阵

氨基酸突变代价矩阵GCM

疏水矩阵

PAM矩阵

BLOSUM矩阵

PAM矩阵

19.BLAST程序结果解读

程序名称、版本号以及文献引用出处

检索序列的名称、数据库名称；

图示主要比对结果

列出相似性值较高的序列条目，以及它们在数据库中的编号和简要说明，每个条目后面给出相似性分数值Score和期望频率值E，

以相似性分数值大小为序排列，

相似性分数越高，相似性越大；

E值则表示随机击中（匹配）其他序列的可能性，E值越大，随机匹配的可能性也越大。

最后给出检测序列和目标序列的比对结果。

20.核酸序列分析的主要任务

预测基因的编码区

分析基因表达的调控特点

21.分析的步骤

（1）找出序列中的非编码区

序列中载体污染的剔除

重复元件的发现

CpG岛

启动子位点

Poly－A位点

间质缔合区（Matrixassociationregion，MAR）

转录因子结合位点

（2）找到和鉴定基因

序列的编码区（外显子）

构建基因的外显子模型

数据库相似性搜索

与模式生物基因组的同源区比对

22.核酸序列分析应注意的问题

对真核生物序列，首先遮蔽重复序列

程序的特定生物物种适用性

程序的序列特定性（DNA或cDNA）

序列的长度

多方面的证据与验证

23.序列污染的来源

载体序列

接头和引物序列

转座子和插入序列

DNA和RNA样品污染

24.序列污染的后果

导致无意义的分析

对序列的生物显著性作出错误的判断

导致错误的叠连群拼接和ESTs分群

导致数据库的污染

25.密码子偏好性编码区特有的序列组成特征

编码区碱基频率的周期性模式

碱基在密码子不同位置的倾向性分布

密码子的使用频率

26.编码区特有的序列组成特征

编码区碱基频率的周期性模式

碱基在密码子不同位置的倾向性分布

密码子的使用频率

27.常用的方法

（1）碱基组成偏好性（basecompositionalbias）

①编码序列中密码子的3个位置上，4种碱基出现的概率有明显差别

②密码子的3个位置各有其特征碱基概率分布。

（2）密码子使用频率（codonusage）

（3）密码子偏好性（codonbias）

①氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致

②大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子

28.密码子偏好性的分析作用

⑴密码子偏好性分析可预测编码区

⑵检测DNA测序错误导致的移码突变

29.为什么预测剪接位点和编码区尚不足以揭示基因结构？

⑴编码区预测会错过短的外显子，难以可靠预测外显子内含子边界

⑵剪接位点预测可能会产生大量假阳性位点

⑶必须综合考虑功能性位点和编码区及非编码区的全局特征

30.核酸序列的物理性质分析：

基本理化性质、统计信息

限制性内切酶位点

碱基组成、GC含量

稳定性、解链温度

31.蛋白质数据库都具备三种功能

⑴数据的注释（annotation）

所有提交到数据库的数据都要由作者或数据库管理人员进行注释方能发布；

⑵数据的检索（search）

数据经注释之后，访问者可以通过数据库网页上提供的搜索引擎进行搜索，找到自己所需的蛋白质信息；

⑶数据的生物信息分析（analysis）

访问者一旦找到感兴趣的蛋白质，就可以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进行预测，如预测蛋白质的理化性质,预测蛋白质的二级结构，多重序列比对等等。

32.蛋白质序列分析及结构预测策略

⑴实验数据

——蛋白质序列

⑵理化特性分析

——跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等

⑶数据库搜索

——多序列比对、结构域搜索

⑷二级结构预测

——如有PDB中同源体

——蛋白质折叠识别

——折叠家族分析

——序列与结构比对

——比较建模

⑸三级结构预测

⑹三维蛋白模型

33.序列特征的初步分析

理化特性的预测

修饰位点的预测

是否为跨膜蛋白或片段

是否包含螺旋卷曲结构

是否还有低复杂度序列等等

34.折叠子分析和二级结构组分比对分析的几个方面

①存在极多相似序列时，看其是否具有相似功能

②弱相似时，只有结构相似，而无序列同源，预测可能的功能域，及与已知折叠子内部的核心二级结构的相似区域。

③如果不存在以上情况，只能考虑其中是否含有与已知折叠子中核心结构元件以外的其它区域相似的区域

35.蛋白质的结构预测

理化特性分析

蛋白质的鉴定

二级结构预测

几种重要结构分析

36.根据序列预测功能的一般过程

①根据序列预测蛋白质功能的唯一方法是通过数据库搜寻，比较该蛋白是否与已知功能的蛋白质相似。

②比较未知蛋白序列与已知蛋白质序列的相似性；

③查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。

37.结构簇分类

（1）全α型:

三级结构主要是由α螺旋束组成

（2）全β型:

这里指的是蛋白质中所有的链全是β折叠。

折叠可以是反向平行,或者是平行的

（3）α+β型:

其α螺旋区与β折叠区相对分离

（4）α/β型:

大量β-α-β结构单元组成,β折叠之间相互平行,而α螺旋和β折叠之间呈一种连续的状态

38.三级结构预测的方法

1）同源建模：

先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴，再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。

2）折叠识别

3）从头预测：

是一种理想方法、是蛋白质预测的终极目标

39.SCOP蛋白质结构分类

折叠子（fold）——主要是结构相似

超家族（superfamily）——可能具有相同的进化起源

家族（Family）——进化关系清楚的蛋白质类群

40.基因突变

1、核苷酸替代、插入/缺失、重组

2、基因转换

41.DNA序列突变对氨基酸序列的影响

同义（沉默）替代：

仍然为同义密码子的核苷酸替代

非同义替代：

导致产生非同义密码子的核苷酸替代

无义突变：

导致产生终止密码子的核苷酸突变

42.构造系统发育树的主要方法

距离法根据每对物种之间的距离直接计算得到。

所生成的树的质量取决于距离尺度的质量

简约法通过寻求物种间最小的变更数来完成的

似然法通过标准的统计推断建立系统发育的概率模型

其它方法：

神经网络方法、Hadamard结合法……

43.构建系统发育树的主要过程

数据收集，多序列比对

建树

评估系统发育信号和进化树的健壮性

展开阅读全文