中科院生物信息学期末考试复习题Word文档格式.docx

资源描述

中科院生物信息学期末考试复习题Word文档格式.docx

《中科院生物信息学期末考试复习题Word文档格式.docx》由会员分享，可在线阅读，更多相关《中科院生物信息学期末考试复习题Word文档格式.docx（23页珍藏版）》请在冰豆网上搜索。

中科院生物信息学期末考试复习题Word文档格式.docx

同时在发现了新基因信息之后,其还利用基因组中编码区信息进行蛋白空间结构模拟与蛋白功能预测,并将此类信息与生物体与生命过程中的生理生化信息结合,阐明其分子机制,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

2、如何利用数据库信息发现新基因,基本原理？

利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:

1）从大规模基因组测序得到的数据出发,经过基因识别发现新基因:

（利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。

但因为基因组中编码区少,所以关键就是“数据识别”问题。

）

利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定就是否为新基因。

可分为:

①基于信号,如剪切位点、序列中的启动子与终止子等。

②基于组分,即基因家族、特殊序列间比较,Complexityanalysis,NeuralNetwork

2）利用EST数据库发现新基因与新SNPs:

（归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要就是拼接问题）

数据来源于大量的序列小片段,EST较短,故关键在正确拼接。

方法有基因组序列比对、拼接、组装法等。

经常采用SiClone策略。

其主要步骤有:

构建数据库;

将序列纯化格式标准化;

从种子库中取序列与大库序列比对;

延长种子序列,至不能再延长;

放入contig库

①构建若干数据库:

总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库;

②用所用种子数据库与杂质、引物数据库及载体数据库比对,去除杂质;

③用种子与纯化的EST数据库比对

④用经过一次比对得到的长的片段与蛋白数据库、cDNA数据库比较,判断就是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸;

⑤判断就是否为全长cDNA序列。

（利用EST数据库:

原理:

当测序获得一条EST序列时,它来自哪一个基因的哪个区域就是未知的（随机的）,所以属于同一个基因的不同EST序列之间常有交叠的区域。

根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成与完整基因相对应的全长cDNA序列。

而到目前为止,公共EST数据库（dbEST）中已经收集到约800万条的人的EST序列。

估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。

3、用蛋白或核酸序列数据库研究生物演化的主要步骤就是什么？

当前的困难就是什么,如何克服？

（核酸或氨基酸序列进行进化研究要进行哪些计算步骤？

当前遇到什么问题？

怎样解决？

计算步骤,构建系统进化树,其主要步骤如下:

1）序列相似性比较。

就就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就就是找出与此序列相似的已知序列就是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有BLAST、FASTA等;

2）序列同源性分析。

就是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。

这就是理论分析方法中最关键的一步。

完成这一工作必须使用多序列比较算法。

常用的程序包有CLUSTAL等;

3）构建系统进化树。

根据序列同源性分析的结果,重建反映物种间进化关系的进化树。

为完成这一工作已发展了多种软件包,如PYLIP、MEGA等;

4）稳定性检验。

为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率（70％以上）出现的分支点才就是可靠的。

通用的方法使用Bootstrap算法。

【

（1.序列相似性比较:

就就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就就是找出与此序列相似的已知序列就是什么,完成这一工作只需要使用两两序列比较算法。

常用的序列包有BBLAST、FASTA等;

（2.序列同源性分析:

将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其她序列间的同源性大小,这就是理论分析方法中最关键的一步,完成这一工作必须使用多序列比较算法,常用的程序包有CLUSTAL等;

（3.构建系统进化树:

根据序列同源性分析的结果,重建反应物种间进化关系的进化树,为完成这一工作,已发展了多种软件包,如PYLIP、MEGA等

（4.稳定性检验:

为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率（70%以上）出现的分支点才就是可靠的。

通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。

】

当前的主要困难:

就是发现了基因的横向迁移（LGT）现象,即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。

克服LGT的方法（可能的解决途径）:

1）纵向思路:

选择垂直进化而来的序列进行研究,即去除横向迁移的数据库,如COG数据库;

2）横向思路:

发展基于完整基因组构建进化树,即使用全基因组数据库进行基因组水平上的对比;

利用生物体的蛋白质组构建进化树。

选取特征对比,不同长度的序列字符串进行对比后,对照其genome进行归一化;

ORF对比,将allpredictedORF采用COG的分类规则进行分类,再构建进化树

4、什么就是SNP？

为什么SNP的研究就是重要的？

SNP研究有哪些优点？

举出2~3个SNP相关的网站。

SNP就是指单核苷酸多态性,主要就是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性;

它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。

重要性:

因为SNP研究就是基因组领域理论成果走向应用的关键步骤,就是联系基因型与表现型之间关系的桥梁,就是研究人类基因组计划走向应用的重要步骤。

优点:

（1）SNP在基因组中分布相当广泛,使人们有机会发现与各种疾病相关的基因组突变;

（2）不直接导致疾病基因表达的SNP,与某些疾病基因相邻,成为重要标记,有助于发现疾病基因

（3）从实验操作来瞧,通过SNP发现疾病相关基因突变,比通过家系发现更加容易。

（4）基础研究中非常重要,如对Y染色体SNP分析有重要成果。

SNP的特点:

1.位点丰富

2.具有代表性

3.遗传稳定性

4.易于进行自动化,规模化分析,缩短了研究时间

SNP研究的意义:

通过大批量、高通量的SNP的发现与鉴定,人类SNP—Haplotype遗传图谱的构建,在连锁不平衡基础上的关联分析等,有望为人类致命基因的寻找与疾病的防治提供快速与有效的途径,一系列发现与检测SNP的方法,构建图谱的策略,及连锁不平衡与关联分析等技术,正在动植物研究领域中受到广泛的关注,毫无疑问将在分子与群体遗传、动植物育种与生物进化等研究领域中发挥越来越大的作用。

SNP相关的一些网站:

1）SNPConsortium'

sdatabase（）

2）NCBISNPdatabase将这些数据进行整理,去掉冗余,使每个SNP都就是唯一的。

此时的SNP被称为referenceSNP或refSNP。

（（）

3）TheHumanGenicBi-AllelicSequencesDatabase（HGBASE）这一数据库收录了人基因组中所有已知的序列变化,包括:

SNPs、序列的插入与缺失（Indels）、简单重复序列等。

（）

4）TheHumanGeneMutationDatabase（HGMD）（）

5）TheProteinMutantDatabase（PMD）,蛋白突变数据库。

收录了蛋白质特定位点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。

6）TheAlleleFrequencyDatabase（ALFRED）:

人类群体等位基因频率数据库,

5、什么就是系统生物学？

系统生物学对生命科学概念上的发展？

系统生物学对生物功能实现的理解有何本质变化？

系统生物学的研究思路就是什么？

系统生物学就是指在系统的层面上研究生命活动。

（研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系。

【系统生物学就就是自基因组研究以来,各个层次的所有资料与数据（包括基因组测序数据,功能基因组数据,蛋白质三维结构信息以及相互作用的数据等）的整合,以及这些整合数据为基础建立数学模型,再以这些模型模拟仿真研究生命活动的影响之后生命活动的反应以及变化】

包含三个相互衔接的组成（三部曲）:

整合数据,即整合所有各个层次（DNA水平,RNA水平,蛋白质水平,蛋白质相互作用水平）的信息数据;

系统建模,即用这些信息构建描绘生命活动的数学模型;

预测未知,即用这个模型预测生命未来的发展及外界干扰后系统的变异（生命活动及外界因素变化对其产生的影响）。

学术概念上的发展主要有:

传统生物学就是从基因组序列到结构,再到功能,而它从各个层次的相互作用到网络,再到功能。

与以往不同的就是,系统生物学一开始就考虑元件之间的相互作用,把整个生命活动作为网络,考虑其相互作用。

1）研究思路的变化:

传统的分子生物学研究步骤一般为:

DNA序列→蛋白结构→蛋白功能（一维）,而系统生物学就是在二维的角度研究生命科学,即:

相互作用→网络→功能,就是由一组基因产生并相互作用共同实现的。

2）瞧待生命活动本质的变化:

因为没有一个生命活动就是靠一个基因完成的,生命活动就是一组基因相互作用实现的,这种相互作用形成一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用。

因此,系统生物学不仅考虑每个基因的活动,还描述了基因间的相互作用并导致了网络的产生。

（系统生物学与传统生物学瞧待生命活动有着本质的不同:

系统生物学认为生命活动就是由一组基因及其相互作用来实现其过程的,这种相互作用形成了一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用,因此在考虑结构的过程中考虑其结构间的相互作用,一组一组地研究。

而传统的分子生物学考虑的只有结构,就是一个一个地去研究。

其对生物功能实现的理解发生了本质性变化:

它不仅考虑单个分子而且考虑其间相互作用,把整个生命活动作为一个相互作用的网络来研究其功能,基因组只就是网络中的一部分,只有通过相互作用的网络才能体现功能;

通

展开阅读全文