ImageVerifierCode 换一换
格式:DOCX , 页数:21 ,大小:57.65KB ,
资源ID:8187363      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8187363.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(生物信息学考试题.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

生物信息学考试题.docx

1、生物信息学考试题生物信息学bioinformatics一、名词解释Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。Entrez :是由 NCBI 主持的一个数据库检索系统,它包 括核酸,蛋白以及 Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。因此, 可以从一个 DNA

2、 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻 (neighboring)信息,给出与查询条目接近的信息。 Entrez 中的数据库包括: Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDBPSI-BLAST:是一种迭代的搜索方法,可以提高 BLAST 和 FASTA 的相似序列发现率。ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能 被终止子打断。编码一个蛋白质的外显子连接成为一个连续的 ORF。当一个新基因被识别, 其 DNA 序列被解读,人们仍旧无法搞清

3、相应的蛋白序列是什么。这是因为在没有其它信息 的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码 子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA 。 序列而其内部不包含启动子或终止子, 符合这些条件的序列有可能对应一个真正的单一的基 因产物。 ORF 的识别是证明一个新的 DNA 序列为特定的蛋白质编码基因的部分或全部的先 决条件。相似性 (similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。生物数据库检索(database qu

4、ery,数据库查询):对序列,结构以及各种二次数据库 中的注释信息进行关键词匹配查找.生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白 质序列数据库中与待检序列具有一定程度相似性的序列. E 值:对某个已识别出的相似度值 S,E 值是分值大于等于 S 的期望频率,改值可以被 理解为期望随机得到等于 S 或大于 S 值的分值数目。 序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们 按照一定的规律排列.同源性(homology):生物进化过程中源于同一祖先的分支之间的关系.Refseq:美国国家生物信息技术中心(NC

5、BI)提供了具有生物意义上的非冗余的基因和蛋白质序列的RefSeq参考序列数据库 。3UTR:3非翻译区的缩写,真核生物的转录终止信号是在 3非翻译区的 : polyA。CpG island:是 DNA 上的一个区域,富含 GC,两者以磷酸酯键相连,长度 : 约几百到几千 bp 不等,常出现在管家基因或频繁表达的基因的启动子附近, 在这些部位,CpG 岛具有阻止序列甲基化的作用。GSS:基因组勘测序列,是基因组 DNA 克隆的一次性部分测序得到的序 :cosmid/BAC/YAC 末端序列、 通过 Exon 列。包括随机的基因组勘测序列、 trapped 获得基因组序列、 通过 Alu PCR

6、 获得的序列、以及转座子标记(序 列等。EST:表达序列标签是从一个随机选择的 cDNA 克隆,进行 5端和 3 端单一次测序挑选出来获得的短的 cDNA 部分序列,代表一个完整基因 的一小部分.。MEGA(Molecular Evolutionary Genetics Analysis):是一款免费的构树软件, : 它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度 mRNA 氨基酸序列及遗传距离进行系统发生分 评估等全套功能, 能对 DNA、 析以及基因分化年代的分析。maximum parsimony method:最大简约法基于进化过程中所需核苷酸(或 氨基酸)替代数目

7、最少的假说,对所有可能正确的拓扑结构进行计算并挑选 出所需替代数最小的拓扑结构作为最优系统树。neighborjoining method:邻接法,基于最小进化原理经常被使用的一种算 法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重 建系统发生树时,认为在进化分子上,发生趋异的次数可以不同,它是最有 效的的基于距离数据重建系统树的方法之一。molecular phylogenetic tree:分子进化树,精确地反映物种间或群体间在进 : 化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化 年代能定量地估计出物种间或群体间的分化年代。Domain :功能域。蛋

8、白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能 域组合其起来决定着该蛋白质的全部功能。 EMBL:EMBL 实验室欧洲分子生物学实验室,EMBL 数据库是非盈利 : 性学术组织 EMBL 建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的 核酸序列数据库,它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数 据进行交换,并同步更新。BLAST :Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列 具有连续相同片断的序列的技术。SRS(sequence retrieval system

9、):序列查询系统,是 EBI 提供的多数据库查询 : 工具之一。有与 Entrez 类似的功能外,还提供了一系列的序列分析工具,可 以直接进行在线序列分析处理。 dynamic programming:动态规划程序;它将一个问题合理分解成一些小的子问题,然后利用部 分计算解得到最终答案。Match score maximum likelihood approach methylation microarray microsatellite MIAME(the minimum information about a microarray experiment) minisatellite mis

10、match score molecular clock匹配得分最大似然法:序列比较算法对相同字符匹配设置的得分。 指在一系列的序列比对中,考虑每一个字符被替代的概率的一种 系统发生学方法;也是一种基于纯统计的系统发生重建方法。 一个甲基 ( CH 3 ) 附着在一个核苷酸的 含氮碱基或者蛋白质 上。 在一个固体基片上的已知位置固定了 DNA 探针的有序阵列。 在基因组中很多非常短的核酸序列出现的区域,例如串接出现 5 -CA-3 的重复序列;通常在个体间变化很大。PAM unit:PAM 单位是一种进化单位;特别地,指被观察的对象中每 100 个残基发生一 个替换所需要的平均进化时间。 对两条

11、序列进行编辑操作,通过字符匹配和替换,或者插入和删除。 PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指 : 向全文的链接。作为 Entrez 资讯检索系统的一部分。motif:又称模体,实序列中局部的保守区域,或者是一组序列中共有的一小 : 段序列模式。 通常由 2、 个二级结构单位组成, 3 一般为螺旋、 折叠和环。 motif 作为结构域中的亚单位,表现结构域的各种生物学功能。tructure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间 : 的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维 结构,可以独立存在或折叠,但结构域与结

12、构域之间关系较为松散。coiled coil:卷曲螺旋,是蛋白质中由 27 条螺旋链相互缠绕形成类似麻花 状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子 识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。NCBI :美国国立生物技术信息中心(National Center for Biotechnology Information),1988 年设立,为 美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务, 如世界三大核酸数据库之一的 GenBank 数据库,PubMed 医学文献检索数据库等。Conserved seque

13、nce :保守序列。演化过程中基本上不变的 DNA 中的碱基序列或蛋白质中的氨基酸序列。Tandem repeat sequences:串联重复序列。染色体上同一碱基序列的多拷贝重复,在物理作图中用作标记物。Sequence tagged site:序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。Gene mapping

14、:基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。Physical map :物理图谱。不考虑遗传,DNA 中可识别的界标(如限制性酶切位点和基因等)的位置图。 界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高 分辨率的物理图谱是染色体中完整的核苷酸序列。UniGene : 美国国家生物技术信息中心提供的公用数据库, 该数据库将 GenBank 中属于同一条基因的所有 片断拼接成完整的基因进行收录。非蛋白质编码区 :非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对 生命过程富有活力

15、的不同类型的 DNA 的复合体,它们至少包括以下类型的 DNA 成份或由其表达的 RNA 成 分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核 RNA (hmRNA) 短散置元 、(short interspersed elements) 长散置元 、(long interspersed elements) 、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。PAM方阵:指的是氨基酸置换矩阵,属于打分矩阵,用序列相似的一组蛋白质的对位排列

16、来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。BLAST(Basic Local Alignment Search Tool):基于局部序列排比的常用数据库搜索工具。二级数据库:对于原始生物分子进行整理、分类的结果。是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的(存放从初级数据库派生而来的序列信息的数据库)权重矩阵:基础上针对特定的应用目标而建立的数据库。标度树(scaled tree):分支长度与相邻节点对的差异程度成正比的树。rooted tree有根树:含有一个被认为是公共祖先的节点、 并且该节点到其他节点只存在 唯一路径的一棵系统发生树。无根树

17、(unrooted tree):只表明节点间的关系,无进化发生方向的信息,通过引用外群或外部参照物种,可以在无根树中指派跟节点。(一种系统发育树,所有在树中的种系的最后共同祖先不显示。)信息位点:由位点产生的突变数目把其中的一颗树与其他树区分开的位点。在这个位点上至少有两种不同的核苷酸,且这些核苷酸至少出现两次。HMM(隐式马尔科夫模型):一种统计模型,它考虑有关匹配,错配和间隔的所有可能的组合来产生一组序列排列。距离法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。其次基于这个矩阵中的进化距离关系构建进化树。近邻:任意一颗无根树

18、中仅被一个内部节点分隔的一对物种。序列注释:是指从原始序列数据中获得有用的生物学信息。这主要是指基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。系统发育学(phylogenetic):确定生物体间进化关系的科学分支。系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程。分子途径:指一组连续起作用以到共同目标的蛋白质。折叠识别法:寻找与已知蛋白最合适的模板,进行结构和序列比对,最终建立机构模型。又称为线索化方法。(另一版本:先

19、假设一个特定的蛋白构象,然后对这一构象进行评估的过程。)蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。虚拟筛选:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(Quantitative structure-activity relationships,QSAR)模型,从现有小分子数据库中,搜寻与靶标生物大分子结合或符合QSAR模型的化合物,进行筛选实验研究。1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。3、同

20、源性(homology):生物进化过程中源于同一祖先的分支之间的关系。4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。简答1、计算生物学/生物信息学的主要理论方法?基于数据挖掘(知识发现

21、)的方法(Data-mining, Knowledge Discovery)Extracts the hidden patterns from huge quantities of experimental data, and forms hypotheses as a result.基于模拟分析的方法(Simulation-based Analysis)Tests hypotheses with in silicon experiments, providing predictions to be tested by in vitro and in vivo studies. FASTA 序

22、列格式: 第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码, 接着是注释(在同一行) ,通常注释要以“|”符号相隔,第一行没有长度限制。值得注 意的是 FASTA 文件允许以小写字母表示氨基酸。文件扩展名为“.fasta 。 .fasta” .fasta NBIR/PIR 序列格式: NBIR/PIR 序列格式: 第一行以“”开头,后面紧跟两字母编码(P1 代表蛋白质序列, P1 ,再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短, N1 代表核酸) 没有长度限制。 接下来是序列本身, “*” 以 号终止。 文件的扩展名为 .pir “.pir .pir”或 .seq

23、“.seq .seq”。 序列格式: ,文件扩展名为“.gde 。 .gde” GDE 序列格式: 与 FASTA 的格式基本相同,但行首为“%” .gde ) 2、什么是 in-vivo、in-vitro、in-silico?在体内,在体外,在电脑上运行计算3、试画图并说明什么是局部与全局的对位排列?全局对位排列: 对全长序列进行对位排列,试图使尽可能多的字符在同一列中匹配,适用于相似度较高且长度相近的序列。自己画图吧,你们懂的。局部对位排列:对序列的局部区域进行对位排列,4、画图并标注说明EST分析获得全长cDNA序列的一般过程?二、问答1、序列比对(alignment)是如何实现的?通过

24、插入间隔(gap)的方法使不同长度的序列对齐(长度一致);优化的序列排列应使间隔的数目达到最小,同时使相似性区域的长度达到最大2、序列分析可以用来做什么?核酸:序列相似性,调控位点,转录起始、转录终止位点,翻译起始、密码子,终止位点,外显子,内含子(可变剪切位点),酶切位点,RNAi;蛋白质:序列相似性,结构域,亚细胞定位,表达谱(也可以是核酸分析内容)对于编码序列的分析:遗传密码-20种氨基酸及密码偏好、转录起始终止;5-URT和3-UTR;酶切位点;亚细胞定位分析;二级结构和结构域分析,以及根据结构域和蛋白家族预测蛋白的功能;表达谱分析 对于表达调控信息的分析:基因在染色体上的定位;翻译起

25、始位点、剪切位点转录调控元件(原核、真核);甲基化修饰位点(CpG island)、miRNA基因-表观遗传学一、正向酵母双杂交 酵母双杂交系统由Fields 和Song 首先提出,主要应用于研究蛋白质之间的相互作用,它的建立得益于对真核生物转录起始过程的认识。 GAL4蛋白即是一种典型的转录因子。GAL4的DNA结合结构域 (binding domain, BD) 靠近羧基端,含有几个锌指结构,结合酵母半乳糖苷酶的上游激活位点(UAS)。 而GAL4的转录激活结构域 (activation domain, AD) 可与RNA 聚合酶或转录因子TFIID相互作用,提高RNA 聚合酶的活性。 单

26、独的BD或AD,都不足以激活转录,必须两者的结合才行。 二个结构域可在其连接区适当部位打开,仍具有各自的功能,而且可重建发挥转录激活作用。 如果X蛋白与BD融合形成“诱饵” (bait)蛋白、Y蛋白与AD融合形成“猎物” (prey)蛋白后,能形成转录激活复合物激活转录因子并激活报告基因的表达,就可证明X蛋白和Y蛋白之间存在相互作用。 双杂交系统的另一个重要的元件是报道株。报道株指经改造的、含报道基因的重组质粒的宿主细胞。最常用的是酵母细胞,酵母细胞作为报道株的酵母双杂交系统具有许多优点: 易于转化、便于回收扩增质粒; 具有可直接进行选择的标记基因和特征性报道基因; 酵母的内源性蛋白来源于哺乳

27、动物的蛋白结合。 -半乳糖苷酶LacZ作为报道基因,并且在该基因的上游调控区引入受Gal4蛋白调控的GAL1序列。这个改造过的LacZ基因被整合到酵母染色体URA3位点上。而酵母的GAL4基因和GAL80基因(Gal80是Gal4的负调控因子)需缺失,从而排除了细胞内源调控因子的影响。酵母双杂交系统的优点 采用高拷贝和强启动子的表达载体使杂合蛋白过量表达,且避免蛋白质纯化过程; 检测在活细胞内进行,体现真核细胞内真实情况; 可检测存在于蛋白质之间的微弱的或暂时的相互作用; 可采用不同组织、器官、细胞类型和分化时期材料构建cDNA文库; 易于转化、便于回收扩增质粒; 具有可直接进行选择的标记基因

28、和特征性报道基因; 酵母的内源性蛋白不易同来源于哺乳动物的蛋白结合。酵母双杂交系统的局限性只能检测定位于细胞核内的蛋白质间相互作用“假阳性” :某些蛋白本身具有激活转录功能融合蛋白会影响蛋白的真实结构和功能“假阴性”:不利于核外蛋白研究 酵母有a接合型和接合型,这两种单倍体之间接合(mating)能形成二倍体,但相同接合型之间不能接合形成二倍体。根据酵母有性生殖的这一特点,将文库质粒转化接合型酵母细胞,“诱饵”表达载体转化a接合型细胞。然后分别铺筛选平板使细胞长成菌苔(lawn),再将两种菌苔复印到同一个三重筛选平板上,原则上只有诱饵和靶蛋白发生了相互作用的二倍体细胞才能在此平板上生长。单倍体

29、细胞或虽然是二倍体细胞但DB融合蛋白和AD融合蛋白不相互作用的都被淘汰。长出来的克隆进一步通过-半乳糖苷酶活力进行鉴定。 二、反向酵母双杂交 构建一种反向筛选的报告基因,蛋白质间相互作用激活报告基因表达,使细胞不能存活。 关键是报道基因URA3,它编码的酶是尿嘧啶合成的关键酶。该酶能把5-氟乳清酸(5-FOA)转化成对细胞有毒的物质。改造的酵母菌株在缺乏尿嘧啶的选择性培养基上,只有当“诱饵”和“猎物”相互作用激活URA3基因的表达才能生长。在含有5-FOA的完全培养基上“诱饵”和“猎物”的相互作用则抑制细胞的生长。三、SOS招募系统 (细胞质中的双杂系统)四、泛素系统泛素系统优点转录因子容易进

30、入核内;报道蛋白可以是酶,可通过分析酶活性分析蛋白质间相互作用一、免疫共沉淀技术原理 细胞裂解后在非变性条件下制备总蛋白提取物。以一种蛋白的抗体(结合于固相亲和介质)特异地免疫沉淀这种蛋白,然后用第二种蛋白或更多种蛋白的抗体做免疫印迹,检测它们是否被第一种蛋白共沉淀。1、分子生物学的三大核心数据库是什么?它们各有何特点?GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;2、简述生物信息学的发生和发展。20世纪50年代,生物信息学开始孕育;20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来;20世纪70年代,生物信息学的真正开端;

31、20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方;20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库;20世纪90年代后,HGP促进生物信息学的迅速发展。3、生物信息学的主要方法和技术是什么?数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术4、常见的DNA测序方法有哪些?各有何技术特点和优缺点?Maxam-Gilbert DNA化学降解法 Sanger双脱氧链终止法 焦磷酸测序:优点:可测完全未知序列及CG富

32、含区;简便,可测较长片段; 廉价、高通量;缺点:操作繁琐; 需已知部分序列或加接头; 一次测序片段短5、分子生物学数据库有哪些类型?各有何特点?基因组数据库:基因组测序 核酸序列数据库:核酸序列测定一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结构数据库:X-衍射和核磁共振特点:数量少,容量大,更新快二次数据库:上述四类数据库和文献资料为基础构建特点:数量多,容量小,更新慢6、简述NCBI Entrez系统的功能。高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。7、简述NCBI BLAST的功能和种类。序列相似性比对工具;对核酸:普通blastn,对高度相似序列megablast;对蛋白质:普通blastp,对保

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1