中国药科大学药物生物信息学课程复习题.docx

资源描述

中国药科大学药物生物信息学课程复习题.docx

《中国药科大学药物生物信息学课程复习题.docx》由会员分享，可在线阅读，更多相关《中国药科大学药物生物信息学课程复习题.docx（16页珍藏版）》请在冰豆网上搜索。

中国药科大学药物生物信息学课程复习题.docx

中国药科大学药物生物信息学课程复习题

生物信息学课程习题

第一章绪论

一、填空

1、在1990年，美国国会批准启动人类基因组计划，拟用15年时间测定人类全部条染色体上共3.2乘以10的9次方个碱基序列的测定。

2、DNA是遗传信息的携带者。

3、蛋白质三维结构测定主要方法有X射线晶体结构分析和多维核磁共振波谱分析。

4、理想的抗生素靶标应为微生物细胞存活所必须，在病原体中高度保守，且在人体中不存在或与人类基因有根本差异。

5、下图例举了一个计算机辅助药物设计的实例，从a图中我们得到了配体上R基团附近的受体上有谷氨酸119和谷氨酸227残基，具有酸性性，因此可以将R基团设计为碱性基团，如图b中所示的胍基基团，使得抑制活性比改造前提高了近5000倍。

二、名词

HGP（humangenomeproject），EST（expressedsequencetag）,SNP（singlenucleotidepolymorphism）,生物信息学（Bioinformatics），药物基因组学（Pharmacogenomics），intron，“JunkDNA”，

比较基因组学，比较基因组学（ComparativeGenomics）是基于基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达机理和物种进化的学科。

蛋白质组学，分子进化树（evolutionarytree），基因组，

基因组药物：

基因组药物（Genomicdrug）是指利用基因序列数据，经生物信息学分析、高通过基因表达、高通量功能筛选和体内外药效研究开发得到的新药候选物．

三、简答

1、简述生物信息学在药物研究开发领域的应用可体现在哪些方面？

一初始阶段信息收集，初步调研（确定合适的药物作用靶）可行性分析（靶点结构、化合物信息）

二药物设计

三开发阶段，减少药物副作用，避免开发风险

2、如何利用基因组信息寻找新的药物作用靶标？

A基因组比较

B同源性搜索

C表达差异分析

3、如何利用人类基因组信息实现个性化治疗，其基于的原理是什么？

4、试叙述基因芯片用于疾病诊断的原理，并说明其优缺点。

优点：

速度快信息量大，灵敏度高，微型化，操作方法简单，结果易于判读

缺点：

准确度和普及型有待加强

5、最近甲型流感流行，请设计甲型流感的分子诊断方法，说明其原理。

A基因诊断

B利用抗原-抗体反应

第二、三章数据库

一、单选题

1、以下数据库不能用于检索核酸序列的是（B）

A.GenBankB.PDBC.EMBLD.DDBJ

2、蛋白质结构数据常保存为下面哪一种格式为后缀的文件（A）

A.PDBB.txtC.SeqD.mdb

3、下列格式属于FASTA格式的是（A）

A.>seq1B.ATGCCATA

ATGCCATAATGCCATA

二、填空题

1、阅读以下数据格式，写出以下标注的含义：

LOCUS是序列名称，DEFINITION是序列定义，

ACCESSION是数据库编号，VERSION是版本号，SOURCE是来源

在论文中使用了NCBI数据库中的该序列，应标注该序列的编号，应填NG_007114。

2、阅读以下Prosite中结构基序的示例，说明其中各符号含义：

－连字符用来分离序列基序中的每个位点。

[]每个方括号中的残基代表序列基序中某一特殊位置允许出现的残基。

{}大括号中的符号代表序列基序中特定位置不允许出现的残基。

X表示二十个氨基酸中的任何一个。

（n）代表某特定残基的重复数。

3、下面是NCBI中SARS病毒的基因组，请根据以下图说明SARS基因组有13个基因，编码14个蛋白。

4、检索蛋白质序列可使用哪个数据库，试举两例SWISS-PROT、PIR。

5、检索蛋白质结构常使用PDB数据库。

6、根据以下检索结果说明该蛋白质结构在PDB数据库中的编号为1buy，其结构测定方法为NMR。

三、名词

一级数据库，二级数据库，Genbank，UniGene，PDB，MMDB格式，EMBL，NCBI，结构浏览器，Rasmal，swiss-pdbviewer，Swiss-model，Prints数据库，Prosite数据库，BankIt，Cn3D，PIR数据库，SCOP数据库，CATH数据库

第四章生物信息检索

一、填空题

1、请例举两个常用的搜索引擎google、XX。

2、如果要搜索一个词组，如把人类基因组作为一个词组，搜索相关信息，应在搜索引擎的搜索栏中填入“人类基因组”。

3、写出以下pubmed检索时常用的限制字段的含义：

[au]作者

[ti]标题、[dp]发表日期、[affiliation]地址、*截字符

二、名词

Pubmed，Espacenet，USPTO

第五章序列比对

一、选择题

1、进行多序列比对常使用哪种软件（C）

A.DockB.ComputepI/MWC.ClustalD.Rasmol

2、对于远源蛋白质序列，在进行多序列比对的时候应选用下面哪一种矩阵（B）

A.BLOSUM62B.BLOSUM30C.PAM100D.结合基序打分矩阵

二、填空题

1.要搜索一段基因序列的同源基因序列，常使用BLAST。

2、下图示意的序列比对方法为点阵作图法

3、Needleman和Wunsch在1970年提出一种比对算法，算法实现主要分三步：

首先求出一定积分系统下的原始矩阵，其次求出转化矩阵，最后寻找两个序列的最佳比对矩阵，获得最佳比对形式。

三、名词

序列比对aligment，为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

多重序列比对，Clustal，Blast，gap，局部比对，序列比对的E值，

PAM矩阵，取一个蛋白质序列中的氨基酸变异1%作为演化距离的单位，称为1个PAM。

BLOSUM矩阵：

同样方式建立了BLOSUM取代矩阵。

但在评估代换频率时，应用了不同的策略，基本数据来源于BLOCKS数据库，其中包括了局部多重比对（包含较远的相关序列，同在PAM中使用较近的相关序列相反）。

两条序列的identities，两条序列的相似度百分比

动态规划算法（dynamicprogrammingalgorithm）所谓动态规划（dynamicprogrammingalgorithm），其指导思想就是在多级过程的每一级上列出各种可行的局部解，然后按照某些条件舍弃那些肯定不能得到最优解的局部解。

它最大的优点在于能够大大减少计算量。

四、简答

1、简述序列比对的用途。

2、某实验克隆表达了灰葡萄孢霉菌的HMGCoA还原酶，该菌中这一酶此前未被研究过，现在拟通过定点突变实验研究该酶的性质和功能，请问该使用哪些生物信息学手段设计合适的突变位点。

a测出该蛋白质的氨基酸序列

B进行同源性搜索（BLAST）

C找出同源性较高的序列进行比对，确定突变位点

第六章核酸序列分析

一、填空题

1、对于任一DNA序列（或cDNA序列），可能存在6种不同的阅读框，其中3个为正向的，3个为反向的。

2、原核生物启动子有两段保守序列，即-10区左右的TATAAT，以及-35区左右的TTGACA，它们为RNA聚合酶结合位点和识别位点。

二、名词

外显子，内含子，启动子，终止子，起始密码，终止密码，ORF，

Kozak序列，该序列是在起始密码子之前与核糖体作用的位点，真核生物mRNA起始密码AUG上游的第三个核苷酸常常是嘌呤，且多为A（-3A）；其次紧跟在AUG后面的核苷酸，常常也是嘌呤，但多数情况下是G（+4G）。

密码子使用频度，不同生物对密码子的使用有不同的偏好，在编码区和非编码区，特定氨基酸密码子的出现频率是不同的，因而蛋白质编码区密码存在一定的规则性。

ORFFinder，GT-AG法则，GeneSplicer，

CpG岛，CpG岛（CpGisland）是短的、分散的、非甲基化核酸序列，它常出现在持家基因和受调节表达的基因5’端

REBASE，Alu序列，RepBase，

电子克隆，其原理是根据EST序列间的相互重叠，通过计算机进行拼接和组装，以获得较长的或完整的cDNA序列。

这一过程原理上与测序过程中的拼接相同。

中度重复序列，中度重复序列：

拷贝数在十至几百，如人类的Alu序列家族、小鼠中Alu相关序列（称为B1序列家族）等。

中度重复序列一般是不编码的序列，通常认为它们在基因调控中起重要调节作用，包括开启或关闭基因的活性，促进或终止转录，DNA复制的起始，以及转录物参与hnRNA的处理等。

高度重复序列拷贝数高达几百至几万，其中一些是rRNA基因和某些tRNA基因，重复次数达数百次；另一些重复次数更高，如果蝇染色体着丝粒附近就存在几种高度重复序列，它们可能与细胞分裂时染色体的运动有关。

三、问答

1、真核生物基因结构与原核生物基因结构相比有哪些异同点。

相同点①都有编码区和非编码区，

②非编码区都有调控遗传信息表达的脱氧核苷酸序列

不同点：

①编码区是连续的，不存在内含子和外显子

②编码区能编码蛋白质

③结构简单

①编码区是间隔的、不连续的，有内含子和外显子

②只有外显子部分能够编码蛋白质

③结构复杂，存在重复序列

2、试述基因结构分析的一般步骤。

①、查找重复序列：

重复序列的存在会给序列分析带来很大的麻烦

②、同源体搜索与STS作图：

搜索已知同源体可能是最常用而且被广泛认识的新蛋白质编码基因的识别方法。

③、基因模式预测：

如果蛋白数据库中没有发现同源体．就可通过编码统计学原理和潜在的功能基序（剪接信号，启动密码子）来预测基因结构。

④、启动子预测：

发现潜在的转录结合位点和启动子信号可以帮助理解待测序列的功能意义。

⑤、转录终止位点预测：

确定基因模型何时转录终止也是至关重要的，尤其当研究的序列中可能含有多个基因时。

⑥、CpG岛分析：

CpG岛长度一般大于200bp，覆盖5’启动子区域，可帮助确定基因5’末端位置。

第七章蛋白质序列分析

一、填空题

1、蛋白质二级结构预测算法可概括为哪三种类别统计/经验算法、物理-化学方法、机器学习方法。

2、蛋白质三级结构预测最常用也是精度最高的方法是同源模建。

3、分子力学的方法计算蛋白质三级结构的基本假设是：

蛋白质天然构象是能量最小的构象。

4、蛋白质结构从头预测遇到的两大难题一是分子折叠态与非折叠态之间的能量差值很小，二是全局优化问题。

5、请例举两个二级结构预测方法GOR方法、神经网络方法。

6、Chou-Fasman方法二级结构预测的基本出发点在于对于蛋白质中20种不同的氨基酸残基在不同的二级结构中出现的几率进行统计分析得出在不同二级结构中出现的倾向性，然后在一定规则的指导下就可以进行预测。

7、蛋白质组学研究常使用二维凝胶电泳技术，该方法首先是等电聚焦，然后是SDS-PAGE电泳。

8、1986年VonHeijine通过对各种跨膜蛋白的统计分析发现，带正电荷的氨基酸主要分布在紧靠膜内连接跨膜区的环上，这就是所谓的“正电荷局内规则”。

9、根据以下Blast结果，说明我们检索的蛋白质可能的功能注释为NPL4蛋白。

10、对蛋白质二级结构预测方法可采用参数Q3评估：

Q3=（Pα+Pβ+Pcoil）/T，其中Pα代表预测α螺旋正确的氨基酸残基数、Pβ代表预测β折叠正确的氨基酸残基数、Pcoil代表预测无规则卷曲正确的氨基酸残基数，T为总氨基酸残基数。

二、选择题

1、对于蛋白质同源结构模建，通常要求待模建序列与模板序列一致性超过（D）

A.60%B.50%C.40%D.30%

2、对于搜索不到同源模板的蛋白质，可尝试用以下哪种方法模建结构（A）

A.Threading法B.SWISS-MODEL网络服务器C.Homology法D.没有办法模建

3、给定一段核酸序列，可通过什么方法查找上面蛋白质编码区（A）

A．ORFFinderB.CpGPlotC.SWISS-MODELD.Dock

4、同源结构预测时搜索到以下可用的模板，应选用哪个模板比较好（C）

A.NMR测定的结构,一致性为30%B.X-ray测定结构，一致性为38%，3.0Å

C.X-ray测定结构，一致性为38%，2.0ÅD.X-ray测定结构，一致性为30%，2.0Å

5、预测蛋白质上的跨膜区，可使用以下哪种软件或方法（D）

A.GeneSplicerB.Chou-Fasman算法C.GORD.TMHMM

6、分析蛋白质在细胞中的定位，可使用（C）

A.SWISS-MODELB.PHDC.TargetPD.RepBase

三、名词

AACompIdent，ComputepI/Mw，PeptIden，ProtScale，比较模建（Comparativemodeling），

同源模建（homologousmodeling）：

也称比较模建（comparativemodeling），同源蛋白质具有相似的结构和功能，所以利用结构已知的同源蛋白质可以建立目标蛋白质的结构模型，然后用理论计算方法进行优化。

一维-三维剖面法：

利用每一个残基在蛋白质结构中所处的环境描述蛋白质的折叠类型，根据侧链的埋藏程度、侧链被极性原子或水分子覆盖的分数以及局部二级结构，Bowie等将蛋白质结构环境分成18类，然后统计出20中氨基酸在18种环境中的出现概率，得到一个表示不同氨基酸对各种环境偏好程度的评估矩阵，称为3D-1D记分表。

对于结构已知的蛋白质X，每一个氨基酸残基都可以分配一类环境，从而将3D结构转换为1D序列（称环境链）。

从头预测（abinitioprediction），从头预测方法不需要已知结构信息，直接从蛋白质序列预测其空间结构，因而在理论上是一种理想的方法。

从头预测包括分子力学模拟、二级片段堆积等方法。

卷曲螺旋（coiled-coils）两个螺旋通过其疏水性界面相互缠绕在一起形成一个十分稳定的结构。

卷曲螺旋在很多蛋白质中存在，例如转录因子的亮氨酸拉链结构中以及肌球蛋白中。

折叠识别，InterProScan，PHD，PSIPRED，

信号肽，分泌蛋白新生肽N端的一段20~40氨基酸残基组成的肽段，决定新生肽链在细胞中的定位及决定某些氨基酸残基的修饰

跨膜区，就是蛋白在细胞膜内的部分

正电荷局内规则（填空题里有）

四、问答

1、实验中从鲨肝DNA文库中获得一段基因序列，简述如何用生物信息学方法分析其功能。

1、目的蛋白是否和功能已知的序列相似？

2、分析目的蛋白的跨膜区、细胞定位等

3、目的蛋白是否有保守的序列特征？

4、搜索PROSITE、BLOCKS、PRINTS等数据库

5、结构预测分析

6、综合分析结果

7、蛋白质功能预测并实验证实

2、简述蛋白质结构同源模建的原理和一般过程。

原理也就是定义，基本过程

①寻找一个或一组与待测蛋白质同源的由实验测定的蛋白质结构，进行结构叠合；

②建立未知蛋白质与已知结构蛋白质的序列比对；

③找出结构保守性的主链结构片段；

④模建结构变化的区域，一般为连接二级结构片段间的区域；

⑤侧链建模；

⑥利用能量计算的方法进行结构优化。

一般地，序列一致性越差，建立的模型精度也越差，序列一致性低于30％的蛋白质难以得到理想的结构模型。

第九章生物信息软件

一、填空题

1、为使用PCR法克隆某个基因，在设计引物时候除需要设计两段分别与模板互补的片段外，还需要在这两个片段的5’端加上限制性酶切位点和保护碱基。

2、可使用PrimerPremier软件进行引物设计。

3、设计引物时，除加上酶切位点外，还需要在酶切位点5’端加上，通常为碱基。

4、例举两个常用的蛋白质结构浏览软件RasMol、Cn3D。

5、蛋白质同源结构模建可以使用在线的免费预测工具swiss-model。

二、选择题

1、pQE30表达载体上常用的酶切位点有BamHI、SacI、KpnI、SmaI、PstI、HindIII，现预克隆的一段基因上有EcoRI、HindIII、SacI、AccI、PstI等酶切位点，那么在设计引物时候可以在两段引物上各加上哪个酶切位点序列（A）

A.BamHI、KpnIB、BamHI、HindIIIC、HindIII、AccID、HindIII、XhoI

2、以下关于力场的说法正确的是（B）

A.CHARMm力场是一个适用于有机小分子的力场B.CHARMm力场是一个适用于蛋白质的力场C.适用于蛋白质分析的力场只有AMBER力场D.以上说法都不正确

第十章计算机辅助药物设计

一、填空题

1、虚拟筛选指的是将三维结构数据库中的化合物分子与靶标分子在计算机上逐一进行对接（docking），然后按照一定的打分规则排序，从中筛选从潜在的药物。

2、以下缩写代表什么数据库？

CSD剑桥晶体结构数据库，NCI美国国家癌症研究所

3、FlexX是一个柔性对接程序

二、名词解释

计算机辅助药物设计，合理药物设计（rationaldrugdesign），合理药物设计（rationaldrugdesign）或基于结构的药物设计（structure-baseddrugdesign）就是基于对疾病过程的分子病理生理学的理解，根据靶点的分子结构，并参考效应子的化学结构特征设计出针对该疾病的药物分子，从而引导设计走向合理化。

由此设计出的药物往往活性强，作用专一，副作用较低，故称为合理药物设计。

合理药物设计离不开计算机，因此也可称为计算机辅助药物设计。

直接药物设计方法

，间接药物设计方法，

QSAR，3D-QSAR，虚拟筛选，模板定位法，

原子生长法:

根据靶点的性质，如静电、氢键和疏水性等，逐个地增加原子，配成与受点形状和性质互补的分子。

分子碎片法，活性类似物法（activeanalogueapproach，AAA），Hansch法，比较分子场分析（CoMFA），DOCK

三、问答题

1、简述药物虚拟筛选的原理和过程。

2、什么是分子对接，它依据的原理是什么？

3、Spaltmann等提出判断一个基因是否适合作为抗菌靶标，其标准为什么？

4、简述如何利用基因组信息寻找新的药物靶点？

5、简述靶标有效性可以采用哪些方法验证？

答:

1、基因组学方法,针对特定基因的“敲除（knockout）”技术或转基因动物模型是最成熟的验证靶标有效性的方法。

2．蛋白质组学方法,蛋白质组学很适合用于确定靶标蛋白质在信号传导路径中所起的作用。

，可以获得信号分子的异构化的重要信息（例如糖基化或磷酸化），因此可以了解在疾病过程中靶标蛋白质发生了那些变化。

3、核糖酶方法,核糖酶（ribozyme）是具有催化活性的RNA，能够与mRNA杂交并切断mRNA。

利用长度大概200个核苷酸的RNA就能设计用以清除细胞中特定mRNA的核糖酶。

最简单的核糖酶称为锤头核糖酶（hammerheadribozyme）4、免疫化学方法,直接针对脊椎动物细胞外大分子抗原识别部位的单克隆或多克隆抗体可用以研究相应大分子的功能，

展开阅读全文