生物信息学Word格式.docx

资源描述

生物信息学Word格式.docx

《生物信息学Word格式.docx》由会员分享，可在线阅读，更多相关《生物信息学Word格式.docx（14页珍藏版）》请在冰豆网上搜索。

生物信息学Word格式.docx

2.下面哪种算法为双序列比对全局优化算法？

A.Smith-Waterman算法B.GibbsSampler

C.HiddenMarkovModel算法D.Needleman-Wunsch算法

3.下面哪种工具为多序列比对工具？

A.MegaBlastB.MEGA4.0C.GPSD.POA

4.双序列比对中，全局与局部的优化算法，其核心思想是（）

A.利用已知数据作为训练集，利用迭代的算法进行反复计算，使得结果收敛；

B.根据已知数据，构建PSSM矩阵，再计算Log-oddratio；

C.采用动态规划算法，计算最优路径,并以此得到比对结果；

D.采用邻接法构建进化树，在进化树的指导下进行双序列比对。

5.下面何种描述适合Baum-Welch算法？

A.双序列比对的局部优化算法；

B.Motif发现的方法之一

C.对已知的训练数据，采用Viterbi算法计算最佳路径，并重新计算转移概率矩阵，反复计算直至结果收敛，得到优化的HMM模型；

D.对已知的训练数据，采用Smith-Waterman算法计算最佳路径，并重新计算转移概率矩阵，反复计算直至结果收敛，得到优化的HMM模型；

6.实验学家在大肠杆菌中发现某种基因A，具有重要的转录调控功能，通过ReciprocalBestHits的方法，实验学家用BLAST发现在人中基因B为基因A的高度相似基因。

那么，人中基因A与基因B的关系为（）

A．旁系同源物B.趋同进化C.直系同源物D.异同源物

7.下面不属于多序列比对的算法有（）

A.最大简约法B.渐进方法C.迭代方法D.部分有向图法

8.下面基于氨基酸的替代模型并进行距离修整的模型有（）

A.Jukes-Cantor法B.Kimura两参数法

C.泊松校正D.Nei-Gojobori法

9.下面不属于构建进化树的方法有（）

A.最大似然性法B.最大简约法

C．距离法D.点阵法

10.已知密码子CCT,CCC,CCA,CCG都编码Pro（脯氨酸），并且仅该四个密码子都编码Pro。

对于密码子CCC，其潜在的同义位点数目s与非同义位点数目n为

（）

A．s=1/3,n=8/3B.s=1,n=2

C.s=1/4,n=11/4D.s=1,n=8/3

二、判断题（每题2分，共20分）

1.PAM250矩阵的构建，其基本假设为当序列变化发生期望上的250%的变化时，氨基酸之间替代的关系，因此，Dayhoff等人选择序列相似性极低的序列，以此构建了通用的PAM250矩阵（）

2.我们通常使用UniProt数据库来查找基因的DNA序列，并得到序列的FASTA格式（）

3.BLAST采用了一种称为“k-tup”的算法，搜索两条序列的对角线两边有限的空间，因此大大节省了计算时间（）

4.MUSCLE是目前被广泛应用的多序列比对工具，其优越性为采用部分有向图的算法，从而使得运算的时间复杂度大为降低（）

5.Ka/Ks为表征编码区DNA序列是否受到选择压力的主要手段，对于某对基因A和B，我们通过计算发现Ka/Ks=3.6,并且通过Fisher’sExactText检验后，为统计显著，因此我们可以推测A和B在分化之后受到达尔文的阳性进化选择的压力（）

6.隐马尔科夫算法中的“隐”，指的是状态之间的转移概率已知，而状态内的发散概率未知，因此，隐马科夫并不表示所有的概率未知。

7.蛋白质上的模体/motif，一般指长度为几个到几十个氨基酸，并且不具有独立的三级结构的氨基酸片段。

例如SUMO化位点的motif，一般可表示为：

ψ-K-X-E.

8.估算鸟枪法的覆盖率，使用超几何分布的方法能够相当简便的结算出结果。

9.DNA突变的模式有四种：

替代、插入、缺失和倒位。

而DNA替代又分为转换和颠换两种。

10.中性进化是由Kimura最早提出，认为绝大多数的突变不好也不坏，并不决定物种的分化。

受达尔文进化所调控的基因约为~1%，这些基因数量虽然很少，却对物种的分化起到了决定性的作用。

三、综合题（每题10分，共50分）

1.表观遗传学的研究内容主要包括DNA的甲基化，组蛋白的乙酰化、甲基化及其它修饰，染色体重塑以及SiRNA与MiRNA调控四个方面。

其中DNA的甲基化发生在基因组的特定位置，通常是-CG-序列中的C上，C被化学修饰，引入一个甲基，并很快突变为T。

编码区DNA上游启动子区域的DNA甲基化水平的高低，对基因表达量的高低有着重要的影响，一般低甲基化对应基因的高表达，高甲基化则对应基因的低表达。

实验学家通过实验鉴定了30条平均长度为1000bp的DNA序列，总共鉴定了60个甲基化位点。

生物信息学家基于这些实验数据，构建了预测工具，对于新的两条序列M和N，长度分别为2000bp和1500bp，并预测A和B上分别有3个和9个位点。

那么，对于预测出来的位点，若全部是随机产生的概率为多少？

已知泊松分布的公式为：

-1

-2

-4

-3

2.对于两条蛋白质序列：

AQPPKKE和LEPKRD，请分别用

（1）Needleman-Wunsch算法；

（2）Smith-Waterman算法对两条序列作比对；

对于Gap的罚分为8，线性罚分规则；

用图示法表明比对过程，并写出比对结果、得分，对于Smith-Waterman算法，结果表示为单一的比对结果。

打分矩阵采用BLOSUM62矩阵，部分矩阵如下：

3.请用图示法并辅以必要的文字，描述Gibbs采样抽取序列motif的过程。

这里，假设有n条序列，长度k，待抽取的motif长度为m.

4.给定一组DNA序列如下：

CGACCTA

CGACGAT

CGTCGAA

TCTCGAG

（1）根据上述DNA序列，请写出一种PSSM矩阵；

（2）给定一条新的序列CGTCGAG,计算log-oddratio，该例中，四种碱基的背景值都为0.25；

（3）请计算模体中，第三位和第五位所包含的信息量。

5.直系同源物（Ortholog）与旁系同源物（Paralog）之间有什么区别？

请用图示法并辅以必要文字进行描述。

2008--2009学年第1学期考试试卷

1.下面哪种方法不是基因共表达相关性的分析方法?

A．PearsoncorrelationcoefficientB.Kendall'

stau

C.T-TestD.Euclideandistance

2.针对DNA序列的同义与非同义的核苷酸替代，若Ka/Ks=1.2，则可能发生了何种进化过程？

（）

A.阳性进化B.达尔文进化

C.阴性进化D.中性进化

3.下面哪种工具不是分子进化树构建工具？

A.T-CoffeeB.MEGA4.0C.PAMLD.PHYLIP

4.隐马尔科夫算法中的Baum-Welch算法，其核心思想是（）

E.采用邻接法构建进化树，在进化树的指导下进行双序列比对；

F.利用已知数据作为训练集，利用迭代的算法进行反复计算，使得结果收敛；

G.根据已知数据，构建PSSM矩阵，再计算Log-oddratio；

H.采用动态规划算法，计算最优路径,并以此得到比对结果。

5.不属于DNA突变的模式有？

A.倒位；

B.颠换；

C.插入；

D.替代。

6.利用点阵法不能够做到或发现（）

A．反向回文序列B.自身比对C.重复序列D.序列模体识别

7.下面哪个数据库是蛋白质数据库（）

A.RefSeqB.EBIC.DDBJD.GenBank

8.近年，我校学者与复旦大学研究者合作，在芽殖酵母发现了泛素家族的一个分子化石Urm1,稍后有研究者利用BLAST发现了人类的Urm1，那么人类的泛素蛋白质与人类Urm1的关系是（）

A．直系同源物B.趋同进化C.旁系同源物D.异同源物

9.下面不属于双序列比对的方法有（）

A.Smith-Waterman算法B.距离法

C.Needleman-Wunsch算法D.点阵法

10.已知密码子ATT,ATC,和ATA编码Ile（异亮氨酸），而ATG编码Met（甲硫氨酸）。

则对于密码子ATC，其潜在的同义位点数目s与非同义位点数目n为

A.s=2/3,n=7/3B.s=1,n=2

C.s=1/4,n=11/4D.s=1/3,n=8/3

二、填空题（每空2分，共20分）

1.使用多序列工具比对两条序列，发现71%的区域相同，若这两条序列为蛋白质序列，则这两条序列的泊松距离为（）；

若两条序列为核酸序列，则Jukes-Cantor距离为（）。

2.给定一组DNA序列如下（碱基的背景值为0.25）：

CTACTAGC

CGACATGG

CTACATGG

CTTGAAGC

给定一条新的序列CGACAAGC，其log-oddratio（以2为底计算数值）为（）；

该组DNA序列，其第二位的信息量为（），第八位的信息量为（）。

3.实验学家从1000个4bp的DNA序列中鉴定了200个X-box序列，其中第一位T的出现概率为0.97，第二位A出现的概率为0.91，第三位C出现的概率为0.85，第四位A出现的概率为0.80，C出现的概率为0.14。

其他位点出现的概率各自相同。

则序列TACA可能是X-box的概率为（），序列TACC可能是X-box的概率为（）。

4.蛋白质磷酸化位点的预测是一个重要的生物信息学问题。

实验学家以405个磷酸化蛋白质为训练数据，包含800个实验验证的磷酸化位点和16000个非磷酸化位点，开发了P工具。

利用P工具做Self-consistency检验，总共预测出1470个阳性结果，则该工具的

展开阅读全文