ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:53.21KB ,
资源ID:5255899      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5255899.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(北邮生物信息基础期末作业.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

北邮生物信息基础期末作业.docx

1、北邮生物信息基础期末作业、 疾病自动诊断问题 1、 设计思路 22、 基于K-L变换的主成分分析法 23、 近邻法判别分析 3二、 病毒变异与否的判断 41、 设计思路 42、 基本步骤 43、 星型比对算法 44、 两两比对算法 55、 寻找变异位点 5三、 基因编码区域识別 51、 设计思路 52、 问题建模 53、 参数估计与计算过程 64、 实验结果 7四、 隐马尔科夫模型的求解 71、 设计思路 82、 问题建模 83、 参数估计与计算过程 94、 计算结果 9五、 课堂内容回顾 10生物信息基础期末作业一、疾病自动诊断问题1、 设计思路根据题目,我们获得80份腹泻类型为细繭型的常规

2、化验结果数据,以及20份腹泻 类型为病毒型的化验结果数据,基丁以上100份数据中的20项数值型结果,我们将其 作为分类器训练集,设计出介理的算法将某常规化验结果分类,判断其腹泻类型。该计 算机自动诊断方案包括以下部分:-4分类器设计.训练信息获取与预处理特征选择与提取f分类决策(识别)结果输岀其中.信息获取与预处理,即为通过常规化验,采集化验所得的?0项数据结果 X = (Xj,x2,X3,X4, ,X17,x18,x19,x20)T并将其作为观测向屋。特=征选择与提取采用通过 KL变换实现主成分分析法,分类器设计及决策采用近邻法,基于以上流程,将输出的 结果作为判别结果。2、 基于K-L变换

3、的主成分分析法主成分分析的基本思想是进行特征降维的变换,虽然不能完全地表示原有的对彖, 能最总会有损失,但是希望找到一种能最最为集中的变换方法使得能最损失最小,即根 据己知向量,将其做变换得到一组互不相关新的特征,对新特征向量进行排序,舍掉瑕 小的特征,从而使得损失的能量最小。1) KL变换的基本算法原始输入为x = (x】 X?, X3, X4, ., X】7 X8, X】9, Xgo F,变换后特征为y,变换矩阵(线 性变换)为A,则y = x,变换后的相关矩阵则&.=心4。若不同的y特征互不相 关,则对R.进行分析,以R*的特征向量作为A的列,则满足:Ry = AtRxA = aL,a2

4、, .,anTRxaL,a2, .,an =丄心,宀卩丄“血“ 人aj = A,其中A为对角矩 阵,对角线元素为九,耳几,以此来达到变换后特征不相关的目的。2) 主成分分析的基本算法通过KL变换时特征降维,原冇N维,只保留m维,去ym+1.Zv,若希望和原 来的表示方法差别最小,即E|x-x|2最小,”表示力在原空间中对应的表示 方法。通过计算不难得出如下公式:Ne|x 7=人匸M+丄将人从人到小排序,则保留m维后的结果即为损失的能呈垠小。=KMMG or WT5 AMO nttCC*4UMCAnoS3)简要分析通过主成分分析可以实现将所得特征降维的目的,同时还可以消除特征中误差的干 扰,使得

5、特征提取的结果更为准确,有利于之后分类器的设计及决策。3、 近邻法判别分析1)基本算法近邻法的基本思想为:将于测试样本最近邻样本的类别作为决策的方法。对于一个c类别的问题,每类有M个样本,二,c,则第类的判别函数为:(x) = miiifc |x -x| , k=其中才为第3类的第k个样本。决策函数为:g)M = mint(x)i. i = 1, .,C,则决策xG a)j o由题目得,该诊断方案需要判断的类别右两类,即细菌型腹泻和病毒型腹泻。己知 细菌型腹泻有80个样本作为训练集,病毒型腹泻有20个样本作为训练集,以此为分类 基础设计出一个基于近邻法的分类器。2)错误率分析己知待分类样本X,

6、其敲近邻样本为,,已经有N个已知类别的训练样本,而,是 其中之一,则特征空间中x点的错分概率:P(eX) = j P(eX,X) pXX)dJC如果样本X的两类别后验概率分别为P(5|x) ljP(32|x),那么对X值,在N T8条 件下,发生错误决策的概率为:辄IX) “- 0 IX) - 0(兮 I 而在这*件卞的平均错误率为:P =粧 = lim | p(X)dX 叮烈( |品(尉茫=卩-冲网|卫的戏设贝叶斯错误率为严比较两者错误率,得出如下关系:PS02 才)P3)改进:K近邻法瑕近邻法町以扩展成找测试样本的k个最近样本作为决策依据。基本规则为:在所有N个样本中找到与测试样本的k个最

7、近邻者,其中各类别所占个数为心, 1=1,C,则决策规划为:kj (X) = mni k( (X), i=l.,C,则做出决策:xea)J9二、病毒变异与否的判断1、 设计思路判断病毒是否发生变异涉及序列比对的问题。已知15条病毒型腹泻患者的病廷核 酸序列,将待测序列与样本集进行多序列比对,判断病毒是否发生了变异。当待判断序 列与样本序列特征差异超过一定阈值时,判断该病毒发生了变异,同时定义另一阈值, 当碱基对连续错误超过该阈值时,判断起始位点处发生了变异。内为基因突变等现象的 存在,特征差异及碱基对的阈值设定需要专家进行专业评估后给出。方案中多序列比对采用星型比对的方法,通过星型比对获得15

8、条对齐的序列,从 而总结出该样本集的序列特征,之后将待判断序列与该特征进行对比,将对比的结果与 设定的阈值进行比较,从而判断是否变异,如果该病毒发生了变异,巫新遍历对齐序列, 记录碱基对连续出现变异的数目,也与设定的阈值进行比较,从而找出变异位点。2、 基本步骤3.星型比对算法目前所用的人部分序列多重比对算法需要交多重序列比对转换为两两序列比对,再 将两两序列比对组合起来,最终形成完整的参序列比对,这种方法称为渐进法,星型比 对是其中的一种。星形比对的基本思路是:在给定的若干序列中,选择一个核心序列,通过该序列与 其它序列的两两比对,形成所冇序列的多重比对,从而使得该多重比对在核心序列和任 何

9、一个其它序列方向的投影是最优的两两比对。星型比对的基本过程为:1)选定一个核心序列;2)计算与核心序列的两两比对:3)逐对聚合比对结果,获得多重比对。聚集过程从某一个两两比对开始,比如Sc和S,然后逐步加上其他的两两比对。在 这个过程中,逐步增加Sc中的空位字符,以适应具他的比对,但不删除Sc中已经存在的 空位字符。选择核心序列的方法为:尝试将每一个序列分别作为核心序列,进行星形多重序列 比对,取比对结果最好的一个。4、 两两比对算法在上面提到的星形比对中,故基本的核心是两两比对,我们使用的两两比对的方法 为:全局最优序列比对的动态规划求解算法。给出求解过程:1) 初始化DP辅助矩阵;2) 根

10、据状态转移方程递归计算DP辅助矩阵A:3) 确定最优路径,即对应于最优比对。矩阵更新策略:M(iJl) + p(,期)Aftj) = - - 1J - 1) + psi,tj) 、做一 1J) +P(si-),5、 寻找变异位点待测序列在经过比对之后,己实现对齐。在此基础之上,我们只需再重新进行一次 遍历,记录碱基序列中连续出现变异的碱基个数,并与专家给出的阈值进行比较,从而 找出变异的起始位点。三、基因编码区域识别1 设计思路根据已经给出的编码区域与非编码区域的碱基序列样本,结合题目中提及的该病毒 RNA序列中基因编码区域的碱基排列顺序具有特定规律,考虑利用马尔科夫链分别来 计算所给出的序列

11、片段出现在编码区和非编码区的概率,通过比较概率的人小來判断其 足否为编码区域。利用马尔科夫模型计算概率时,需要统计出各碱基的起始概率及概率 转移矩阵,因为题冃中所给的序列长度较短,考虑一阶马氏链的情况,各概率矩阵在参 数估计中给出。问题建模利用号尔科大链模型求解时,需要考虑一个只有多个状态的系统S,令4为 一系列在各个时刻系统状态的变量,即状态链。对于一阶马氏链,系统在时间步t处于哪个状态,仅与时间t-1时系统所处的状态 何关,P(O10n) = P(0jP(02|01)P(03|02)“P(0nl4,即系统未來的状态仅依赖 于当前状态,马尔科夫链完全决定于初始分布和状态转换概率。计算儿到勺的

12、转移概率,需要统计令到坷的转移次数,然后除以所有以人为起始状 态转变为4k的转移次数:P坷k其中从一坷表示从状态儿转移到状态的次数。第一个出现的碱基和最后一个出现的碱基需要单独统计:P=P)=T”/尢如kP(%) = P(Aj) = G 一 /N 一 dk即通过上式从训练样本序列中统计碱基儿出现在第一位的频率和碱某勺出现在最 后一位的频率。3. 参数估计与计算过程首先,根据给出的基因编码区域和基因非编码区域的片段,利用频率逼近概率, 町以算出两个区域片段的各个碱基对的起始概率分布及各自的一步转移概率矩阵。利用 如下公式计算给出序列在编码区及非编码区出现的概率:nP($|(G) = P(sJP6

13、+i|sJP(sJ4=1利用贝叶斯公式:P(S = M 4jSeC)P(SeC )工p(Sf 4isg)p(sy)如果P(CdS)P|S),则序列S属于类别5否则,属于类别由于计算过程中, 贝叶斯公式中编码区和非编码区的分母相同,而P(s(e ct)未知,假定p(s(e Ci)=p(s(e C20 5,则结果比较只需比较先验概率大小即可。在編码区中,四个碱基为起始状态的分布概率:符号AUGC概率3/51/51/50在非编码区中,四个碱基为起始状态的分布概率:符号AuGC概率001/54/5在编码区中,四个碱基为结乡E状态的分布概率:符号AuG C1 概率2/51/51/51/5在非编码区中,四

14、个碱基为起始状态的分布概率:符号AUGC概率04/501/5在编码区中,各个碱基的转移概率矩阵:AuGCA9/237/237/230u4/905/90G4/192/193/1910/19c5/904/90在非编码区中,各个碱基的转移概率矩阵:AuGcA0001U001/1615/16G0100c10/2915/293/291/294、 实验结果所给待测序列片段为:Sx JGAAUGUAGCGCAAS2CUCUCUCACACGU计算S1,其在编码区的概率为:pG)=G).(訐(分(分 (訪0*&)*盼(9-備* (I)* ()* (D =4 246442 * 10-7氏在非编码区的概率为:P(S

15、JC2)=(訴(0) = 0计算S2,其在编码区的概率为:PG) = 0其在非编码区的概率为:p(sm)=G).禽倚 g). S).(3.(存匍 畑 g).(1).()* (1)*() = 8.97637171* 10-4根据上述计算结果,得p(s1|c1)p(51|c2), PCsjq) o.5 的情况下,使得p(G|sj pgisj, Pfcj) n3,其中心=0,心=0.2,兀2 =0.3 9 心=0.5:4)状态转移概率矩阵A各元素值如卜表:SoSS2S3S。00.20 30.50.20 30.20.3$20.30 10 40.2S30.40 10.20.35)明字符生成矩阵B各元素值

16、如下表:牛.成C生成GSo100Si00.40 6S200.30 7S300 60 46) O=yyVLfV2fVyV09 即为CtCtGtCt。根据上述己知信息计算该观测序列在所给定的HMM卜的生成概率及生成该观测序列的最佳路径(最M能的状态序列)。3、 参数估计与计算过程1)评估问题:计算o出现的概率定义前向变量为“在时间步t,得到tZ前所右的明符号序列,且时间步t的状态是甲 这-事件的概率,贝Ija(ti) = P(ox,otfqt =SJA)o算法过程包括以下三步:a)初始化:a(l.i) = 7r(i)b(i,oJ:b)递归:a(t+ l.i) = E;=i(ti)a(tj)Gt+i

17、)?c)终结:P(O|A) =S;=i(T,i)o2)识别问题:判断0是由哪个HMM产生定义阻i)为t时间步沿状态序列五qtRqt=St产生出。丄,的最大概率,即 8(t,i) = maxg”./. P= S,o入)。釆用 Viterbi 算法,具体步骤如卜:a)初始化:&()= 7r(i)b(i,oJ;b)递归:6t(J) = max0a&7(i)abj(oJ:c)终结:P* = maxg勿8r(i):4. 计算结果1) 评估问题:计算o出现的概率 将每步计算所得的a(ti)绘制如卜表:t=lt=2t=3t=4t=51=0000000049900321=10 080 025200113040

18、 0029260801=20 090 03360.0240240 0044740801=30 30 07920.0152160.007656480根据上述表格,得岀观测序列为CCGC的概率为:30.00490032 + 0 + 0 + 0 = 0.004990032P(0| 入)=(t(5,i)=i=Q2)识别问题:判断O是由哪个HMM产生 将每步计算所得的&ti)绘制如下表:t=lt=2t=3t=4t=5(*10 - 5)1=0000046 6561=10.08000120.003240.000388801=20 090 00180 007560.000907201=30 30 0540.0

19、06480.00116640根据表格回溯,将各口计算中使用的6(t- 1)绘制如卜表:5(ti)t=lt=2t=3t=4t=51=0初始化0008(4,3)1=1初始化5(1,3)8(2,3)5(3,1)01=2初始化8(1,3)8(2,3)8(3,2)01=3初始化8(1,3)8(2,3)8(3,3)0注:恒为0时不计算Mt i)综合以上两表.=5时概率最人的为5(5,3),即取步长为5时对应的状态为小 空状L仆丫成胡F ?;,卜制心获得b I;为4 :M (爪汕丿状态为S3,沁灿能h水心乂对为 6(3,3), 5(2,3), 8(1,3)o 所以最可能的状态路径为:S3- S3 - S3

20、- 3 - 其中代 表末尾空状态。五、课堂内容回顾大三上学期的专业选修课中,生物信息基础与模式识别两门课程有很大的 共通之处,本门课程中的对基因序列、待测样本等进行分析、比对时使用的方法,大多 数都在模式识别踝上也有所提及。在我看來,两门课相辅相成,融会贯通。但是,本门课程内容结介了生物学的相 关知识,更显生动有趣。高中在学习生物的过程中,就对基因的表达很感兴趣.通过本 门课程的学习获益匪浅。特别是在比对两个基因序列的时候,通过矩阵的形式计算打分 函数,从而获得放优比対,将复杂的问题简单化,按照方法按部就班就町以获得想耍的 结果,这一内容是之前没冇接触过的。此外,隐马尔科夫模型的相关过程中,虽

21、然状态 我们无法观测,但是可以通过对其生成的明字符集进行观测,通过计算概率获得我们想 要知道的信息,并且利用了前向、后向、VitnI等算法简化时间复杂度,使得我对马尔 科夫模型的了解刃为深入,接触了巫深戻次的应用范阳。这两部分内容小我在本学期滦 程过程中较为感兴趣的部分。本节课程的教学过程中,大多数时间都是在介绍抽象的算法,个人感觉大最时间 介绍算法对于我们的理解帮助不人,因为我们在生物信息学方面的知识还相对薄弱,対 于一些复杂的算法难以掌握,建议老师在今后的教学过程中,可以结合更多的例子來介 绍算法,便于学生的理解,也有利于调动大家的学习兴趣。例如在模型时,结介 了赌场骰子的问题,就使我对模型印象深刻,在之后计算作业及试卷中的题冃时, 起到了爭半功倍的效果。个人建议在之后的教学过程中,老师町以尽量把声音放人一些, 让后排的同学能听得更加清楚。总而言之,一学期的学习开启了我对生物信息学认知的大门,老师在课堂上除了 给我们讲授知识,还会穿插一些人生桝理和萌萌哒冷笑话,课堂效果较为活跃,在今后 的生活中,我将继续学习这方面的内容,感谢李老师这一学期的循循善诱,让我获益良 多!

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1