基于高重复区域基因序列的无模板拼接算法.docx

上传人:b****2 文档编号:1633139 上传时间:2022-10-23 格式:DOCX 页数:55 大小:835.73KB
下载 相关 举报
基于高重复区域基因序列的无模板拼接算法.docx_第1页
第1页 / 共55页
基于高重复区域基因序列的无模板拼接算法.docx_第2页
第2页 / 共55页
基于高重复区域基因序列的无模板拼接算法.docx_第3页
第3页 / 共55页
基于高重复区域基因序列的无模板拼接算法.docx_第4页
第4页 / 共55页
基于高重复区域基因序列的无模板拼接算法.docx_第5页
第5页 / 共55页
点击查看更多>>
下载资源
资源描述

基于高重复区域基因序列的无模板拼接算法.docx

《基于高重复区域基因序列的无模板拼接算法.docx》由会员分享,可在线阅读,更多相关《基于高重复区域基因序列的无模板拼接算法.docx(55页珍藏版)》请在冰豆网上搜索。

基于高重复区域基因序列的无模板拼接算法.docx

基于高重复区域基因序列的无模板拼接算法

天津工业大学

毕业论文

基于高重复区域基因序列的无模板拼接算法

姓名徐××

学 院计算机科学与软件

专业软件工程

指导教师陈××

职称副教授

 

2013年5月27日

天津工业大学毕业论文任务书

题目

基于高重复区域基因序列的无模板拼接算法

学生姓名

徐××

学院名称

计算机科学与软件

专业班级

软件××

课题类型

实际课题

课题意义

利用全基因组无模板拼接技术,可以获得动物、植物、细菌、真菌的全基因组序列,从而推进该物种的研究。

一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端,这也将带动这个物种下游一系列研究的开展。

全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供DNA序列信息,为疾病、癌症等的研究提供真实有效的数据。

任务与进度要求

2013.2.20-2013.3.11选题确认并完成开题报告、任务书的填写、提交、审核

2013.3.12-2013.3.26深入了解课题内容、算法分析、确定算法系统框架、熟悉开发工具

2013.3.27-2013.5.3完成算法的逻辑实现,和算法工具包的开发,完成算法系统的大部分功能,初稿完成

2013.5.4-2013.5.21进行实验结果整理,并在整理中进一步提高拼接序列的的各项指标,二稿完成

2013.5.22-2013.6.5毕业论文的审核、修改及定稿并装订

2013.6.6答辩

主要参考文献

 [1]Bresler,M.,Sheehan,S.,Chan,A.H.,andSong,Y.S.Telescoper:

DenovoAssemblyofHighlyRepetitiveRegions.ECCB'12SpecialIssue,Bioinformatics[J].2012,28i311-i317

 [2]MacCallum,I.etal.ALLPATHS2:

smallgenomesassembledaccuratelyandwithhighcontinuityfromshortpairedreads[J].GenomeBiol.2009,10,R103

 [3]Simpson,J.T.etal.ABySS:

aparallelassemblerforshort-readsequencedata[J].GenomeRes.2009,19,1117–1123

 [4]Zerbino,D.R.andBirney,E.Velvet:

algorithmsfordenovoshort-readassemblyusingdeBruijngraphs[J].GenomeRes.2008,18,821–829

 [5]Li,R.etal.Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing[J].GenomeRes.2010,20,265–272

起止日期

2013年2月25日至2013年6月6日

备注

院长教研室主任指导教师

毕业论文开题报告表

2013年3月8日

姓名

徐××

学院

计算机科学与软件

专业

软件工程

班级

软件××

题目

基于高重复区域基因序列的无模板拼接算法

指导教师

陈××

一、与本课题有关的国内外研究情况、课题研究的主要内容、目的和意义:

1.与本课题有关的国内外研究情况

随着新一代基因组测序技术的推广使用,全基因组Shotgun拼接算法和软件得到了广泛的研究。

新一代的基因测序技术像Illumina,CompleteGenomics,Helicos,454LifeSciences,SOLIDandIonTorrent等,测序得到的DNA序列数据相对于第一代测序方法--Sanger测序表现为:

高通量、高覆盖率、低成本,与此同时短读长、更多类型的错误,而且普通高等生物的基因组碱基数目巨大,如人类基因组总长约30亿bp,而按新一代的测序技术,一次实验最多只能直接测得不大于1,000个碱基,另外高等生物的基因还具有非常复杂的重复结构,因而基因组的无模板拼接有很大难度。

这样,绝大多数生物的基因组都不能通过实验手段一次性获得,必须借助计算机技术进行后续拼接。

自从2005年以后,出现了多种基于下一代测序平台基因序列的从头拼接算法软件包,包括Velvet,ABySS,AllPath,SOAPdenovo等。

尽管人们普遍认识到,不同拼接算法所产生的结果具有互补的,但是现在还没有一个方法能融合多个拼接算法的结果。

2.课题研究的主要内容

基因序列是包含在生物中每个染色体中的DNA碱基序列的集合。

基因序列拼接是一个研究如何将包含较短的读长基因数据库中的所有序列通过合并和排序之后拼接成长序列的问题。

通常序列拼接的输出是一个称为重叠群(contig)的集合,进而由contigs经过排序、调整、填补间隙等一系列的操作而生成的scaffold序列。

本文提出了一个基于图论的算法,对多个不同算法拼接出的contigs进行拼接,得到更长的scaffold序列。

算法首先识别出每对contigs之间的共同片段。

然后将达到一定长度的共同片段聚到一个簇中。

对于每一个簇,建立一个包含不同contigs之间关系的图结构,最后求解图的最长路径。

算法具体步骤如下:

(1)获得其他算法产生contigs。

一部分算法的结果也scaffolds。

尽量使用较长的scaffolds。

(2)为contigs建立索引结构。

将每个算法生成的contigs集合建立一个索引结构,生成索引文件。

(3)利用索引进行映射。

根据索引将原始数据库中的全部的基因序列映射到contigs上。

我们规定read-pair中的leftread和rightread中的部分碱基同时和contig中的某段碱基一致(部分一致,具体的见映射规则),则称为映射成功。

映射结果一般表现为:

一个contig的不同的位置上有多个read对应。

映射规则如下:

.对contigs中碱基进行数值化。

.我们只对非ATGC碱基个数不超过碱基序列(read)的5%的read,进行映射。

.同时对每个read的逆序的碱基互补序列进行映射。

.我们允许最少2个碱基,最多2%个碱基的错误。

.我们只分别取出leftread前n(要求为取3的倍数)个碱基和rightread后n个碱基,组成的有间隙的序列进行映射。

(4)寻找潜在可拼接的contig对。

根据第4步中的映射结果,即每个contig会映射上多个read,多个read组成了集合(i,基本算法的标识;j,算法结果中contig编号)。

寻找潜在可拼接的contig对是任何两个不同拼接算法中的contig映射到的集合彼此之间交集的元素个数超过一个给定阈值。

(5)求最长公共子序列筛选潜在可拼接的contig对。

计算第4步中找到的潜在可拼接的两个contigs的最长公共子序列,移除最长公共子序列的长度小于某一阈值的contig对。

(6)将潜在可拼接的contigs对进行聚簇,簇数记为。

  1构建子图,并拼接。

将簇中所有(簇中的第簇个子图)合并成能表示一个簇的图(暂且称为簇图,Cluster-Graph),最后求解簇图的最长路径。

最长路径所包含的碱基序列即为我们算法拼接之后的结果。

(7)最终结果的评估。

比较各项指标N50、MAX。

结果显示,使用我们的算法,大幅度的增长了的MAX{contigs}。

我们也证实了,引进将更多的拼接算法的结果,我们的算法结果将提高的更多。

3.课题研究的主要的目的和意义

利用全基因组无模板拼接技术,可以获得动物、植物、细菌、真菌、病毒的全基因组序列,从而推进该物种的研究。

一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端,这也将带动这个物种下游一系列研究的开展。

全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供DNA序列信息,为疾病、癌症等的研究提供真实有效的数据。

二、进度及预期结果:

起止日期

主要内容

预期结果

2013.2.20-2013.3.11

2013.3.12-2013.3.26

2013.3.27-2013.5.3

2013.5.4-2013.5.21

2013.5.22-2013.6.5

2013.6.6

选题确认并完成开题报告、任务书的填写、提交、审核

深入了解课题内容、算法分析、确定算法系统框架、熟悉开发工具

完成算法的逻辑实现,和工具包的开发,完成算法系统的大部分功能,初稿完成

进行实验结果整理,并进一步提高各项指标,二稿完成

毕业论文的审核、修改及定稿并装订

答辩

完成

完成

完成

完成

完成

完成

完成课题的现有条件

硬件:

曙光小型机(SugonServerMainServerChassis)

软件:

Vim、Emacs、Gcc/G++、Eclipse、Python、VisualStudio2010

参考文献:

 [6]Bresler,M.,Sheehan,S.,Chan,A.H.,andSong,Y.S.Telescoper:

DenovoAssemblyofHighlyRepetitiveRegions.ECCB'12SpecialIssue,Bioinformatics[J].2012,28i311-i317

 [7]MacCallum,I.etal.ALLPATHS2:

smallgenomesassembledaccuratelyandwithhighcontinuityfromshortpairedreads[J].GenomeBiol.2009,10,R103

 [8]Simpson,J.T.etal.ABySS:

aparallelassemblerforshort-readsequencedata[J].GenomeRes.2009,19,1117–1123

 [9]Zerbino,D.R.andBirney,E.Velvet:

algorithmsfordenovoshort-readassemblyusingdeBruijngraphs[J].GenomeRes.2008,18,821–829

 [10]Li,R.etal.Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing[J].GenomeRes.2010,20,265–272

审查意见

指导教师:

年月日

学院意见

主管领导:

年月日

 

天津工业大学本科毕业论文评阅表

(论文类)

题目

基于高重复区域基因序列的无模板拼接算法

学生姓名

徐××

学生班级

软件××

指导教师姓名

陈××

评审项目

指标

满分

评分

选题

能体现本专业培养目标,使学生得到较全面训练。

题目大小、难度适中,学生工作量饱满,经努力能完成。

10

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 互联网

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1