基因组学数据分析方法现状和展望Word格式文档下载.docx

上传人:b****6 文档编号:16153096 上传时间:2022-11-21 格式:DOCX 页数:14 大小:46.34KB
下载 相关 举报
基因组学数据分析方法现状和展望Word格式文档下载.docx_第1页
第1页 / 共14页
基因组学数据分析方法现状和展望Word格式文档下载.docx_第2页
第2页 / 共14页
基因组学数据分析方法现状和展望Word格式文档下载.docx_第3页
第3页 / 共14页
基因组学数据分析方法现状和展望Word格式文档下载.docx_第4页
第4页 / 共14页
基因组学数据分析方法现状和展望Word格式文档下载.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

基因组学数据分析方法现状和展望Word格式文档下载.docx

《基因组学数据分析方法现状和展望Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基因组学数据分析方法现状和展望Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。

基因组学数据分析方法现状和展望Word格式文档下载.docx

基因组;

转录组;

表观组;

大数据分析;

多源异构数据整合

ChenMeili1#,MaYingke1#,LiRujiao1*,BaoYiming1,2*

1.NationalGenomicsDataCenter&

CASKeyLaboratoryofGenomeSciencesandInformation,BeijingInstituteofGenomics(ChinaNationalCenterforBioinformation),ChineseAcademyofSciences,Beijing100101,China

2.SchoolofFutureTechnology,UniversityofChineseAcademyofSciences,Beijing100049,China

 

Abstract

[Objective]Throughacomprehensivereviewofthecurrentstatusandfuturedevelopmentofgenomicsdataanalysismethods,weprovidesuggestionsfortheimprovementofalgorithmandtooldevelopmentofrelatedomicsdataanalysisinprecisionmedicine,precisionbreeding,biosafety,biodiversityandmolecularevolution. 

[Results]Theanalysisofgenomicsdatamainlyincludesthatofgenomic,transcriptomicandepigenomicdata.Atpresent,theanalysisofgenomicsdatafaceschallengesprimarilybecausethedataaremassive,multidimensionalandheterogeneous.Thisreviewwillelaborateonthecurrentstatus,applications,challenges,andprospectsofalgorithmandtooldevelopmentforgenomicsdataanalysis. 

[Conclusions]Thefuturedirectionsofalgorithmandtooldevelopmentforgenomicsdataanalysisaretomakefulluseofadvancedtechnologiessuchasartificialintelligence,statisticalmodels,andknowledgegraphs,andtocontinuouslyoptimizeanddevelopmoreadvancedalgorithmsandrobustmodelsthatareoferrortolerance,highaccuracy,andhighefficiencywithlowcostofcomputingresources.

Keywords:

genome;

transcriptome;

epigenome;

bigdataanalysis;

multi-sourceheterogeneousdataintegration

引言

随着人类基因组测序计划的完成,基因组学的影响力迅速扩大,数以万计的动物、植物、微生物基因组被组装[1-4],游离DNA应用于无创产前检测、通过基因检测指导靶向药物治疗成为可能[5-6]、单细胞技术应用于辅助生殖[7]、DNA编辑技术广泛应用[8]、体外提供造血干细胞[9]、长寿基因被找到[10]、抗病虫害和高产的农业作物新品种被不断培育[11-12]。

这些基因组科学领域的巨大进展,一方面来自于测序和实验技术的革新,同时也依赖于为适应实验和测序技术进步而不断发展的分析手段和方法[4,13,14]。

基因组学测序数据增长迅猛,加快数据分析速度,提高数据处理效率,是对大数据整合分析工具和算法开发的迫切需求。

如何用好多源海量基因组学数据,去除异质性,并对其进行整合分析和深度挖掘,是对数据分析工具和算法开发另一个层面的新要求。

科学家们也在不断地开发各种算法和工具来提高计算效率,比如第三代测序数据组装算法wtdbg2,将拼接的分析速度提高5倍,少于数据产出时间[4]。

而在此基础上,人工智能等先进技术也被广泛应用于基因组学大数据分析的工具开发[15]。

本文将详细地阐述随着测序技术的发展,基因组、转录组、表观组数据的分析算法和工具开发的现状,以及大数据时代基因组学数据算法和工具开发在未来将面临的问题和挑战。

1基因组测序数据分析

随着测序技术的发展,各类基因组相关研究计划接踵而来[16-17],为生物多样性、物种进化、分子育种、临床治疗等研究提供了宝贵的数据资源。

基因组数据分析主要包括基因组组装、基因组注释、基因组变异分析等。

基因组序列和注释信息包含了生物体的所有遗传信息和功能信息,是多种组学研究的重要基础数据[18]。

通过基因组变异分析可以解析基因组变异对表型、物种进化、疾病等的影响[19]。

但是测序数据分析时间往往远大于测序数据产出时间,无法匹配数据爆发式增长的趋势,是基因组数据分析面临的最大挑战之一。

1.1

基因组组装

基因组组装是将测序产生的读段(read)片段经过序列组装成完整的基因组序列。

基因组组装方法主要有两类:

(1)基于参考基因组序列比对的有参组装,常用于重测序和线粒体/叶绿体等保守细胞器基因组[20-21];

(2)从头(denovo)组装,目前主要有纯二代测序组装[22]、二代和三代测序混合组装[23]、纯三代测序组装[24]等组装策略。

对于动植物等大基因组可以利用遗传图谱、Bionano光学图谱、Hi-C、10XGenomics等图谱信息进行整合辅助组装,将基因组组装提升到染色体级别[25-28]。

动植物基因组因存在基因组大、杂合度高、GC含量高、重复序列多和多倍化水平较高等复杂因素,给组装带来了很大的挑战,需要开发出兼顾效率和计算资源消耗,并且在重复区域获得连续性和完整性都表现很好的高质量基因组组装结果的算法和工具。

目前常用的软件有SOAPdenovo2[22]、ALLPATHS-LG[29]、Canu[30]、Falcon[31]等。

为了解决大型基因组组装效率、准确性要求高和计算资源消耗大的问题,阮珏团队提出了三代数据组装wtdbg2算法,该算法遵循overlap-layout-consensus模式,以快速的读段“全部对全部”比对实现方式和基于模糊布鲁因图这种新组装图理论——一种与稀疏布鲁因图和其变体A-Bruijn图有关的序列组装的新数据结构,来改进现有的组装程序并提高组装效率[4]。

在一台计算机上,可在2天内完成4个~30X的人类基因组数据集的组装,极大提高三代测序数据的分析效率。

与此前提出的Flye算法[32]相比,wtdbg2的分析速度提升了5倍,内存使用仅为Flye的一半,组装连续性和精度可与Canu、Falcon、Flye等其他算法相媲美。

wtdbg2首次将测序数据分析时间降低到少于测序数据产出时间,是一种兼具高容错和高准确的高效算法,并可扩展到超大基因组,如32Gb大小的蝾螈基因组[4]。

当前Hi-C技术越来越多地应用于辅助染色体水平二倍体基因组组装[25],Hi-C技术是基于将线性距离远、空间结构近的DNA片段进行交联,并将交联的DNA片段富集后进行高通量测序,对测序数据分析揭示染色质的远程相互作用,明确基因组草图中scaffold和染色体对应关系、scaffold之间的连接顺序和方向,从而将scaffold挂载到染色体上。

但是对于同源多倍体和近期加倍的异源多倍体来说,其同源染色体之间的Hi-C交联信号会将序列相似的等位片段连接在一起,导致同源染色体被错误地连接到一起,形成大量嵌合的组装,给组装造成了较大困难。

针对该问题明瑞光团队提出了ALLHiC算法,该算法包括pruning、partition、rescue、optimization和building5个步骤。

ALLHiC算法一方面通过修剪Hi-C平行信号和弱信号进行等位基因分型,减少了同源染色体间的嵌合连接;

另一方面通过遗传算法随机优化,极大地提高了contig序列的排序和定向准确性,成功解决了同源高倍体甘蔗、菠萝和异源四倍体栽培花生等多倍体组装难题[33-34]。

而针对于二倍体或者是多倍体,单体型基因组组装是基因组组装的最终目标,目前已提出单体型区块组装策略,如FALCON-Unzip[31]、triobinning[35]等方法,尝试将两个或多个配子来源的染色体进行分别组装。

但是当前已有的单体型区块组装策略依然无法很好地解决单条染色体长度的单体型基因组组装问题。

针对该问题,Kronenberg团队提出了一种单体型基因组组装的新技术FALCON-Phase,可把杂合基因组的父本母本分型组装,并可将其应用于野外采集的样本或缺乏谱系信息的生物。

其主要原理和流程为:

将基因组区域中显示出高水平杂合性的区域鉴定为单体型区块contig,基于鉴定结果对所有contig拆分和打断,通过将Hi-C数据集成到图形数据结构中构建标准化的互作矩阵,最后经过Hi-C辅助组装挂载获得单条染色体长度的单体型基因组组装[36]。

优化算法解决非桥式重复等重复序列导致的组装连续性问题[32],通过开发出对杂合子感知的一致性算法和分型组装方法,兼具高容错、高准确、高效、计算资源低耗的优点,解决超大基因组组装和大规模基因组组装的计算困境,是未来基因组组装工具开发需要继续改进优化的方向。

同时高效低耗的组装算法也能解决真核生物泛基因组(pan-genome)构建的困境[37]。

在单体型基因组组装方面,未来的发展可以优化算法将单体型组装扩大到高杂合性样品、更高倍性物种的应用上,将分型算法整合到组装中,并通过基于组装图的方法提高单体型区块contig放置的准确率,提高算法性能[36]。

1.2

基因组注释

基因组注释是对组装的基因组进行基因结构和功能注释。

基因预测方法依赖于利用两种类型的基因信息:

(1)内容——局部位点,如剪接位点、起始密码子、终止密码子等,预测编码和非编码区域;

(2)信号——蛋白质功能位点,检测功能性位点是否存在。

原核生物的基因结构简单,各种局部位点特异性强、易识别,基因预测方法基本成熟,如GeneMarkS[38]、Glimmer[39]

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学研究 > 教学反思汇报

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1