肿瘤基因检测的解读流程.docx
《肿瘤基因检测的解读流程.docx》由会员分享,可在线阅读,更多相关《肿瘤基因检测的解读流程.docx(8页珍藏版)》请在冰豆网上搜索。
肿瘤基因检测的解读流程
从临床进入基因检测流程就是入口,检测结果结合临床信息进行合理解读就是出口,这一入一出之间需经历检测前临床咨询部分、实验室部分、信息分析部分、临床解读部分共四个环节。
其中的第四部分临床解读部分即就是根据检测结果、患者信息、医生共识综合判断,临床与遗传咨询有效衔接、充分沟通,最终出具临床解读报告。
在做成临床解读报告之前,首先需要将解读的各个环节进行明确,包括解读的步骤流程,解读的技术细节。
这样才有可能真正的做到解读的规范化,使解读过程有据可依,有章可循,才能出具一份好的临床解读报告,基因检测才能更好的服务患者与临床医生。
从大的框架讲,基因检测数据解读可分为三个步骤:
原始数据→分析数据、基于数据库的解读→与患者个体表征/临床病例结合的解读。
1、读懂原始数据
将测序的原始序列数据(FASTQ)去除接头及低质量序列,经BWA软件比对至GRCh37/38(NCBI版本)或hg19/hg38(UCSC版本)人类基因组参考序列上,Picard去除重复序列,使用GATK检测SNV与Indel变异,使用ANNOVAR进行变异注释。
最后获得一份、vcf文件(图1)。
图1从测序的原始序列数据到vcf文件的流程
一份vcf文件包含如下基本信息。
Chr:
变异所在的染色体
Start:
变异在染色体上的起始位置
End:
变异在染色体上的结束位置
Ref:
参考基因组的序列
Alt:
检测样本基因组的序列
Func、refGene:
变异所处参考基因的功能区(exonic,intronic,UTR3,UTR5,splicing,upstream,downstream,intergenic)(此处的exonic特指外显子编码氨基酸区,不包括外显子的UTR区)
Gene、refGene:
变异所处参考基因名称(如果就是基因间,则就是两侧的基因)
GeneDetail、refGene:
非外显子区处于特定转录本中的具体位置(如果就是基因间,则就是距离两侧的基因的距离)
ExonicFunc、refGene:
外显子区的变异类型(frameshiftinsertion,frameshiftdeletion,stopgain,stoploss,nonframeshiftinsertion,nonframeshiftdeletion,synonymousSNV,nonsynonymousSNV),如果这一栏就是一个“、”的话,就说明该变异不在外显子区
AAChange、refGene:
氨基酸水平的改变(同一个基因可能具有多个转录本,氨基酸改变的位置在不同的转录本中有可能不一样)
经注释后的vcf文件还会包含如下信息:
CLINSIG:
该变异在ClinVar数据库中的临床意义(Benign,Likelybenign,Uncertainsignificance,Likelypathogenic,Pathogenic,Drug-response)
CLINDBN:
该变异所引起的疾病名称
CLINACC:
该变异的登记号与版本号(VariantAccessionandVersions)
CLINSDB:
该变异所引起疾病所在数据库名称
CLINSDB:
该变异所引起疾病所在数据库中的ID
PopFreqMax:
该变异人群中的最大等位基因频率
1000_All:
该变异在千人基因组计划数据库中的人群等位基因频率
1000_AFR:
该变异在千人基因组计划数据库中非洲人群的等位基因频率
1000_AMR:
该变异在千人基因组计划数据库中美国人群的等位基因频率
1000_EAS:
该变异在千人基因组计划数据库中东亚人群的等位基因频率
1000_EUR:
该变异在千人基因组计划数据库中欧洲人群的等位基因频率
1000_SAS:
该变异在千人基因组计划数据库中南亚人群的等位基因频率
Snp138:
该变异在dbSNP数据库中的ID
Cosmic70:
该变异在癌症体细胞突变数据库COSMIC中的ID
ESP6500siv2_ALL:
该变异在美国国家心肺血液研究所的ESP6500数据库中的人群等位基因频率
ESP6500siv2_AA:
该变异在美国国家心肺血液研究所的ESP6500数据库中的非洲裔人群等位基因频率
ESP6500siv2_EA:
该变异在美国国家心肺血液研究所的ESP6500数据库中的欧洲裔人群等位基因频率
ExAC_All:
该变异在ExAC数据库中的人群等位基因频率
ExAC_AFR:
该变异在ExAC数据库中非洲人群的等位基因频率
ExAC_AMR:
该变异在ExAC数据库中美国人群的等位基因频率
ExAC_EAS:
该变异在ExAC数据库中东亚人群的等位基因频率
ExAC_FIN:
该变异在ExAC数据库中芬兰人群的等位基因频率
ExAC_NFE:
该变异在ExAC数据库中非芬兰欧洲人群的等位基因频率
ExAC_OTH:
该变异在ExAC数据库中除已指定人群之外的人群等位基因频率
ExAC_SAS:
该变异在ExAC数据库中南亚人群的等位基因频率
CG46:
该变异在CG46数据库中的人群等位基因频率。
CG46就是由CompleteGenomics(BGI)公司对46个样本的全基因组测序而建立的数据库,截止2017年,她们已经对超过20000个样本进行了全基因组测序与分析。
ICGC_Id:
国际癌症基因协作组中各研究的ID
ICGC_Occurrence:
该变异在ICGC数据库中的发生情况。
该栏数据结构如COCA-CN|1|187|0、00535,指中国结直肠癌的研究(https:
//icgc、org/),在187例患者中有1例发生突变,突变比例为0、00535
Nci60:
该变异在nci60数据库中的等位基因频率。
Nci60就是被广泛用于药物筛选的人类60种肿瘤细胞系组合,已经进行了全外测序。
随着研究的进步,美国癌症研究所NCI在2016年宣布NCI-60细胞系“退休”,PDX新模型“上任”。
Interpro_domain:
InterPro算法预测的突变所处的保守结构域(http:
//www、ebi、ac、uk/interpro/)
dbscSNV_ADA_SCORE:
基于adaptiveboosting预测变异对剪接位点改变的可能性
dbscSNV_RF_SCORE:
基于RandomForest预测变异对剪接位点改变的可能性。
得分代表剪接影响的可能性大小,如果dbscSNV_ADA_SCORE与dbscSNV_RF_SCORE得分均小于0、6,则对剪接位点没有影响(PMID:
28132688)。
Omim_phenotype:
在OMIM数据库中该基因(不就是该变异)对应的表型
QUAL:
测序质量分数,计算方法为Q=-10log10(e),可衡量碱基未正确检出的概率。
FILTER:
对变异位点做进一步的过滤。
无论您用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果就是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其她信息(otherFILTERflag)。
如果这一栏就是一个“、”的话,就说明没有进行过任何过滤
INFO&FORMAT:
该栏数据结构GT:
AD:
AF:
ALT_F1R2:
ALT_F2R1:
FOXOG:
QSS:
REF_F1R2:
REF_F2R1。
GT:
基因型,对于一个二倍体生物,0表示跟REF一样,1表示表示跟Alt一样;2表示第二个Alt;AD:
对应两个以逗号隔开的值,这两个值分别表示覆盖到REF与Alt碱基的reads数,相当于支持REF与支持Alt的测序深度;AF:
支持Alt的测序深度占总测序深度的比例,即等位基因丰度
NORMAL:
与肿瘤组织对应的正常组织中的信息,一般通过外周血测序获得
TUMOR:
肿瘤组织中的信息
此外还可能包含各种算法对非同义突变保守性预测值,这些算法包括SIFTprediction(T:
tolerated;D:
deleterious),PolyPhenHumanDivprediction(D:
Probablydamaging,P:
possiblydamaging;B:
benign)、LTR、MutTaster、MutationAssessor、FATHMM、CADD、GERP++等等。
2、分析挖掘数据
对全外显子检测(或者属于较大pannel范畴的情况也可以),可以进行肿瘤突变负荷(Tumormutationburden)计算。
临床研究表明,使用PD1/PD-L1抑制剂等免疫治疗药物时,具有较高突变负荷的患者具有较好的客观缓解率(ORR)、较长的无进展生存期(PFS),同时持续临床疗效(DCB)也更佳。
然而,由于目前没有统一的肿瘤突变负荷计算方法,在做纵向比较时需谨慎。
该分析使用的计算方法为,肿瘤组织中突变丰度大于等于5%,正常组织中突变丰度小于等于1%,ExonicFunc、refGene一栏去除“、”、synonymousSNV、unknown标签的数据,PopFreqMax一栏去除人群等位基因频率大于0、1%的数据(注意保留“、”)。
此外,免疫治疗相关的一些基因突变(如EGFR、干扰素信号通路的JAK、B2M等)值得关注。
对全外显子检测,能够发现大量的体细胞突变。
有的突变就是致病性的称为为驱动突变或司机突变(与之对应的称为乘客突变或继发性突变),这些突变或导致DNA修复缺陷,或导致细胞不受调控的增殖生长,或导致细胞不能正常凋亡,或导致细胞侵袭性增强,或导致免疫逃逸。
因而从大量的体细胞突变中鉴定肿瘤的驱动基因突变既就是基因检测的重要目的之一,同时也就是一项艰难的工作。
一般来说一个肿瘤的发生其驱动基因突变的数目为0-8个,且她们不会分布于同一个关键的肿瘤相关信号通路中(比如BRAF与KRAS,比如APC与CTNNB1)或并行的两个重要信号通路中(比如PIK3CA与KRAS)。
一般来说原癌具有较为明显突变热点聚集倾向(比如KRAS与PIK3CA),而抑癌基因的突变位点较为分散(比如RB1与VHL)。
对全外显子检测目前已经在肿瘤中得到较为广泛的应用,如何高效寻找驱动基因突变急需指导与规范化的文件,但由于肿瘤细胞突变多为体细胞突变,遗传性突变领域的规范化文件(后面会具体讲)难以照搬使用。
因为体细胞突变的意义与遗传性突变的意义比如致病性突变这样的描述有所不同,比如我们可以采用响应药物的突变(responsive)、耐药突变(resistant)、驱动性突变(driver)、继发性突变(passenger)来描述突变的意义。
值得庆幸的就是,2017年伊始,分子病理协会(AssociationforMolecularPathology,AMP)、美国临床肿瘤协会(AmericanSocietyofClinicalOncology)与美国病理学家联盟(CollegeofAmericanPathologists)对高通量测序在肿瘤诊疗领域的应用从突变记载(HGVS)、注释解读、报告进行了指导与规范(PMID:
27993330)。
该指导规范中对参考序列数据库(如NCBI)、人群基因频率数据库(如1000G、ExAC)、肿瘤数据库(如COSMIC、ICGC)、疾病数据库(如HGMD、ClinVar)、预测软件(如PolyPhen2、HumanSplicingFinder)的使用与注意事项给出了意见。
该规范还推荐对肿瘤细胞的体细胞变异划分为四个级别:
具有确定性临床意义的突变(variantswithstrongclinicalsignificance,LevelA与LevelB)、可能具有临床意义的突变(variantswithpotentialclinicalsi