质谱的蛋白质组相对定量新方法和新技术生物分子高效分离与表征.docx
《质谱的蛋白质组相对定量新方法和新技术生物分子高效分离与表征.docx》由会员分享,可在线阅读,更多相关《质谱的蛋白质组相对定量新方法和新技术生物分子高效分离与表征.docx(13页珍藏版)》请在冰豆网上搜索。
质谱的蛋白质组相对定量新方法和新技术生物分子高效分离与表征
国家重点基础研究发展计划(重大科学研究计划)课题年度报告
项目编号:
2012CB910600
项目名称:
蛋白质定量新方法及相关技术研究
课题编号:
2012CB910602
课题名称:
基于色谱-质谱的蛋白质组相对定量新方法和新技术
2012年12月1日
一、年度计划执行情况
1.年度计划完成情况
按照项目年度计划要求,本年度重点开展了18O标记结合二甲基化标记的二级质谱定量的新方法;开展了iTRAQ结合18O标记相对定量技术;发展了针对非标记定量技术的归一化新算法;和编写了定量软件pQuant。
按项目任务书的规定,完成了研究内容和预期目标。
在二级质谱定量方面:
发展了18O标记结合二甲基化标记的二级质谱定量新方法。
该方法针对目前所发展的基于二级质谱by离子定量方法的局限性,开发一种适用于所有蛋白样品分析、基于常规的胰蛋白酶酶解、价格低廉的等重标记的b,y离子对二级质谱定量方法,对定量蛋白质组学研究具有重要的现实意义。
在目标糖蛋白质定量方面:
发展了iTRAQ结合18O标记相对定量技术。
该方法用18O酶促标记,在糖基化位点处引入质量标签,可实现糖肽的定量;在肽段层面上引入iTRAQ质量标签,可实现多组样品的同时定量;并且由于在糖肽、非糖肽中均引入了质量标签,可以实现糖基化程度和蛋白水平的同时定量。
在二级质谱定量的算法方面:
发展了通过提取串级质谱中b,y碎片离子对的峰强度信息来得到肽段和蛋白的定量信息的ITMSQ算法。
为了避免串级质谱图中b,y碎片离子对共碎裂谱图对肽段正确定性的影响,在ITMSQ定量软件中加入了一个“谱图拆分”优化模块后,显著减少了b,y碎片离子对共碎裂谱图对正确定性和定量的影响。
在非标记定量的算法方面:
发展了一种归一化新算法:
以两种二级谱碎片离子强度SI(SpectralIndex)和SMT(SummedMS/MSTIC)作为蛋白质丰度表征值,以蛋白长度作为校正因子的归一化算法NSI(NormalizedSI/L)和NSMT(NormalizedSMT/L),显著降低了定量的RSD值。
在定量软件开发方面:
编写了pQuant软件,设计了可以识别干扰色谱峰的打分算法InterferenceScore,将该算法整合入定量软件pQuant后,使得pQuant的定量准确性较常见定量软件Census有很大提高。
发表SCI论文21篇;申请国家发明专利1个,授权发明专利1个。
2.研究工作的主要进展
2.1建立了18O标记结合二甲基化标记的二级质谱定量的新方法
为解决之前所发展的二级质谱定量IVATAL方法只适合于细胞培养样品的问题,使之可以适用于更广泛的样品来源,包括组织等,以及不能使用常用的胰蛋白酶、定量率低的问题,发展了18O标记结合二甲基化标记的二级质谱定量的新方法。
将两组对照样品的胰蛋白酶酶解肽段分别在H216O或H218O水中进行胰蛋白酶催化的标记反应,所有以赖氨酸(Lys,K)和精氨酸(Arg,R)结尾的酶解肽段的C-末端会被标记上两个16O或18O原子,产生4Da的差异。
标记肽段经胍基化修饰后,分别进行二甲基化标记,其中16O标记的样品与氘代甲醛(CD2O)反应,18O标记的样品与甲醛(CH2O)反应。
这样两组样品中的相同肽段实现了等重标记,在一级质谱(MS1)中重叠成单峰,但是在二级质谱(MS2)中产生成对的b,y离子对。
用标准蛋白对该方法的考察结果显示:
该方法有很好的准确性和重现性,在10倍以内有很好的线性关系(R2>0.99)。
对肝癌患者癌症组织样品和癌旁正常组织样品的蛋白质组进行相对定量分析,总共定量到124个显著变化的蛋白质,其中上调45个,下调79个。
很多蛋白质的变化与之前文献报道的变化一致,说明此方法可以应用于大规模实际样品的分析,得到的结果准确、可靠。
2.2发展了“iTRAQplus18O标记相对定量技术
该工作旨在建立适用于多样本,稳定快速的高通量糖基化位点占有率分析的方法,为目标糖蛋白宏观不均一性的研究提供技术手段。
采用iTRAQ和18O两种标记方法,即采用iTRAQ标记非糖肽和糖肽,18O标记糖基化位点,放大串联四极杆飞行时间质谱仪的母离子检测窗口。
将此项技术运用于正常人(N)及肝病(肝癌HCC、肝硬化LC,肝炎HBV)患者血清中结合珠蛋白血清β亚基四个糖基化位点占有率的研究,发现结其Asn241糖基化位点占有率在肝癌血清中显著升高,有着重要的潜在诊断价值。
该技术一方面实现了目标糖蛋白质在糖基化修饰水平和蛋白水平的同时定量,另一方由于18O在糖基化位点处引入标记,提高了糖基化位点鉴定的准确性。
2.3发展了二级质谱定量的算法
为了使IsobaricMS2定量方法得到广泛应用,基于IVTAL方法和SEQUEST搜索引擎,以及Perl语言和Matlab软件,独立开发了一个新的定量分析软件,IsobaricTandemMSQuantitation(ITMSQ),该软件主要是通过提取串级质谱中b,y碎片离子对的峰强度信息来得到肽段和蛋白的定量信息,ITMSQ不仅可以用于IVTAL方法的定量,而且可以用于所有的IsobaricMS2定量方法,包括IPTL和iMSTIQ。
另外,为了避免串级质谱图中b,y碎片离子对共碎裂谱图对肽段正确定性的影响,在ITMSQ定量软件中加入了一个“谱图拆分,spectrumsplitting”优化模块,利用b,y碎片离子对存在固定质量差异的特征,将b,y碎片离子对共碎裂谱图进行拆分,得到单独的两组标记细胞的碎裂谱图,然后经过数据库搜索重新进行肽段和蛋白定性和定量分析,从而减少b,y碎片离子对共碎裂谱图对正确定性和定量的影响。
利用IVTAL方法标记的HeLa细胞产生的质谱数据,IVTAL方法的上下调变化蛋白的界限得到了确定。
另外SEQUEST数据库搜索时b,y离子对的质量偏差和ITMSQ软件提取b,y离子对时离子强度对IVTAL方法定量准确度的影响,也进行了考察。
ITMSQ定量软件中加入了一个“谱图拆分”优化模块后,显著减少了b,y碎片离子对共碎裂谱图对正确定性和定量的影响。
2.4发展了针对非标记定量技术的归一化新算法
针对非标记定量基于二级质谱的算法准确度不高、低丰度蛋白质难以定量的问题,发展了以两种二级谱碎片离子强度SI(SpectralIndex)和SMT(SummedMS/MSTIC)作为蛋白质丰度表征值,以蛋白长度作为校正因子的归一化算法NSI(NormalizedSI/L)和NSMT(NormalizedSMT/L)。
以酵母提取蛋白,并依次含有3倍差异的UPS1标准蛋白混合物(UPS1由48个等摩尔的标准蛋白混合而成)对所建立的方法进行评价,表明NSMT在计算蛋白变化倍数方面最优;NSI在全FDR范围均最优,说明NSI更适合用于检测差异蛋白。
而采用18个标准蛋白混合物重复十次进样的公共测试数据集检验归一化的效果,发现归一化前后18个蛋白十次定量结果的平均RSD可以从约47%下降到约30%,表明了对二级谱碎片离子强度SI及SMT进行归一化操作的必要性。
2.5开发了定量软件pQuant
该软件主要能够分析基于一级谱的标记定量方法产生的数据,如SILAC标记方法等。
重点解决影响一级谱标记定量结果准确性的最主要因素是肽段近质量共洗脱干扰问题。
针对该问题,我们设计了可以识别干扰色谱峰的打分算法InterferenceScore。
该算法对各同位素峰色谱峰之间的相似程度进行计算,相似度高的认为来自正确的肽段信号,相似度低的认为是干扰信号。
在排除干扰信号后,再计算定量结果。
将该算法整合入定量软件pQuant后,我们选择一批轻重1:
1混合的SILAC标记HeLa细胞样品,并将pQuant和与国际主流软件Census进行了对比。
结果显示,pQuant的定量比值(取log2变换后)方差为0.4,Census的定量比值(取log2变换后)方差为0.8,说明pQuant的定量准确性较Census有很大提高。
二、重要阶段性成果或突破(每项300-500字,另附图片)
2.118O标记结合二甲基化标记的二级质谱定量的新方法
发展了一种适用于更广泛的样品来源,包括组织等的二级质谱by离子定量新方法。
该方法解决了之前所发展的二级质谱定量IVATAL方法只适合于细胞培养样品的问题,使之可以适用于更广泛的样品来源,包括组织等,以及不能使用常用的胰蛋白酶、定量率低的问题,发展了18O标记结合二甲基化标记的二级质谱定量的新方法。
(JProteomics,2012,75:
5797)。
具体流程如图1。
两组待分析的蛋白样品经胰蛋白酶酶解后,分别在H216O或H218O中进行胰蛋白酶催化的16O或18O标记,所有酶解肽段的C-末端都标记上两个16O或18O,产生4Da的质量差异。
随后的胍基化修饰将所有肽段中的Lys转化为高精氨酸以封闭其氨基的反应活性,产生42Da的质量增加。
接着,两组样品分别进行肽段N-末端二甲基标记,其中16O标记的样品与CD2O反应,肽段N-末端加上32Da,18O标记的样品与CH2O反应,肽段N-末端加上28Da。
于是两组不同样品中的相同肽段经标记后,最终质量相等,在MS1谱图中重叠成单峰,而在MS2谱图中产生成对的b,y离子对。
其中b离子对中高质量的碎片离子来源于CD2O标记的样品A,低质量的碎片离子来源于CH2O标记的样品B;y离子对中高质量的碎片离子来源于18O标记的样品B,低质量的碎片离子来源于16O标记的样品A。
多对b,y离子对用于计算肽段的比值,即一条肽段多个定量信息,有效降低了定量的随机误差,从而大大提高了肽段和蛋白的定量准确性。
图118O标记结合二甲基化标记的二级质谱定量的新方法示意图。
为了考察IMS2Q[18O+DM]方法定量的动态范围,将两份等量的标准蛋白BSA、myoglobin和cytochromec进行酶解、IMS2Q[18O+DM]方法标记,然后按照18O/16O(即CH2O/CD2O)的比例1:
10、1:
8、1:
4、1:
2、1:
1、2:
1、4:
1、8:
1、10:
1混合,进行质谱分析(图2),发现IMS2Q[18O+DM]方法对于3个标准蛋白在1:
10~10:
1动态范围内均有很好的定量线性(R2﹥0.99)和重现性(图3),说明IMS2Q[18O+DM]方法可以在较宽的动态范围内实现高准确性、高重现性的蛋白定量,为其应用于复杂的实际蛋白样品定量分析提供保证。
对标记后的样品进行了反相色谱效应考察,发现标记后样品的肽段在反相色谱中流出时间一致,无同位素效应。
因此,IMS2Q[18O+DM]方法标记的肽段在反相色谱中同位素效应可以忽略,保证了肽段和蛋白定量的准确性。
进一步采用鼠肝样品进行验证。
实验中取两份等量的鼠肝提取全蛋白,按照IMS2Q[18O+DM]方法实验流程分别进行酶解和标记,1:
1混合后进行1DRPLC-lowpH-MS/MS分析。
为考察定量结果的重现性,整个实验流程重复三次,三次重复实验的LC-MS-BasePeak图中肽段的流出时间和肽段的谱峰强度基本一致,为肽段和蛋白的高准确性、高重现性定量奠定了坚实的基础。
图2标准肽段混合物的定量1:
1,4:
1和10:
1的定量结果。
图3IMS2Q[18O+DM]方法定量动态范围的线性曲线。
图(A)、(B)、(C)分别myoglobin、cytochromec、BSA三次重复实验的定量线性曲线。
将该方法用于肝癌患者癌症组织样品和癌旁正常组织样品的蛋白质组进行相对定量分析,总共定量到124个显著变化的蛋白质,其中上调45个,下调79个(图4)。
图4A左显示三次重复实验分别定量到3314、3059、3074条非冗余肽段,其中1978条肽段在三次重复中均有定量信息。
图4A右显示三次重复实验分别定量到1227、1162、1130个非冗余蛋白,其中847个蛋白在三次重复中均有定量信息,说明我们实验定量的数据规模和重现性均较好。
图4B展示了三次重复实验的蛋白定量比值(癌症/癌旁,即HCC/non-tumor)分布,大部分蛋白的定量比值集中分布在1附近,即log值等于0,表明大部分蛋白在肝癌癌症组织和癌旁正常组织中的表达水平没有发生显著变化,与之前大部分的研究一致,说明IMS2Q[18O+DM]方法定量结果准确、可靠。
图4人肝癌组织和癌旁组织样品的大规模定量结果。
2.2iTRAQplus18O标记相对定量技术
实现多组样品中目标糖蛋白的糖基化位点占有率的同时定量,流程如图4所示。
实现了四种不同样品中目标糖蛋白的糖基化位点占有率的同时定量。
首先纯化正常,肝炎,肝硬化,肝癌血清结合珠蛋白β亚基,经胰蛋白酶酶解后得到的肽段中包括非糖肽和糖肽。
三条糖肽分别为NLFLN207HSEN211ATAK,MVSHHN184LTTGATLINEQWLLTTAK和VVLHPN241YSQVDIGLIK。
采用iTRAQ和18O两种标记方法,即iTRAQ标记非糖肽和糖肽,18O标记糖肽上的糖基化位点,将串联四极杆飞行时间质谱仪(QstarXL)的母离子检测窗口扩大至4Da,同时定量分析Hp-β蛋白和糖肽表达水平。
某条糖肽的丰度值比上蛋白丰度值得到该糖肽上糖基化位点的位点占有率。
该方法可同时完成四种样品中目标糖蛋白的糖基化位点占有率的计算,研究流程如图5所示。
经ProteinPilot™Software(Version3.0,AppliedBiosystems)分析,QstarXL质谱鉴定到Hp-β的13条非糖肽(95%可信度),将其丰度值的平均值作为Hp-β的蛋白水平,得到正常,肝炎,肝硬化,肝癌血清中Hp-β蛋白表达比例为6.43:
2.28:
1:
2.84(表1中平均值),表明其蛋白含量在肝病的进程中,呈先降低、再升高的趋势。
糖肽NLFLN207HSEN211ATAK在正常,肝炎,肝硬化,肝癌血清中的表达比例是7.29:
2.49:
1:
2.76;MVSHHN184LTTGATLINEQWLLTTAK在正常,肝炎,肝硬化,肝癌血清中的表达比例是6.73:
2.47:
1:
3.19;VVLHPN241YSQVDIGLIK在正常,肝炎,肝硬化,肝癌血清中的表达比例是9.11:
2.37:
1:
4.84,见表1。
考虑到非糖肽所得到的蛋白表达比例,通过计算得到NLFLN207HSEN211ATAK上的位点占有率比例为1.13:
1.10:
1:
0.97(N:
HBV:
LC:
HCC);MVSHHN184LTTGATLINEQWLLTTAK上的位点占有率比例为1.05:
1.08:
1:
1.12(N:
HBV:
LC:
HCC);VVLHPN241YSQVDIGLIK上的位点占有率比例为1.42:
1.04:
1:
1.70(N:
HBV:
LC:
HCC)。
按照Ratio>1.5(上调)或Ratio<0.6(下调)为标准筛选,肝癌血清中VVLHPN241YSQVDIGLIK糖基化位点占有率相比肝硬化和肝炎明显上升,Ratio分别为1.70和1.63。
研究表明,‘iTRAQplus18O’定量技术是一种创新、可行的糖蛋白研究策略。
相比于肝硬化和肝炎,结合珠蛋白β亚基的Asn241糖基化位点占有率在肝癌血清中显著升高。
(Talanta,2012,91:
122)
图5iTRAQplus18O相对定量技术路线示意图
表1正常人(N)及肝病(肝癌HCC、肝硬化LC,肝炎HBV)患者血清中结合珠蛋白血清β亚基四个糖基化位点占有率的研究,发现其Asn241糖基化位点占有率在肝癌血清中显著升高(黄色高亮肽段的糖基化位点)。
2.3针对非标记定量技术的归一化新算法
采用NSI、NSMT以及基于SC的归一化算法NSAF(NormalizedSC/L)计算UPS1蛋白的变化倍数,将得到的比值对数转换后做密度分布曲线(图6),定义1.5-6倍为可接受的比值区间(log2水平上为0.585到1.585),则密度分布曲线在此区间下的面积代表了比值落在可接受区间内的概率,分别是49.1%(NSAF)、58.1%(NSI)和59.4%(NSMT),表明NSMT在计算蛋白变化倍数方面最优(Analyst,2012,137:
3146)。
图6三种算法计算的UPS1蛋白变化倍数经过log2转换后的密度分布曲线
采用PowerLawGlobalErrorModel(PLGEM)统计学工具检测含最高和次高浓度UPS1蛋白的两样品中的差异蛋白信息。
定义算法的灵敏度(Sensitivity)为检测到的UPS1差异蛋白个数占UPS1蛋白鉴定总数的比例,假阳性率为检测到的酵母差异蛋白个数占酵母蛋白鉴定总数的比例,在13个不同的p值下(p=0.001,0.005,0.01,0.02,0.05,0.08,0.1,0.2,0.3,0.4,0.5,0.6,0.7)分别计算灵敏度和假阳性率,以三种算法的灵敏度对假阳性率作图(图7),从图中可以看到在FDR≤0.4的区域,NSI和NSAF表现相当且明显优于NSMT,而在FDR>0.4的区域,NSI和NSMT表现相当且明显优于NSAF。
综合来看,NSI在全FDR范围均最优,说明NSI更适合用于检测差异蛋白。
图7三种算法的灵敏度与假阳性率关系图
三、项目执行过程中存在的问题及其对策。
课题按任务书要求顺利实施。
四、下年度研究工作计划和进度安排。
根据项目任务书,本课题下年度工作计划如下。
2013.1-6月将所发展的技术应用于复杂样品,实现1-2种复杂生物体系中低丰度蛋白质的定量分析。
2013.6-9月完善定量软件pQuant,开发软件界面,并支持其他新的定量功能,开发定量准确性评价算法,并做相关测试。
2013.10-12月,将新发展的算法用于复杂样品的数据处理,并进行评价。