代谢组学数据挖掘及分析操作SOP-_精品文档.doc

资源描述

《代谢组学数据挖掘及分析操作SOP-_精品文档.doc》由会员分享，可在线阅读，更多相关《代谢组学数据挖掘及分析操作SOP-_精品文档.doc（3页珍藏版）》请在冰豆网上搜索。

代谢组学数据挖掘及分析操作SOP-_精品文档.doc

代谢组学数据分析操作SOP

应用Masslynx的离线软件进行色谱峰自动识别，峰匹配（峰对齐）和归一化处理，生成biomarkers；（需较长时间,最好在台式电脑上操作比较快）

1）将生成的biomarkers导入simca-p12.0进行PCA分析，如果分的好采用此种方式，如果分的不好可进行剔除圈外点后进行PLS-DA分析，且进一步剔除圈外点（注：

不是所有在圈外的点都应该剔除，选择性剔除较远点后，有的较近的点会自然落在圈内）；

2）Simca-p比较适合两组间的比较，所以组数不要太多，且分的组数比每组的样本数还多是绝对不允许的；

3）在PCA或者PLS-DA生成的scores图中可以看到各组间聚集效果，可以设置相应参数。

在loading图中可以生成vip值列表，挑选VIP>1的化合物进行下一步分析，如果太多可以选择峰面积比值在2以上的标志物为主要标志进行下一步分析；

4）对simca-p进行的两两比较的组，同样进行t-test检验，P<0.05表示有显著性差异；同时满足以上两点的化合物可作为第1轮的标志物；

5）在masslynx软件中，选择QC样本的色谱峰，对以上标志物进行峰提取，点击该图标

输入分子量，按住鼠标右键,拖拉出平均分子量（我们会发现平均分子量对应的出峰时间与masslynx处理数据后的出峰时间不一样，后者是所有样品在该点出峰的平均出峰时间，而前者是输入该分子量后提出来的平均时间，因此不同，但一般在0.05的范围内偏差是可以接受的。

）

7）找出提取的峰为该时间点上最强峰的离子峰（如果有二倍体峰[2（M+1）-1]，更有说服力），定为标志物，否则直接舍弃，可能是碎片峰或者基线波动。

所有的分子量都应该提取平均的分子量,不能直接点击否则会有挺大误差.通过此步后会筛除一部分化合物，得到第2轮的标志物。

注：

一般1min以前的很可能是溶剂峰,可以先提取平均分子量,看下与质谱出来的分子量是否一致,一般即便去鉴别,鉴别出来的化合物也不对.不是极性不可能,就是这个化合物不可能出现在这里.首先看该峰的信噪比，定性的峰高必须是基线的3倍以上，否则直接剔除掉；如果为母粒子,一般有二倍体峰M=[2（M+1）-1],如果没有,该峰前面还有更大分子量的峰,可以进行比较,看是否为常见碎片,一般相差1,18等,虽然TOF不能较彻底打碎化合物,但由于质谱的软电离,也会有简单的打碎.如果可能是碎片的就排除,如果不是碎片的可以保留,很有可能是标志物（一般标志物有多少就看QC样本的峰有多少,一般不会超过30个,即使血清有1000+个化合物,但能在UPLC-TOF中保留的并不多,而且即使有峰也不一定就是标志物）.

如果遇到同分异构体无法确定的,可以去google学术中看同样是尿或者血清样本的代谢组学研究，无论研究的是什么药，只要有过某一同分异构体的文献描述，且较多的，就可以相互佐证是这个标志物了。

8）通过以上筛选后的化合物进行HMDB数据库筛选,选出内源性的物质作为标志物，并与masslynx软件中的I-FIT功能，对所筛查到的具有显著性差异的代谢物进行分析，计算其可能的分子式,一般同位素匹配度越好，质量偏差越小的化合物为正确化合物的可能性大（其实一般上述步骤筛选结束后不需要再用I-fit功能了）。

这些标志物可能有同分异构体或者相同分子量的不同化合物，也有可能是含量较大的碎片峰，这是第3轮的标志物。

isfoundinalcoholicbeverages

isfoundinpomes/cloves/fatsandoils/fishes/nuts/corn/mushrooms

isaflavouringingredient

isusedasafoodadditive

isafoodflavorant/fruitflavouring

isfoundincitrus/inmilkandmilkproducts/brassicas/greenvegetables/cerealsandcerealproducts/foundinanimalfoods

isfoundinherbsandspices

isderivedfrombacterialorplantsources

isonlyfoundinindividualsthathaveusedortakenthisdrug

isisolatedfromleavesofSteviarebaudiana（stevia）.

isanormalurinary…/foundinnormalurine

issynthetic..

以上叙述的，都不用考虑，不是内源性的物质；还要看BiofluidLocations位置是否在尿样，血样或者自己所属的样本中。

此外的看Origin是否是endogenous的。

关于质谱测定分子量与实际分子量间的差距，一般负模式下，质谱出来的MASS，需要加上H的分子量，M（H）=1.01（具体值忘记了，总之不是1）

9）将上一步所得的第三轮标志物做UPLC-QTOF二级谱打碎，通过物质的软电离打碎情况去初步验证是否为该化合物。

在HMDB中去查找第3轮标志物的结构文件（.mol）并将血清及尿样的标志物分别保存在不同文件夹中，如果有同分异构体或者不能判断的均编相同号保存。

二级打碎后，在相应的离子通道中提取该分子量的峰，并找到其二级谱，进过二级打碎后，母粒子的含量会减少很多，且一般不会再有二倍体峰出现。

在masslynx的list界面中找到某一进样样品，点击chromatogram按钮，进入chromatogram界面，点击菜单栏中的display，点击Tic…选项，处理不同的质荷比通道，选择你输入的不同通道，在图中任意位置右击就能看见你所输入的质荷比通道。

然后看该质荷比在你原来色谱中出峰时间，对改峰进行右击拖拉出平均分子量，出来的就是二级谱图。

再在二级谱图中，选择Tools菜单选项下的MassFragment…选项,选择该质荷比的.mol文件导入，在线搜索出该质荷比物质可能的碎片结构，嫩绿色表示可能性较大，红色短线表示其断裂位置，灰色表示断掉的碎片。

同分异构可以通过这样的方法去鉴别，匹配度越高，碎片重合越多，可能性越大。

如果还有不能确定的同分异构可在文献中输入该物质，一般报道其为内源性物质的文献越多，该内源性物质研究的文献越多，那么这个质荷比为该结构的可能性越大。

进而最终得到第4轮标志物。

10）将第四轮筛选出来的标志物进行标准品比对。

结束第5轮筛选，得到最终的生物标志物（第5轮的标志物）。

展开阅读全文