模型验证相关材料.docx

资源描述

模型验证相关材料.docx

《模型验证相关材料.docx》由会员分享，可在线阅读，更多相关《模型验证相关材料.docx（21页珍藏版）》请在冰豆网上搜索。

模型验证相关材料.docx

模型验证相关材料

4.6.1模型拟合能力评价

模型拟合能力评价主要用于表明模型解释训练集变化的能力。

本文主要采用以下几个统计评价指标对模型拟合能力进行评价：

1）相关系数（R）

相关系数表示预测值与目标值之间线性关系的密切程度，其取值范围在0到1之间。

其值越接近于1，表示线性关系越强；越接近于0表示线性关系越差。

2）决定系数（R2）

决定系数又称为复相关系数，它是判定线性回归拟合优度的重要指标，其定义为

（4-1）

从上面的公式可以看出，决定系数等于回归平方和在总平方和中所占的比例，因此它体现了回归模型所能解释的应变量变异的百分比。

例如，R2=0.825说明应变量的变异82.5%是由自变量引起的；R2=1则表明所有的观测点都落在回归方程上；R2=0则说明自变量与应变量间不存在线性关系。

3）均方根误差（RMSE）、平均绝对误差（AAE）、平均相对误差（APE）和标准误差（SE）

均方根误差表示随机误差的分散程度，其定义为

（4-2）

平均绝对误差表示拟合值与目标值之差，其定义为

（4-3）

平均相对误差的定义为

（4-4）

标准误差指拟合值的标准误差，其定义为

（4-5）

上述各式中，n为实验样本数，

和

分别为样本预测值及目标值。

这些参数都是衡量模型精确度的一些常用参数，它们依赖于应变量数据的范围和分布，并受“离域点”的影响[133]。

4）F检验

F检验是一种检验自变量和应变量之间的线性关系是否显著的方法，适用于基于MLR方法建立的模型[133]。

它将回归离差平方和与剩余离差平方和进行比较，分析二者之间的差别是否显著。

如果是显著的，说明两个变量之间存在线性关系，如果不显著，则说明两个变量之间不存在线性关系。

上述评价指标能够对模型的拟合能力进行较好的评价。

然而，对于QSPR研究中经常出现的两类问题——“欠拟合”和“过拟合”问题，它们却无法进行有效的鉴别。

所谓“欠拟合”，是指模型没有充分揭示出样本集所包含的变量信息，从而导致模型的预测能力降低，这类问题常出现于采用线性建模方法所得到的模型；所谓“过拟合”则是由于拟合了误差信息，导致模型拟合度高于性质数据和描述符结合的变化性，这类问题常出现于采用非线性建模方法所得到的模型[134]。

由于这两类问题与模型的稳定性紧密相连[133,135]，因此对于此类问题的鉴别，常需要通过模型的稳定性分析加以解决。

4.6.2模型稳定性分析

所谓模型稳定性分析实际上是对模型的“不稳定性”进行分析。

模型“不稳定性”的含义是模型受训练集中某些个别化合物或化合物子集的影响比较大，如果化合物的预测值超出模型的置信区间，就会导致模型不稳定[133]。

目前文献上直接对模型的不稳定性进行定量分析的研究较少。

对模型不稳定性的研究更常用的方法是通过内部验证的方式进行。

因为任何内部验证技术都能在一定程度上评价模型的不稳定性。

因此，本文采用以下几种内部验证技术对模型稳定性进行研究：

1）“留多法”交互验证[136]

“留多法”（Leave-many-out,LMO）交互验证是一种较为常用的内部验证技术。

该方法将初始训练集中的n个样本平均划分为大小为m的G（=n/m）个子集，然后每次去除m个数据点，采用剩下的n-m个样本作为训练集重新建模并验证由m个样本构成的验证集。

经G次计算，得到交互验证系数Q2来表征模型的稳定性和内部预测能力[136]。

一般认为，如果Q2大于0.5，则模型比较稳定；如果大于0.9，则模型的稳定性非常优秀[137]。

Q2的计算公式如下：

（4-6）

其中，yi，

和

分别代表训练样本的自燃点实验值、预测值及实验值平均值。

2）“留一法”交互验证[136]

“留一法”（Leave-one-out，LOO）交互验证是一种特殊的“留多法”交互验证方法，其具体过程与“留多法”相似，区别仅在于m＝1。

由于“留一法”利用了全部的样本数据，因而也是一种最经济的方法。

尽管有研究者指出，“留一法”交互验证所得结果常会过高的估计模型的预测能力[138]，但它在QSPR建模过程中仍是必不可少的，尤其是对于小样本的研究体系。

3）Y-随机性检验[136]

Y-随机性检验也是一种广泛用于表征模型稳定性的统计方法。

它将原样本集因变量Y随机打乱，与原有自变量组合成新的样本集，建立模型。

重复上述过程50~100次，将结果与原样本集结果对比，若原样本集预测模型性能参数明显优于新样本集的性能参数，则认为原样本数据中存在真正的QSPR关系，所建模型稳定性较好，不存在“偶然相关”现象；反之，则表明原所建模型不能被接受。

4）残差图分析法

残差图分析法指在直角坐标系中以预测值为横轴，以残差为纵轴绘制残差的散点图。

如果散点呈现明显的规律性，则认为所建模型存在自相关性或者存在非线性、非常数方差的问题；如果散点呈现随机分布，则认为所建模型是合适的，在建立过程中未产生系统误差。

内部验证在QSPR建模过程中是必不可少的一步，但是内部验证结果好只能说明模型稳定性较高或具有较强的内部预测能力，并不能保证模型对外部样本的真实的预测能力也好。

因此，还必须对模型的外部预测能力即外推性进行评价。

4.6.3模型预测能力评价

QSPR模型的预测能力以模型的拟合优度、稳定性为基础。

评价模型预测能力最有效的方法是进行外部验证，即采用未参与建模的独立的样本集作为验证集，以评价模型对未知化合物的预测能力。

其具体方式如下：

将原始样本集按照一定的比列随机划分为训练集和测试集两个子集，其中训练集用于变量选择和建模，测试集则用于对模型的外部验证[136]。

外部验证的结果既能够体现所建模型的泛化能力，又能够反映模型对未参与建模的外部样本的真实预测能力。

对于样本划分时训练集和测试集中样本的比例，目前还没有明确的定论，大多数研究中测试集的样本个数都远远小于训练集的样本个数。

Gramatica[138]最近的研究指出，对某一QSPR模型预测能力的验证不能仅仅通过少量化合物（≤5个）进行，而必须建立在足够大的外部测试集的基础之上（≥样本集的20％），以避免“偶然相关”现象的发生。

因此，本文在各燃爆特性的预测研究中均随机选择样本集中20％的样本作为测试集，其余80％样本作为训练集，以保证模型验证的有效性。

模型的外部预测能力可以用测试集样本预测值与目标值之间的交互验证系数Q2ext来衡量：

（4-7）

其中，yi和

分别表示测试样本燃爆特性的实验值和预测值，

表示训练样本燃爆特性实验值的平均值。

此外，前面评价模型拟合能力所用的统计评价指标，如R2，RMSE，AAE，APE和SE等，均同样可以用来对模型的预测能力进行衡量。

一般来说，针对测试集的指标都要比训练集的差一些，但如果前者远远差于后者，那么模型很有可能发生了“过拟合”。

此外，Q2ext与测试集的拟合系数R2之间没有相关性，较高的Q2ext值仅仅是模型具有较高预测能力的必要条件，而非充分条件[139,140]。

5.3结果与讨论

5.3.1模型Ⅰ结果

针对训练集样本，采用GA-MLR方法在广泛的分子描述符空间进行搜索，通过比较所得各模型适应度函数的大小，确定了本研究中与有机物闪点最为密切相关的5个分子描述符，其类型与定义列于表5-1；最佳描述符所对应的最优MLR模型见下式：

FP=81.321-28.669*CIC0+80.491*RDCHI+54.497*ESpm02d

+34.098*nHDon-5.651*nCOOR（5-1）

回归范围：

169.15K≤FP≤716K

R2=0.967，Q2LOO=0.967，SE=12.59，F=4832.180，n=824

式中，FP为闪点，R2为复相关系数，Q2LOO为“留一法”交互验证的复相关系数，SE为模型标准误差，F为F检验值，n为模型中样本数。

模型的其它统计学参数见表5-1。

表5-1模型Ⅰ所选择的分子描述符及其统计学参数

Table5-1DescriptorsselectedformodelⅠandtheirstatisticsparameters

描述符

类型

定义

系数

标准误差

t-值

平均

影响值

常数

81.321

CIC0

拓扑描述符

补充信息量（0阶邻域对称性）

-28.669

0.881

-32.536

-95.760

RDCHI

拓扑描述符

反距离Randic类型指数

80.491

1.489

54.068

175.897

ESpm02d

边缘邻接指数

边缘邻接矩阵中的02谱矩

（按偶极矩加权）

54.497

1.340

40.680

175.243

nHDon

官能团

与N原子和O原子相连的H原子数

34.098

0.613

55.650

12.952

nCOOR

官能团

脂肪酯数目

-5.651

1.125

5.021

-0.679

在模型Ⅰ所选择的5个分子描述符中，CIC0和RDCHI均为拓扑描述符，由分子图论获得。

其中，CIC0主要衡量分子中元素的差异程度；而RDCHI主要表征分子的大小和形状。

ESpm02d为边缘邻接指数，它主要表征分子中键的数目和强度。

nHDon和nCOOR均为官能团描述符。

其中，nHDon表示分子中与所有的O原子和N原子相连的H原子的总和，它与分子中氢键形成的可能性密切相关；而nCOOR表示分子中脂肪酯的数目，它能够对相应化合物的结构特征进行更好的表征[67]。

随后，应用模型Ⅰ（式5-1）对训练集中824个样本的闪点进行校准，以评价模型的拟合能力；同时，对测试集中206个样本的闪点进行预测，以验证模型的外部预测能力。

经过计算，所得闪点校准值与预测值见附表1，模型Ⅰ的主要性能参数见表5-2，模型校准值和预测值与实验值的比较见图5-1。

表5-2模型I，II，III的主要性能参数

Table5-2Themainstatisticalparametersoftheobtainedmodels（I,II,III）

性能参数

模型I

模型II

模型III

训练集

测试集

样本集

训练集

测试集

样本集

训练集

测试集

样本集

0.967

0.970

0.968

0.975

0.973

0.975

0.974

0.976

Q2LOO

0.967

0.973

0.974

Q2ext

0.970

0.972

0.973

AAE

10.22

9.67

10.11

8.65

8.95

8.71

8.62

8.93

8.68

RMSE

12.58

12.23

12.51

10.93

11.64

11.07

10.89

11.43

11.00

824

206

1030

824

206

1030

824

206

1030

图5-1模型I所得闪点预测值（校准值）与实验值的比较

Fig.5-1Correlationbetweenthepredicted（calibrated）andexperimentalFPvaluesformodelI

从表5-2可以看出，模型Ⅰ对测试集样本的预测平均绝对误差为9.67K，在±10K[145,146]的闪点实验误差允许范围之内，这说明模型Ⅰ具有较强的预测能力。

同时，通过比较训练集和测试集的预测结果发现，两个子集的预测误差（AAE和RMSE）不但较低，而且均比较接近。

这说明模型Ⅰ不但具备较强的预测能力，而且具有较强的泛化性能[138]。

随后，对样本集中所有1030个化合物的预测相对误差进行计算。

通过计算，得到模型Ⅰ的预测平均相对误差为2.90%，最大相对误差为10.6%。

具体计算结果见图5-2。

从图中可以看出，共有859个化合物的预测相对误差小于5%，超出了模型中所有样本数的80%。

图5-2模型I所得预测相对误差及各误差范围中的化合物个数

Fig.5-2ThepercenterrorsobtainedbymodelIandthenumberofcompoundsineachrange

然而，从图5-1和图5-2中也可以看出，个别化合物的预测误差较大，如1,4-Benzenedicarboxylicacid，bis（2,3-Dihydroxypropyl）ester和Diisodecylphthalate，其预测误差均大于40K，这说明模型中可能有“异常值”存在，这些“异常值”对整个模型的预测性能产生了一定的影响。

因此，本文对模型中可能存在的“异常值”进行研究，以预测绝对误差大于模型标准误差SE的3倍为标准，对模型I中可能存在的“异常值”进行筛选，筛选结果列于表5-3。

表5-3各模型中的“异常值”及其闪点实验值与预测值

Table5-3Theoutliersineachmodelandtheirexperimentalandpredictedflashpoints

化合物

闪点实验值（K）

闪点预测值（K）

模型I

模型II

模型III

1,4-Benzenedicarboxylicacid,bis（2,3-dihydroxypropyl）estera

575

616.90

583.65

584.22

Diisodecylphthalatea

505.37

546.48

520.56

523.78

Hexamethylphosphoramidea,b,c

378.71

339.35

335.83

331.95

Diisononylphthalatea

489

529.14

511.77

509.44

Diethylphthalateb

390.15

418.39

425.42

411.79

l-Glutamicacidb,c

478

505.20

512.45

520.46

Sebacicacidb

496

469.77

461.45

466.47

2,6-Toluenediisocyanateb

388

415.75

424.65

417.39

Isophoronediisocyanateb

383.15

413.21

421.13

397.80

Tartaricacidb

483.15

502.87

516.67

512.96

gamma-Valerolactonec

354

327.30

324.26

320.39

a模型I中的“异常值”；b模型II中的“异常值”；c模型III中的“异常值”

关于“异常值”产生的原因，可能主要有两个方面：

一是其闪点实验数据本身存在问题；二是其与闪点密切相关的部分结构特征没有得到很好的表征。

具体原因将在下文中继续予以讨论。

5.3.2模型Ⅱ结果

模型Ⅱ是以模型Ⅰ所选择的分子描述符作为输入变量，以相应的闪点作为输出变量，应用非线性的支持向量机方法所建立的混合性QSPR模型。

为了与模型Ⅰ具有可比性，模型Ⅱ中选取的训练集和测试集与模型Ⅰ完全相同。

模拟开始前首先对所有样本数据进行“归一化”处理，确保所有数据点均在[-1–1]范围之内；随后针对训练集样本，采用基于“留1/5法”交互验证的格点搜索方法确定SVM模型的最优参数如下：

C=512，ε=0.03125，γ=0.125，相应的支持向量数为348；然后以上述参数作为SVM的输入参数建立相应的QSPR预测模型，即模型Ⅱ。

模型建立以后，应用该模型分别对训练集和预测集样本的闪点进行预测，所得1030个样本的预测值见附表1，模型Ⅱ的主要性能参数见表5-2，模型预测值与实验值的比较见图5-3。

从表5-2可以看出，模型Ⅱ对测试集样本的预测平均绝对误差为8.95K，在闪点实验误差允许范围（±10K）之内，说明模型Ⅱ同样具有较强的预测能力。

同时，对训练集和测试集的预测结果进行比较，发现两个子集的预测误差不但较低，而且比较接近，说明模型Ⅱ同时具备较强的预测能力和泛化性能。

图5-3模型Ⅱ所得闪点预测值与实验值的比较

Fig.5-3CorrelationbetweenthepredictedandexperimentalFPvaluesformodelⅡ

通常，由于SVM方法具有强大的数据拟合能力，在输入变量相同的情况下，模型Ⅱ的预测性能一般要优于模型Ⅰ。

通过对两个模型进行比较，发现模型Ⅱ相对于训练集和测试集的预测误差RMSE分别比模型Ⅰ下降了13.1%和4.8%。

随后，对样本集中所有1030个化合物的预测相对误差进行计算，得到模型Ⅱ的预测平均相对误差为2.52%，最大相对误差为23.29%。

具体计算结果见图5-4。

从图中可以看出，共有909个化合物的预测相对误差小于5%，接近模型中所有样本数的90%。

说明与模型Ⅰ相比，模型Ⅱ中具有较大预测误差的样本数明显减少。

图5-4模型Ⅱ所得预测相对误差及各误差范围中的化合物个数

Fig.5-4ThepercenterrorsobtainedbymodelⅡandthenumberofcompoundsineachrange

同样，从图5-3和图5-4中也可以看出，模型Ⅱ中可能有“异常值”存在。

本文以模型标准误差SE的3倍为标准，对模型Ⅱ中可能存在的“异常值”进行筛选，筛选结果列于表5-3。

5.3.3模型III结果

为了进一步对闪点与其分子结构间可能存在的非线性关系进行研究，本文采用新建立的GA-SVM方法建立相应的最优纯非线性模型。

模型II中通过搜索所获得的SVM最优参数在GA-SVM参数设置中被保留。

同时，为了与前面两个模型具有可比性，在进行GA-SVM筛选时，模型III中所选取的分子描述符个数以不大于5个为标准。

随后，针对同样的训练集样本，采用GA-SVM方法在广泛的分子描述符空间进行搜索，当算法满足终止条件以后，得到与有机物闪点非线性关系最为密切的5个结构描述符，其类型与定义列于表5-4。

在这5个分子描述符之中，有3个描述符（RDCHI，ESpm02d，nHDon）同样出现在模型Ⅰ之中，其所表征的分子结构特征见模型Ⅰ。

SIC0为拓扑指数，主要衡量分子中元素的差异度和分子形状；RCON为GETAWAY描述符，与分子的3D结构有关，主要表征分子的大小、构象变化以及周期性。

表5-4模型III所选择的分子描述符

Table5-4DescriptorsselectedformodelIII

描述符

类型

定义

RDCHI

拓扑描述符

反距离Randic类型指数

SIC0

拓扑描述符

结构信息量（0阶邻域对称性）

ESpm02d

边缘邻接指数

边缘邻接矩阵中的02谱矩

（按偶极矩加权）

RCON

GETAWAY描述符

Randic类型R矩阵连接性

nHDon

官能团

与N原子和O原子相连的H原子数

随后，应用所选择的这5个结构参数建立相应的SVM模型，模型的输入参数通过“留1/5法”交互验证确定如下：

C=32，ε=0.03125，γ=0.25，相应的支持向量数为333。

模型建立以后，应用该模型分别对训练集和测试集样本的闪点进行预测，所得1030个样本的预测值见附表1，模型III的主要性能参数见表5-2，模型预测值与实验值的比较见图5-5。

图5-5模型III所得闪点预测值与实验值的比较

Fig.5-5CorrelationbetweenthepredictedandexperimentalFPvaluesformodelIII

从表5-2可以看出，模型III对测试集样本的预测平均绝对误差为8.93K，在闪点实验误差允许范围（±10K）之内，这说明模型III同样具有较强的预测能力。

同时，通过对模型III训练集和测试集的预测结果进行比较发现，两个子集的预测误差不但较低，而且比较接近，说明模型III同样具备较强的泛化性能。

同时，对模型III和模型Ⅰ的预测性能进行比较，发现模型III相对于训练集和测试集的预测误差RMSE分别比模型Ⅰ下降了13.4%和6.5%。

与模型II相比，模型III的预测性能得到进一步提升。

随后，对样本集中所有1030个化合物的预测相对误差进行计算，得到模型III的预测平均相对误差为2.50%，最大相对误差为12.35%。

具体计算结果见图5-6。

从图中可以看出，共有929个化合物的预测相对误差小于5%，接近于模型中所有样本数的90%。

同样，模型III中具有较大预测误差的样本数比模型Ⅰ明显减少。

图5-6模型III所得预测相对误差及各误差范围中的化合物个数

Fig.5-6ThepercenterrorsobtainedbymodelIIIandthenumberofcompoundsineachrange

关于模型III中存在的“异常值”，以同样的标准进行筛选，筛选结果列于表5-3。

从表5-3可以看出，Hexamethylphosphoramide在3个模型中均作为“异常值”出现，即无论是在线性模型、混合模型还是非线性模型之中，该物质均被认为是“异常值”。

结合前文关于“异常值”产生原因的讨论，可以推断该物质成为模型“异常值”的主要原因是其闪点实验数据本身存在问题。

关于模型中出现的其它“异常值”，由于3个模型中至少有一个模型能够对其进行较好的预测，因此可以推断这些物质在某些模型中成为“异常值”的主要原因，可能是由于其与闪点密切相关的有关分子结构特征在相应模型中没有得到很好的表征。

5.3.4模型稳定性分析

为了进一步对所建模型的稳定性进行分析，排除建模过程中“偶然相关”现象的发生，本文采用“Y-随机性检验”方法分别对三个模型进行验证。

“Y-随机性检验”是一种评估QSPR模型对“偶然相关”现象依赖程度的方法。

该方法首先将训练集样本中的自变量x保持不变，将对应的应变量y顺序随机打乱，使应变量和自变量不再一一对应，从而消除两者之间可能存在的内在相关性；随后，针对上述改变序列的新样本集建立新的QSPR模型，并计算其相关性能参数如R2等；将上述过程重复运行50~100次，获得某一相对“最优”的预测模型，将其与基于原始样本建立的实际预测模型进行比较，若实际预测模型的性能参数明显优于相对“最优”模型，则认为原始样本数据中存在真正的QSPR关系，所建立的模型稳定性较好，不存在“偶然相关”现象；反之，则表明原所建模型不能被接受。

本文将“Y-随机性检验”方法针对三个模型分别运行50次。

对于模型Ⅰ所得最大R2为0.020，模型Ⅱ最大R2为0.022，模型III最大R2为0.025，三者均分别不足原始模型R2的1/10。

由此可见，只有在使用正确的应变量数据时样本数据才能产生合理的QSPR模型。

因而本文所建立的预测模型不存在“偶然相关“现象，具备较强的稳定性。

随后，本文还对模型的预测残差进行分析，讨论模型在建立过程中是否有系统误差产生。

三个模型的预测残差图分别见图5-7，5-8及5-9。

由图可以看出，三个预测模型的计算残差均随机分布于基准线的两侧，不存在明显的规律性。

由此可以推断，三个预测模型在建立过程中未产生系统误差。

图5-7模

展开阅读全文