基于GAMTweedie模型的车险定价研究解析.docx
《基于GAMTweedie模型的车险定价研究解析.docx》由会员分享,可在线阅读,更多相关《基于GAMTweedie模型的车险定价研究解析.docx(13页珍藏版)》请在冰豆网上搜索。
![基于GAMTweedie模型的车险定价研究解析.docx](https://file1.bdocx.com/fileroot1/2022-11/24/1754a181-459e-4f73-b7e0-fb3c93a23e0c/1754a181-459e-4f73-b7e0-fb3c93a23e0c1.gif)
基于GAMTweedie模型的车险定价研究解析
基于GAM_Tweedie模型的车险定价研究
摘要:
广义线性模型作为车险费率厘定的主流方法,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线性形式的,单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。
本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。
关键词:
广义线性模型,车险费率厘定,Tweedie分布,广义加法模型
1、引言
车险定价实则是对索赔频率、索赔强度或纯保费进行预测。
在车险定价实务中,经常假设索赔频率与索赔强度相互独立,并分别建立索赔频率和索赔强度的广义线性模型。
在独立的假设下,可以把索赔频率与索赔强度的预测值相乘从而求得纯保费的预测值。
这种方法简单易行,在非寿险精算实务中得到广泛的应用,但其忽略了索赔频率与索赔强度之间可能存在的相依关系,从而造成预测的偏差。
而在纯保费的预测中,主要是应用Tweedie广义线性模型。
Tweedie广义线性模型,是假定保单的累积赔付额服从Tweedie分布,对赔付额的均值函数建立回归模型。
其要求协变量的影响为预测函数的线性形式,但在实际的情况下,许多对纯保费的影响因素不仅仅是表现成线性形式的,如空间协变量,大多数情况下其对响应变量均值函数的影响是非线性的,如果单纯地用线性估计会造成一些变量的不显著而丢失重要的影响因素。
为了更好的拟合数据,从而有必要对其进行优化推广,在广义线性模型中纳入平滑预测项,将其推广到广义加法模型。
从线性和非线性两个方面去分析各因素对预测函数不同的影响程度。
本文以一组汽车保险损失数据为样本,建立Tweedie广义加法模型,利用R软件对模型的参数进行估计检验。
通过与Tweedie广义线性模型对比,表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响,从而改进了传统广义线性模型对纯保费的预测精度。
2、理论基础
2.1广义线性模型
广义线性模型(GLM)首次由Nelder和Wedderburn(1972)提出,是常见正态线性模型的推广形式。
模型要求响应变量只能通过线性形式依赖于自变量,从而保持了线性自变量的思想。
其对线性模型进行了两个方面的推广:
一是在因变量分布方面,GLM扩充了分布类型,假设因变量
服从指数分布族,其密度函数可以表示为
其中,
为已知函数,对所有的观察值具有相同的形式。
为自然参数,与均值是一一对应关系,
为离散参数。
指数分布族的均值和方差可以分别表示为:
指数分布族包括正态分布、二项分布、泊松分布、伽马分布和逆高斯分布等。
二是在表达形式方面,GLM是假设响应变量均值经过某连接函数变换后,等于解释变量的线性组合形式,具体如下:
其中,
是风险
的期望值,
是方差函数,
是解释向量,
是回归系数向量,
是线性预测项,
是连接函数。
模型中参数
可利用极大似然估计法来估计,通过加权最小二乘估计,再使用Newton-Raphson迭代算法,可得到
的极大似然估计。
因为数据和算法的复杂,可通过R中的软件包进行拟合。
2.2Tweedie分布
Tweedie分布族是一类特殊的指数分布族,证明参见孙维伟(2014),用
来表示,由方差函数
完全确定,p的取值在。
图一给出了在
、
保持不变的情况下,
取不同的值时Tweedie分布族的概率密度和累积分布。
图一Tweedie分布族的概率密度和累计分布图
其中指数参数
不同的取值对应着不同的分布形式,P=0、1、2、3分别对应正态、泊松、伽马和逆高斯分布,当1
如果保单在保险期间的索赔次数服从泊松分布,每次索赔的赔付额服从伽马分布,则保单在整个保险期间的累积赔付额服从Tweedie分布,适合用来拟合个体保单的总赔付金额数据。
Tweedie分布在零点有一个较大的概率堆积,从图一概率密度函数可看出,当P值越接近2时,其在零点的概率越大,这与车险不发生损失几率大的情况符合。
在车险定价实务中,如果索赔频率和索赔强度之间的相依关系较强时,常采用Tweedie回归模型直接对索赔额建模。
可通过迭代算法求得Tweedie分布指数参数p的极大似然估计值。
2.3广义加法模型
2.3.1模型介绍
进入21世纪以来,分类费率厘定的主流方法被GLM所取代,但随着车险行业的发展、数据的复杂化,由于其对协变量的影响必须为预测函数的线性形式,使得传统的GLM已经不能满足精算者们的需求,于是对GLM进行扩展成广义加法模型(GAM)来拟合更加复杂的数据。
GAM是在GLM的基础框架下,将解释变量的形式引入非参数函数,使得其更一般化,从而具有较小的偏差、良好的稳健性和广泛适用性。
具体来看,GAM由三个部分组成:
随机部分、系统部分和联结函数。
第一部分是随机部分,是指响应变量Y的概率分布。
假设响应变量
的每个观测值相互独立且服从指数分布族,如正态分布、泊松分布、伽马分布、逆高斯分布和Tweedie分布等。
第二部分是系统部分,与GLM不同的是GAM加入了非参数函数部分,表达形式为:
其中X是具有线性影响的解释变量矩阵形式,
是相应的系数矩阵,
是非线性影响的解释变量,
是非参数的待估计的光滑函数,
为响应变量均值,
为联结函数。
第三部分是联结函数。
通过联结函数将响应变量与解释变量连接一起。
常用的联结函数有对数联结函数、倒数联结函数和logit联结函数等。
对于响应变量服从不同的分布其联结函数与之对应,譬如对于泊松分布选择对数联结函数,伽马分布选择倒数联结函数,二项分布假设下则常选择logit联结函数等等。
2.3.2参数估计
GAM是GLM的参数、半参数拓展,可应用不同函数拟合解释变量的非线性关系,假设函数可加、且函数的组成成分是光滑函数,进而可以通过联结函数建立响应变量的均值与解释变量之间的关系。
尤其对于空间数据,GAM能够使解释变量的非线性影响表现得更加明确。
GAM与GLM相比,其核心观点在于非参数部分,即解释变量的非线性影响函数。
因此,GAM的关键在于,如何估计或采用光滑函数逼近这一非参数部分。
GAM的估计与LM相似,就是借助最小二乘法使期望值与观测值之间的差距达到最小,同时兼顾光滑性。
GLM对参数的估计常用极大似然法,GAM对参数的估计可采用惩罚极大似然法(penalizedlikelihoodmaximization),即等价于惩罚迭代加权最小二乘法(penalizediterativelyre-weightedleast,P-IRLS),参见Wood(2006),Marra和Wood(2012)。
GAM除了拟合普通线性因子外,还可以采用不同的光滑函数相加的形式来描述那些与响应变量之间存在复杂非线性关系的变量。
对于每个解释变量所对应的单变量函数的拟合方法有很多种,如核光滑函数、局部加权回归光滑函数、样条函数和张量积函数,这些方法都属于非参数方法。
2.3.3模型的选取与评价
GLM的评价和检验主要是基于模型的偏度和尺度化偏差,另外常用的也有Pearson卡方统计量、残差检验,较为简单的有AIC、BIC等信息准则,它们定义为:
信息准则的值越小表明模型拟合的效果越好。
GAM模型是通过广义交叉验证(GeneralizedCrossValidation,GCV)标准或无偏风险估计(Un-BiasesRiskEstimator,UBRE)标准指定GAM的光滑因子,进而解决光滑参数的估计问题。
因而,GAM的选取可以依据GCV或UBREscore统计量的值,GCV和UBRE定义为:
其中,D是模型的偏差,n是数据个数,s是尺度参数,Dof是模型的有效自由度。
当s未知时,可采用GCVscore估计光滑参数𝝀,当s已知时,可采用UBREscore估计光滑参数𝝀。
Mallows(1973)将UBRE称为Mallows’s Cp,UBRE也可看作是有效赤池信息准则(AIC)的重新调整。
建立合适的GAM的标准是使GCV/UBREscore(比例AIC)最小,或者说,模型的GCV/UBREscore越小,表明模型的估计结果越准确。
所以,比较或选择最优的GLM和GAM的标准之一是AIC统计量值,AIC越小,表明模型的估计越准确,此外,模型的解释偏差或者ANOVA函数也是比较模型的常用方法。
3、实证研究
3.1数据来源及描述
本文采用1977年瑞典汽车第三者责任保险的一组详细损失数据(数据来源:
www.statsci.org)。
该数据有七个变量:
年行驶里程数(分为5个等级,用K表示)、行驶地区(分为7个等级,为更准确拟合数据分布本文只采用前6个等级,用Z表示)、无赔款折扣等级(分为7个等级,用B表示)、车型(分为9个等级,用M表示)、保单年数、赔付次数和总赔付额,详细描述见表一。
所有的被保险人被划分成了1887个类别,总的保单年数为2364086.33,经验数据的平均索赔频率为0.048,次均赔款为4956.56,平均纯保费为235.98。
表1变量说明
Variable
Description
Kilometres
Kilometrestravelledperyear
1:
<1000
2:
1000-15000
3:
15000-20000
4:
20000-25000
5:
>25000
Zone
Geographicalzone
1:
Stockholm,Göteborg,Malmöwithsurroundings
2:
Otherlargecitieswithsurroundings
3:
SmallercitieswithsurroundingsinsouthernSweden
4:
RuralareasinsouthernSweden
5:
SmallercitieswithsurroundingsinnorthernSweden
6:
RuralareasinnorthernSweden
Bonus
Noclaimsbonus.Equaltothenumberofyears,plusone,since
lastclaim
Make
1-8representeightdifferentcommoncarmodels.Allothermodels
arecombinedinclass9
Insured
Numberofinsuredinpolicy-years
Claims
Numberofclaims
Payment
TotalvalueofpaymentsinSkr
3.2分布选择
在建模前,首先要确定响应变量Y的分布。
为排除因忽略索赔次数和索赔强度之间可能存在相依关系而导致预测偏差的缺陷,本文直接对索赔额建模,采用Tweedie分布,但其前提必须满足,索赔次数服从poisson分布,每次索赔的赔付额服从gamma分布。
索赔次数、索赔强度和索赔金额的拟合分布如下图所示,第一个图曲线是poisson分布对索赔次数的拟合值,第二个图中的曲线是gamma分布对索赔强度的拟合值,通过对图形的观察我们可以得到用poisson分布拟合索赔次数、gamma分布拟合索赔强度其拟合效果较好。
最后一个是索赔额的直方图,在零点有很大的概率堆积,这与汽车保单损失情况符合。
因此,保单累积赔付拟合Tweedie分布是合理的。
图二分布拟合
3.3模型建立
在索赔额服从Tweedie分布的情况下,对索赔额数据建立广义线性模型,但考虑解释变量对响应变量函数的影响可能不全是线性的,例如区域变量,其对索赔额的影响大多情况下是非线性的,因此,为了更好刻画解释变量与响应变量之间的关系,另外再建立广义加法模型与之对比。
3.3.1Tweedie分布指标p的确定
对于本组数据,假定索赔额服从Tweedie分布。
首先要确定分布的指标参数,可根据样本观测值来拟合分布,具体可利用R软件中的tweedie.profile函数来迭代估计指标p,得到p的近似值为1.851。
通过其概率密度分布图可知其索赔额在0处有大堆积概率,这与汽车保险索赔数据不发生损失几率较大的情况相符。
3.3.2GLM_Tweedie模型的建立
以索赔额(Y)为响应变量,年行驶里程数(K)、行驶区域(Z)、无赔款折扣等级(B)和车型(M)为自变量建立如下模型:
其中
包含行驶里程数、区域、无赔款折扣等级和车型等26个指示变量,
为待估计参数。
利用R软件中的glm函数对模型参数进行估计,得到表二结果,由结果可见,拟合效果一般。
在显著水平为0.05的情况下,无赔款折扣等级、里程变量和区域变量对索赔额函数的线性影响不明显。
因此考虑无赔款折扣等级的非线性影响情况,另外常规情况下汽车损失的情况与地理区域大多呈现非线性影响,所以也对区域变量与索赔函数应建立非线性关系。
由此建立GAM_Tweedie模型。
表2GLM_Tweedie回归模型的参数估计值
因子水平
Estimate
因子水平
Estimate
Intercept
8.52946
***
B4
0.02947
K2
0.03881
B5
0.03811
K3
0.04236
B6
0.10609
K4
-0.12147
B7
0.1664
.
K5
-0.1203
M2
-0.12227
Z2
-0.08294
M3
-0.0545
Z3
0.03153
M4
-0.47972
***
Z4
0.13
M5
-0.10621
Z5
-0.1127
M6
-0.05445
Z6
0.04443
M7
-0.17997
.
B2
0.01452
M8
0.04244
B3
-0.05928
M9
-0.03438
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
3.3.3GAM_Tweedie模型的建立
类似于GLM_Tweedie模型,以索赔额(Y)为响应变量,年行驶里程数(K)和车型(M)为线性自变量,行驶区域(Z)与无赔款折扣等级(B)为非参数自变量。
建立如下模型:
其中包含行驶里程数、区域、无赔款折扣等级和车型等26个指示变量,
为待估计参数,te()为非参数估计的张量积光滑函数。
利用R软件,调用mgcv包中的gam函数对模型参数进行估计,得到的结果同样不理想。
为更好地拟合数据,有必要更改模型的联结函数。
根据Tweedie分布常用的联结函数:
对数函数、对等函数和逆函数。
分别对数据进行拟合,结果表明Tweedie分布的联结函数取对等函数时效果最佳。
由此模型更改为:
其参数估计值如表二,非参数自变量K和Z对响应变量的影响通过图形体现,灰色部分代表光滑曲线的置信区间,详情如图三所示。
表2GAM_Tweedie回归模型的参数估计值
因子水平
Estimate
因子水平
Estimate
Intercept
5460.48
***
M5
-410.59
K2
113.71
M6
-242.47
K3
158.77
M7
-929.38
K4
-801.84
*
M8
156.07
K5
-947.86
**
M9
-124.8
M2
-509.75
te(B)
*
M3
-76.25
te(Z)
M4
-2174.46
***
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
图三非参数自变量影响函数
3.3.4模型的评价
首先,仅从模型参数估计结果看,显然GAM_Tweedie模型比GLM_Tweedie模型拟合效果要好。
另外,通过AIC信息准则来判断两个模型的拟合效果。
GLM_Tweedie模型的AIC的值为34763.42,GAM_Tweedie模型的AIC的值为34750.43。
GAM_Tweedie模型的AIC值小于GLM_Tweedie模型的AIC值,则GAM_Tweedie模型对索赔额数据的拟合效果更好。
3.4结果分析
从GAM_Tweedie模型的估计结果来看,每年行驶里程数对总索赔额的影响是单调递增的,当行驶的里程数越大,发生的总索赔额越大,这与常理相符。
并且行驶里程数小于20000时,对总索赔额具有正向的影响作用,超过20000公里时,为负向影响。
车型对总索赔基本是具有负向的影响作用。
其中,四号车型的估计值最大,说明其对总索赔额的影响最强,三号车型估计值最小,其对总索赔额的影响最弱。
此外,对于非参数变量无赔款折扣等级和行驶区域具有类似的特征,但无赔款折扣的斜率比行驶区域的斜率大,说明其对总索赔额变动的影响更加灵敏。
无赔款折扣等级在第一、二、三、四风险等级都具有负向的影响性,其他与之相反。
但随着风险等级的不断增加,总索赔额是不断增加的,这不符合现实状况。
随着无赔款折扣等级的增加,说明该汽车以往及以后发生事故的概率逐渐变小,从而能够享受到更优惠的无赔款折扣等级,所以总索赔额应该是不断下降的。
行驶区域等级变化,总索赔额也逐渐升高。
第一、二、三风险等级都具有负向的影响性,其他为正向影响。
这主要与汽车主要行驶的地形有关,如崎岖陡峭难行的山地更容易发生事故,而平坦宽敞易行的平原发生事故概率低,具体风险等级对应何种地形,本文不做详细分析。
因此,通过以上的实证分析,对总索赔额数据构建GAM_Tweedie模型分析从参数和非参数两个角度去分析各因素对响应变量的影响,该方法有效。
但不足之处是对于这种因子数据用光滑函数进行拟合时,不尽如意。
本文只对GAM_Tweedie模型在汽车保险定价中的应用做了初步探索,GAM的广泛应用性还有待进一步研究,实证结果表明,GAM更适合协变量为非线性的假设,相信这可以为保险定价提供一种新的借鉴.
4、结论
广义线性模型在车险费率厘定中应用广泛,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线性形式的,而单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。
本文通过对瑞典汽车第三者责任保险的一组详细损失数据构建GAM_Tweedie模型进行拟合估计,在同条件下与GLM_Tweedie模型对比,结果表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。
在车险费率厘定中,出于追求更好拟合效果的考虑,首先在响应变量的分布选择方面,可以对索賠频率、索賠强度或纯保费拟合不同的分布,得出最佳的指数族分布。
然后模型选择方面,可以先用散点图粗略地观察自变量与响应变量的关系,对于线性关系明显的可以尝试应用最多的GLM,对于线性关系不强的变量再进行GAM拟合,通过改变其联结函数,使得拟合效果达到最优。
参考文献
[1]DeJongP,HellerGZ.GeneralizedLinearModelsforInsuranceData[M].Cambridge:
CambridgeUniversityPress,2008.
[2]BaileyRobertA.andLeroyJ.Simon,TwoStudiesinAutomobileInsuranceRatemaking[J],PCAS卷XLVII,Numbers87&88,CasualtyActuarialSociety,1960,192.
[3]TweedieMCK.AnIndexWhichDistinguishesBetweenSomeImportantExponentialFamilies[C]//GhoshJK,RoyJ.Statistics:
ApplicationsandNewDirections.ProceedingsoftheIndianStatisticalInstituteGoldenJubileeInternationalConference,1984:
579-604.
[4]P.MccullachandJ.A.Nelder,”GeneralizedLinearModels”[M],第二版.ChapmanandHall,伦敦,1989.
[5]DuncanAnderson,ClaudineModlin,ErnestoSchirmacher,“APractitioner'sGuidetoGeneralizedLinearModels”DiscussionPaperonApplyingandEvaluatingGeneralizedLinearModels,2004,P4-82.
[6]DannySamson.Designinganautomobileinsuranceclassificationsystem[J].EuropeanJournalofOperationalResearch,1986(27):
235-241.
[7]DannySamson.LinearModelasAidinInsuranceDecisionMaking:
TheEstimationofAutomobileInsuranceClaims[J1.JournalofBusinessResearch,1987(15):
247-256.
[8]张连增,孙维伟.广义线性混合模型在保险索赔中的应用及R实现[J].江西财经大学学报,2013,(4):
48-58.DOI:
10.3969/j.issn.1008-2972.2013.04.006.
[9]王维.车险定价中的索赔次数分布模型及其应用[D].中国人民大学,2009.
[10]黄顺林,张颖,陈娜等.基于Tweedie和零调整逆高斯回归的索赔额模型[J].统计与决策,2010,(4):
27-29.
[11]童丽娟.GAM在汽车保险定价中的应用研究[J].数学的实践与认识,2011,41(17):
64-69.
[10]孟生旺,徐昕.非寿险费率厘定的索赔频率预测模型及其应用[J].统计与信息论坛,2012,27(9):
14-19.DOI:
10.3969/j.issn.1007-3116.2012.09.003.
[12]孙维伟.基于Tweedie类分布的广义可加模型在车险费率厘定中的应用[J].天津商业大学学报,2014,34
(1):
60-67.DOI:
10.3969/j.issn.1674-2362.2014.01.010.
[13]孟生旺,王选鹤