1、指数分布族包括正态分布、二项分布、泊松分布、伽马分布和逆高斯分布等。 二是在表达形式方面,GLM是假设响应变量均值经过某连接函数变换后,等于解释变量的线性组合形式,具体如下:是风险的期望值,是方差函数,是解释向量,是回归系数向量,是线性预测项,是连接函数。 模型中参数可利用极大似然估计法来估计,通过加权最小二乘估计,再使用Newton-Raphson迭代算法,可得到的极大似然估计。因为数据和算法的复杂,可通过R中的软件包进行拟合。 2.2 Tweedie分布 Tweedie分布族是一类特殊的指数分布族,证明参见孙维伟(2014),用来表示,由方差函数完全确定,p的取值在。图一给出了在、保持不变
2、的情况下,取不同的值时Tweedie分布族的概率密度和累积分布。图一 Tweedie分布族的概率密度和累计分布图其中指数参数不同的取值对应着不同的分布形式,P=0、1、2、3分别对应正态、泊松、伽马和逆高斯分布,当1P2时,为Tweedie分布,即复合泊松分布,由泊松分布和伽马分布复合而成:如果保单在保险期间的索赔次数服从泊松分布,每次索赔的赔付额服从伽马分布,则保单在整个保险期间的累积赔付额服从Tweedie分布,适合用来拟合个体保单的总赔付金额数据。Tweedie分布在零点有一个较大的概率堆积,从图一概率密度函数可看出,当P值越接近2时,其在零点的概率越大,这与车险不发生损失几率大的情况符
3、合。在车险定价实务中,如果索赔频率和索赔强度之间的相依关系较强时,常采用Tweedie回归模型直接对索赔额建模。可通过迭代算法求得Tweedie分布指数参数p的极大似然估计值。2.3 广义加法模型2.3.1 模型介绍 进入21世纪以来,分类费率厘定的主流方法被GLM所取代,但随着车险行业的发展、数据的复杂化,由于其对协变量的影响必须为预测函数的线性形式,使得传统的GLM已经不能满足精算者们的需求,于是对GLM进行扩展成广义加法模型(GAM)来拟合更加复杂的数据。 GAM是在GLM的基础框架下,将解释变量的形式引入非参数函数,使得其更一般化,从而具有较小的偏差、良好的稳健性和广泛适用性。具体来看
4、,GAM由三个部分组成:随机部分、系统部分和联结函数。 第一部分是随机部分,是指响应变量Y的概率分布。假设响应变量的每个观测值相互独立且服从指数分布族,如正态分布、泊松分布、伽马分布、逆高斯分布和Tweedie分布等。 第二部分是系统部分,与GLM不同的是GAM加入了非参数函数部分,表达形式为:其中X是具有线性影响的解释变量矩阵形式,是相应的系数矩阵,是非线性影响的解释变量,是非参数的待估计的光滑函数,为响应变量均值,为联结函数。 第三部分是联结函数。通过联结函数将响应变量与解释变量连接一起。常用的联结函数有对数联结函数、倒数联结函数和logit联结函数等。对于响应变量服从不同的分布其联结函数
5、与之对应,譬如对于泊松分布选择对数联结函数,伽马分布选择倒数联结函数,二项分布假设下则常选择logit联结函数等等。2.3.2 参数估计GAM是GLM的参数、半参数拓展,可应用不同函数拟合解释变量的非线性关系,假设函数可加、且函数的组成成分是光滑函数,进而可以通过联结函数建立响应变量的均值与解释变量之间的关系。尤其对于空间数据,GAM能够使解释变量的非线性影响表现得更加明确。GAM与GLM相比,其核心观点在于非参数部分,即解释变量的非线性影响函数。因此,GAM 的关键在于,如何估计或采用光滑函数逼近这一非参数部分。GAM的估计与LM相似,就是借助最小二乘法使期望值与观测值之间的差距达到最小,同
6、时兼顾光滑性。GLM对参数的估计常用极大似然法,GAM对参数的估计可采用惩罚极大似然法(penalized likelihood maximization),即等价于惩罚迭代加权最小二乘法(penalized iteratively re-weighted least,P-IRLS),参见Wood(2006),Marra 和Wood(2012)。GAM 除了拟合普通线性因子外,还可以采用不同的光滑函数相加的形式来描述那些与响应变量之间存在复杂非线性关系的变量。对于每个解释变量所对应的单变量函数的拟合方法有很多种,如核光滑函数、局部加权回归光滑函数、样条函数和张量积函数,这些方法都属于非参数方法
7、。2.3.3 模型的选取与评价GLM的评价和检验主要是基于模型的偏度和尺度化偏差,另外常用的也有Pearson卡方统计量、残差检验,较为简单的有AIC、BIC等信息准则,它们定义为:信息准则的值越小表明模型拟合的效果越好。GAM模型是通过广义交叉验证(Generalized Cross Validation,GCV)标准或无偏风险估计(Un-Biases Risk Estimator,UBRE)标准指定GAM的光滑因子,进而解决光滑参数的估计问题。因而,GAM的选取可以依据GCV或UBRE score统计量的值,GCV和UBRE定义为:其中,D是模型的偏差,n是数据个数,s是尺度参数,Dof是
8、模型的有效自由度。当s未知时,可采用GCV score估计光滑参数𝝀,当s已知时,可采用UBRE score 估计光滑参数𝝀。Mallows(1973)将UBRE称为MallowssCp,UBRE也可看作是有效赤池信息准则(AIC)的重新调整。建立合适的GAM的标准是使GCV/UBRE score(比例AIC)最小,或者说,模型的GCV/UBRE score越小,表明模型的估计结果越准确。所以,比较或选择最优的GLM和GAM的标准之一是AIC统计量值,AIC越小,表明模型的估计越准确,此外,模型的解释偏差或者ANOVA 函数也是比较模型的常用方法。3、实证研究3
9、.1数据来源及描述 本文采用1977年瑞典汽车第三者责任保险的一组详细损失数据(数据来源:www.statsci.org)。该数据有七个变量:年行驶里程数(分为5个等级,用K表示)、行驶地区(分为7个等级,为更准确拟合数据分布本文只采用前6个等级,用Z表示)、无赔款折扣等级(分为7个等级,用B表示)、车型(分为9个等级,用M表示)、保单年数、赔付次数和总赔付额,详细描述见表一。所有的被保险人被划分成了1887个类别,总的保单年数为2364086.33,经验数据的平均索赔频率为0.048,次均赔款为4956.56,平均纯保费为235.98。表1 变量说明VariableDescriptionKi
10、lometresKilometres travelled per year1:25000ZoneGeographical zone Stockholm, Gteborg, Malm with surroundings Other large cities with surroundings Smaller cities with surroundings in southern Sweden Rural areas in southern Sweden Smaller cities with surroundings in northern Sweden6: Rural areas in no
11、rthern SwedenBonusNo claims bonus. Equal to the number of years, plus one, since last claimMake1-8 represent eight different common car models. All other modelsare combined in class 9InsuredNumber of insured in policy-yearsClaimsNumber of claimsPaymentTotal value of payments in Skr3.2分布选择 在建模前,首先要确定
12、响应变量Y的分布。为排除因忽略索赔次数和索赔强度之间可能存在相依关系而导致预测偏差的缺陷,本文直接对索赔额建模,采用Tweedie分布,但其前提必须满足,索赔次数服从poisson分布,每次索赔的赔付额服从gamma分布。索赔次数、索赔强度和索赔金额的拟合分布如下图所示,第一个图曲线是poisson分布对索赔次数的拟合值,第二个图中的曲线是gamma分布对索赔强度的拟合值,通过对图形的观察我们可以得到用poisson分布拟合索赔次数、gamma分布拟合索赔强度其拟合效果较好。最后一个是索赔额的直方图,在零点有很大的概率堆积,这与汽车保单损失情况符合。因此,保单累积赔付拟合Tweedie分布是合
13、理的。图二 分布拟合3.3模型建立 在索赔额服从Tweedie分布的情况下,对索赔额数据建立广义线性模型,但考虑解释变量对响应变量函数的影响可能不全是线性的,例如区域变量,其对索赔额的影响大多情况下是非线性的,因此,为了更好刻画解释变量与响应变量之间的关系,另外再建立广义加法模型与之对比。 3.3.1 Tweedie分布指标p的确定 对于本组数据,假定索赔额服从Tweedie分布。首先要确定分布的指标参数,可根据样本观测值来拟合分布,具体可利用R软件中的tweedie.profile函数来迭代估计指标p,得到p的近似值为1.851。通过其概率密度分布图可知其索赔额在0处有大堆积概率,这与汽车保
14、险索赔数据不发生损失几率较大的情况相符。 3.3.2 GLM_ Tweedie模型的建立以索赔额(Y)为响应变量,年行驶里程数(K)、行驶区域(Z)、无赔款折扣等级(B)和车型(M)为自变量建立如下模型:其中包含行驶里程数、区域、无赔款折扣等级和车型等26个指示变量,为待估计参数。利用R软件中的glm函数对模型参数进行估计,得到表二结果,由结果可见,拟合效果一般。在显著水平为0.05的情况下,无赔款折扣等级、里程变量和区域变量对索赔额函数的线性影响不明显。因此考虑无赔款折扣等级的非线性影响情况,另外常规情况下汽车损失的情况与地理区域大多呈现非线性影响,所以也对区域变量与索赔函数应建立非线性关系
15、。由此建立GAM_ Tweedie模型。表2 GLM_ Tweedie回归模型的参数估计值因子水平EstimateIntercept8.52946*B40.02947K20.03881B50.03811K30.04236B60.10609K4-0.12147B70.1664.K5-0.1203M2-0.12227Z2-0.08294M3-0.0545Z30.03153M4-0.47972Z40.13M5-0.10621Z5-0.1127M6-0.05445Z60.04443M7-0.17997B20.01452M80.04244B3-0.05928M9-0.03438Signif. codes
16、: 0* 0.001* 0.01* 0.05. 0.1 1 3.3.3 GAM_ Tweedie模型的建立类似于GLM_ Tweedie模型,以索赔额(Y)为响应变量,年行驶里程数(K)和车型(M)为线性自变量,行驶区域(Z)与无赔款折扣等级(B)为非参数自变量。建立如下模型:其中包含行驶里程数、区域、无赔款折扣等级和车型等26个指示变量,为待估计参数,te( )为非参数估计的张量积光滑函数。利用R软件,调用mgcv包中的gam函数对模型参数进行估计,得到的结果同样不理想。为更好地拟合数据,有必要更改模型的联结函数。根据Tweedie分布常用的联结函数:对数函数、对等函数和逆函数。分别对数据进
17、行拟合,结果表明Tweedie分布的联结函数取对等函数时效果最佳。由此模型更改为:其参数估计值如表二,非参数自变量K和Z对响应变量的影响通过图形体现,灰色部分代表光滑曲线的置信区间,详情如图三所示。表2 GAM_ Tweedie回归模型的参数估计值 Estimate5460.48-410.59113.71-242.47158.77-929.38-801.84*156.07-947.86*-124.8-509.75te(B)-76.25te(Z)-2174.46图三 非参数自变量影响函数3.3.4 模型的评价首先,仅从模型参数估计结果看,显然GAM_ Tweedie模型比GLM_ Tweedie
18、模型拟合效果要好。另外,通过AIC信息准则来判断两个模型的拟合效果。GLM_ Tweedie模型的AIC的值为34763.42,GAM_ Tweedie模型的AIC的值为34750.43。GAM_ Tweedie模型的AIC值小于GLM_ Tweedie模型的AIC值,则GAM_ Tweedie模型对索赔额数据的拟合效果更好。3.4结果分析从GAM_ Tweedie模型的估计结果来看,每年行驶里程数对总索赔额的影响是单调递增的,当行驶的里程数越大,发生的总索赔额越大,这与常理相符。并且行驶里程数小于20000时,对总索赔额具有正向的影响作用,超过20000公里时,为负向影响。车型对总索赔基本是
19、具有负向的影响作用。其中,四号车型的估计值最大,说明其对总索赔额的影响最强,三号车型估计值最小,其对总索赔额的影响最弱。此外,对于非参数变量无赔款折扣等级和行驶区域具有类似的特征,但无赔款折扣的斜率比行驶区域的斜率大,说明其对总索赔额变动的影响更加灵敏。无赔款折扣等级在第一、二、三、四风险等级都具有负向的影响性,其他与之相反。但随着风险等级的不断增加,总索赔额是不断增加的,这不符合现实状况。随着无赔款折扣等级的增加,说明该汽车以往及以后发生事故的概率逐渐变小,从而能够享受到更优惠的无赔款折扣等级,所以总索赔额应该是不断下降的。行驶区域等级变化,总索赔额也逐渐升高。第一、二、三风险等级都具有负向
20、的影响性,其他为正向影响。这主要与汽车主要行驶的地形有关,如崎岖陡峭难行的山地更容易发生事故,而平坦宽敞易行的平原发生事故概率低,具体风险等级对应何种地形,本文不做详细分析。因此,通过以上的实证分析,对总索赔额数据构建GAM_ Tweedie模型分析从参数和非参数两个角度去分析各因素对响应变量的影响,该方法有效。但不足之处是对于这种因子数据用光滑函数进行拟合时,不尽如意。本文只对GAM_ Tweedie模型在汽车保险定价中的应用做了初步探索,GAM的广泛应用性还有待进一步研究,实证结果表明,GAM更适合协变量为非线性的假设,相信这可以为保险定价提供一种新的借鉴4、结论广义线性模型在车险费率厘定
21、中应用广泛,其假设协变量的影响为预测函数的线性形式,但在实际的情况下,许多对索賠频率、索賠强度或纯保费的影响因素不仅仅是表现成线性形式的,而单纯地用线性估计会造成一些变量的不显著而丢失重要影响因素。本文通过对瑞典汽车第三者责任保险的一组详细损失数据构建GAM_ Tweedie模型进行拟合估计,在同条件下与GLM_ Tweedie模型对比,结果表明Tweedie广义加法模型可以更好的解释各因素对索赔额的影响。在车险费率厘定中,出于追求更好拟合效果的考虑,首先在响应变量的分布选择方面,可以对索賠频率、索賠强度或纯保费拟合不同的分布,得出最佳的指数族分布。然后模型选择方面,可以先用散点图粗略地观察自
22、变量与响应变量的关系,对于线性关系明显的可以尝试应用最多的GLM,对于线性关系不强的变量再进行GAM拟合,通过改变其联结函数,使得拟合效果达到最优。参考文献1 De Jong P,Heller G Z.Generalized Linear Models for Insurance DataM.Cambridge: Cambridge University Press,20082 Bailey Robert A. and Leroy J. Simon, Two Studies in Automobile Insurance RatemakingJ ,PCAS 卷XLVII, Numbers 87
23、 &88,Casualty Actuarial Society, 1960,192 .3 Tweedie M C K.An Index Which Distinguishes Between Some Important Exponential FamiliesC/ /Ghosh J K,oy J.Statistics:Applications and New Directions.Proceedings of the Indian Statistical Institute Golden Jubilee International Conference,1984: 579 604.4 P.M
24、ccullach and J.A.Nelder, ”Generalized Linear Models”M,第二版.Chapman and Hall,伦敦,1989.5 Duncan Anderson ,Claudine Modlin ,Ernesto Schirmacher, “A Practitioners Guide to Generalized Linear Models” Discussion Paper on Applying and Evaluating Generalized Linear Models,2004,P4-82.6 Danny SamsonDesigning an
25、 auto mobile insurance classification systemJEuropean Journal ofOperationa l Research,1986(27):235-2417 Danny SamsonLinear Model as Aidin Insurance Decision Making:The Estimation of Auto mobile Insurance ClaimsJ1Journal of Business Research,1987(15):247-2568 张连增,孙维伟.广义线性混合模型在保险索赔中的应用及R实现J.江西财经大学学报,2
26、013,(4): 48-58.DOI:10.3969/j.issn.1008-2972.2013.04.006. 9 王维.车险定价中的索赔次数分布模型及其应用D.中国人民大学,2009. 10 黄顺林,张颖,陈娜等.基于Tweedie和零调整逆高斯回归的索赔额模型J.统计与决策,2010,(4):27-29 .11 童丽娟.GAM在汽车保险定价中的应用研究J.数学的实践与认识,2011,41(17):64-69. 10 孟生旺,徐昕.非寿险费率厘定的索赔频率预测模型及其应用J.统计与信息论坛,2012, 27 (9) : 14-19.DOI:10.3969/j.issn.1007-3116.2012.09.003.12 孙维伟.基于Tweedie类分布的广义可加模型在车险费率厘定中的应用J.天津商业大学学报,2014,34(1):60-67.DOI:10.3969/j.issn.1674-2362.2014.01.010.13 孟生旺,王选鹤
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1