数学建模医保欺诈模型的主动发现.docx
《数学建模医保欺诈模型的主动发现.docx》由会员分享,可在线阅读,更多相关《数学建模医保欺诈模型的主动发现.docx(12页珍藏版)》请在冰豆网上搜索。
数学建模医保欺诈模型的主动发现
全国大学生数学建模竞赛选拔赛
承诺书
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理,并取消参赛资格。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
A
参赛队员(打印后再手签):
:
1.
2.
3.
指导教师或指导教师组负责人(没有可不填写):
(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)
日期:
2015年7月29日
医保欺诈的主动发现
摘要
医疗保险是关系到国计民生和国家发展的重大问题,医保欺诈问题严重威胁医保基金安全,妨碍医保政策的有效实施,因此医保欺诈行为的主动发现对医疗保险的发展、完善和社会稳定发展有重大的意义。
本提出了一种基于BP神经网络的识别的鉴别医保欺诈行为的方法。
对于数据的处理,我们选择了Excel和Access根据病人ID将表2.1病人资料和表2.2费用明细表进行了汇总和归一,并剔除了包括记录不完整、格式错误之内的无效数据,在这个过程中我们发现了所有的消费记录只是买药,并且在这个月的消费记录中只有极少数病人存在转科室行为,而且一部分病人是自费的,没有医保欺诈嫌疑,还有一些病人存在多人共用医保卡的现象,直接确定其为医保欺诈,这些病人的消费记录为我们训练BP神经网络提供了样本支持。
对于这个问题,我们首先用Excel和Access从大量的数据中筛选出了对欺诈识别有用的信息,其中包括病人的年龄,性别,所在科室,当月总消费以及当月消费频率等等你,又考虑到不同科室的消费情况存在差异因此我们求出了各个科室的平均消费额,并且做出了每个病人当月的消费对对应科室平均消费的相对差。
有了这些欺诈因子和自费患者以及共用医保卡患者的消费记录,我们建立了Logistic二元回归模型,来评估各个欺诈因子对欺诈的可能性大小的影响进而剔除了对欺诈可能性无效的欺诈因子,保留了对欺诈可能性影响显着的欺诈因子作为输入向量对BP神经进行训练,并且用训练后的网络对医保病人进行了欺诈识别。
最终我们认为输出结果为1的病人具有重大医保欺诈嫌疑。
关键词
医保欺诈Logistic二元回归BP神经网络数据
一、
问题重述
1.1问题背景
医疗保险是为解决公民或劳动者因为疾病和非因公负伤,丧失劳动能力后的治疗费用及服务,给予物质帮助的一种社会保险制度。
医疗保险欺诈行为是指违反医疗保险管理法规和政策,采用虚构事实、隐瞒真相以及其他方法,向医保基金管理机构骗取医保基金或医保待遇的行为。
这一行为具有两个基本特征:
一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的,二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。
我国自城镇职工医疗保险和新农村合作医疗制度实施以来,欺骗医保基金的案件不断发生,事实上,医疗保险欺诈在许多国家每年都有数亿美元的损失,对医保基金安全构成了重大的威胁,妨碍了各国医保政策的实施,因此医疗保险欺诈已成为各国非常重视的社会问题
利用数学建模的方法分析医疗保险欺诈行为,建立相应的数学模型可为发现医疗保险欺诈问题提供科学有力的依据。
1.2问题描述
医疗保险欺诈行为具有两个基本特征:
一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的;二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。
骗保人进行医保欺诈时通常使用的手段有冒用他人医疗保险证、卡就医;异地就医人员伪造或虚开医疗票据回来报销;“挂床”住院就医;要求医院开具本人不必要的诊疗项目或药品,由他人代作或代用等。
下面这些情况都有可能是医保欺诈:
单张处方药费特别高,一张卡在一定时间内反复多次拿药等。
二、问题分析
BP神经网络是一种按误差你传播算法训练的前馈网络,学习过程由信号的正向传播与误差的逆向传播两个过程组成.正向传播时,模式作用于输入层,经隐层处理后,传入误差的逆向传播阶段,将输出误差按某形式,通过隐层向输入层逐层返回,并“分摊”给各层的所有单元,从而获得各层单元的参考误差或称误差信号,以作为修改各单元权值的依据.权值不断修改的过程,也就是网络学习过程.此过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止
。
目前BP神经网络已在国内外相关经济研究领域得到广泛应用,在国内的证券、银行等相关领域已有学者开始运用BP网络进行研究,叶明华将该方法运用到机动车保险欺诈的研究当中,并且尝试了统计回归与神经网络的融合,证实了神经网络运用于保险欺诈的识别是可行的,并且通过回归分析精炼后的识别因子能够使神经网络具有更好的识别效果。
在这个问题中,数据量巨大,同时自费患者和欺诈患者(共用医保卡)提供了大量的样本,而这些样本恰好可以用于BP神经网络的训练,同时还可以用Logistic二元回归分析筛选出影响显着的欺诈因子,将定量与定性相结合,使结果更准确。
因此,对于这个问题,运用层次分析法和Logistic二元回归分析相结合的方法进行医保欺诈的识别。
三、模型假设
1.自费病人无医保欺诈嫌疑
2.消费总额和消费数量为负数的视为记录错误,取绝对值计算
3.忽略这个月内极少数病人转科室治疗的情况
4.这个月当地没有地震等重大灾难的发生
四、模型的建立与求解
4.1预处理数据
4.1.1样本与欺诈因子选取
根据附录表格2.1和2.2中的病人资料和消费记录中使用Excel和Access的数据处理函数,结合相关资料,先做出各个科室的平均消费额,然后提取出包括病人科室,病人所在科室的平均消费额,病人当月总费用,当月拿药频次,年龄,性别在内的6个欺诈因子,并将这些欺诈因子整合到病人ID中,表格见附件1。
表4.1欺诈因子汇总表
医保病人ID
病人科室
各科室平均消费额
当月拿药频次
当月总费用
年龄
性别
363050
152
4
2220.05
29
1
627690
187
4
3160.25
52
1
168799
152
6
1018.29
46
2
178614
203
170.467056
9
7510.24
96
2
264972
187
5
1314.26
29
2
199056
187
6
1255.12
46
2
524738
152
3
721.51
48
2
406260
152
4
643.52
48
1
167305
187
6
913.27
47
1
331968
187
8
894.13
30
2
161213
173
151.3563019
5
3752.65
77
1
612657
10
1
2354.68
32
1
4.1.2自费病人与医保卡共用病人
从题目表2.1病人资料医保卡号一栏中筛选出医保卡号为1的病人,提取出他们的病人ID并确定他们为自费病人。
对医保卡号一栏运用COUNTIF函数筛选一卡多用病人发现存在2人共用医保卡以及3人共用医保卡的现象,提取出他们的ID并确定其为共用医保卡病人。
分别根据自费病人以及医保卡共用病人的ID作出如表格4.2的欺诈因子汇总表便于进一步分析。
4.2欺诈因子的精炼
运用二元离散选择模型对选取的6个欺诈因子进行回归分析,从中获取具有显着性的欺诈因子,我们通过IBMSPSSStatistics19软件实现样本数据的Logistic二元回归分析。
参数设定为:
方法:
Enter
步进概率:
进入=0.05,删除=0.1;
最大迭代次数:
50
Exp(B)的C.I.(X):
95%。
表4.2迭代历史记录
迭代
-2对数似然值
系数
Constant
步骤0
1
7647.606
-1.935
2
4584.590
-2.931
3
3917.985
-3.645
4
3832.549
-4.013
5
3829.783
-4.095
6
3829.779
-4.098
7
3829.779
-4.098
a.模型中包括常量。
b.初始-2对数似然值:
3829.779
c.因为参数估计的更改范围小于.001,所以估计在迭代次数7处终止。
表4.3为迭代历史记录,估计在迭代7次后终止,初始的-2对数似然值达到43.927。
表4.3分类表
已观测
已预测
欺诈与否
百分比校正
0
1
步骤0
欺诈与否
0
22585
0
100.0
1
375
0
.0
总计百分比
98.4
a.模型中包括常量。
b.切割值为.500
在表4.4中可见在输入的样本中有22585例被预测为0,有375例应该为1的也被预测为0,预测正确率98.4%。
表4.4显着性检验
得分
df
Sig.
步骤0
变量
相对差
1.624
1
.202
当月总费用
7.607
1
.006
当月拿药频次
1.401
1
.237
年龄
10.676
1
.001
性别
(1)
63.674
1
.000
病人科室
216.120
1
.000
各科室平均消费额
18.710
1
.000
总统计量
300.128
7
.000
表4.5是对模型的全局检验,为似然比检验,共给出七个结果:
sig值<0.05表明有统计学意义。
从中可见病人当月总费用,年龄,性别,病人所在科室以及病人所在科室的平均消费额对回归具有显着影响,而其他因素没有影响。
根据这个结论就可以建立医保欺诈识别的BP网络模型。
4.3医保欺诈识别的BP网络模型
1)设置初始权值W(0)为较小的随机非零值。
2)给定输入/输出样本集合,
误差指标
总误差指标
重复下列过程直至满足收敛条件(
)
a)对于任意一个样本p,计算
正向过程:
反向过程:
b)修正权值
包括两种学习方式:
模式(Pattern)学习方式:
训练(Epoch)学习方式:
网络输入矩阵是由Logistic二元回归分析获取的具有模型显着性的5个欺诈识别因子向量组成,网络输出向量矩阵是由是否欺诈(0和1)组成的一维矩阵,0代表该病人没有欺诈,1代表欺诈。
经过反复多次试验,本着误差最小,训练时间最短的原则最终确定了有2个隐藏层的BP神经网络模型。
设置目标误差为0.025,最大迭代次数50000等
。
图4.1BP神经网络训练图
从图4.1中看出我们的BP神经网络经过396个迭代周期,历时2分50秒之后终于达到了目标误差0.025。
训练过程如图所示。
图4.2模拟训练过程图
4.4欺诈病人识别
根据训练好的BP神经网络,对不能确定是否欺诈的病人进行欺诈识别,找到可能的欺诈病人ID,并根据其欺诈可能性大小进行了排序,排序越靠前欺诈嫌疑越大。
最终结果请看附件5.
五、模型的评价与推广
5.1模型的优缺点
本文采取采取Logistic回归和BP神经网络结合的方法,运用Spss软件对样本进行Logistic回归分析提取具有模型显着性的识别因子;将所得识别因子作为BP神经网络模型的输入向量进行训练,并选取检验样本对模型的有效性进行预测检验,证明了模型的准确性和用这种方法用于医保欺诈识别的可行性。
本模型基于BP神经网络的方法具有很多优点:
BP神经网络的非线性映射能力强,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。
避开了求欺诈因子与欺诈与否之间复杂函数关系的过程,使问题的解决更加简单,其次BP神经网络具有一定的容错能力,BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响,也就是说即使系统在受到局部损伤时还是可以正常工作的。
同时本模型也存在着一定的局限性,BP神经网络是一种局部搜索的优化方法,它要解决的是一个复杂非线性化问题,网络的权值是通过沿局部改善的方向逐渐进行调整的,这样会使算法陷入局部极值,加上BP神经网络对初始网络权重非常敏感,以不同的权重初始化网络,其往往会收敛于不同的局部极小,这也是我们多次训练会得到不同结果的原因。
其次,BP神经网络结构的选择至今尚无一种统一而完整的理论指导,一般只能由经验选定。
网络结构选择过大,训练中效率不高,可能出现过拟合现象,造成网络性能低,容错性下降,若选择过小,则又会造成网络可能不收敛。
而网络的结构直接影响网络的逼近能力及推广性质。
本文中我们采取了多次试验的方法,确定了网络的结构,具有一定的主观性。
5.2模型的推广
该模型可有效检测出医保中发生的诈骗现象,这一模型基于BP神经网络可以很容易地推广到其他类型的保险行业中,例如人寿保险,机动车险等。
同时本模型虽然给出了具有重大医保欺诈嫌疑的病人ID,遗憾的是我们并没有给出每个病人欺诈的具体概率是多少,这也是我们模型需要改进的地方。
我们的结果可以为医保欺诈的识别,提供一份宝贵的可参考的资料。
六、参考文献
[1]林源.国内外医疗保险欺诈研究现状分析[J].INSURANCESTUDIES,2010,12(12):
115-122
[2]刘坤坤,车险保险欺诈识别和测量模型实证研究——基于广东省车险历史索赔数据,暨南学报(哲学社会科学版),8:
50-55,2012。
[3]朱大奇,史慧编着.人工神经网络原理及应用[M].科学出版社,2006
[4]唐万梅.BP神经网络网络结构优化问题的研究[J].系统工程理论与实践.2005(10)
[5]刘彩红.BP神经网络学习算法的研究[D].重庆:
重庆师范大学,2008.1-76
[6]段超霞,田学民.基于正交最小二乘的傅立叶神经网络结构选取方法[J].石油化工自动化.2012(06)
[7]叶飞跃.数据挖掘过程中的模糊聚类方法[J].计算机与现代化.2003(09)
[8]王学民编着.应用多元分析[M].上海财经大学出版社,1999
[9]廖宁放,高稚允.BP神经网络用于函数逼近的最佳隐层结构[J].北京理工大学学报.1998(04)
[10]丛爽编着.面向MATLAB工具箱的神经网络理论与应用[M].中国科学技术大学出版社,1998
[11]邓伟妮.基于BP神经网络的西安市PM10污染预报及其MATLAB实现[D].西安科大学2008
七、附录
7.1训练BP程序
clc,clearall;
%definetheinputandoutput
pqz=xlsread('E:
\数学\数学建模\深圳杯2015\A题\筛选后的BP素材\欺诈者的样本.xlsx','B2:
G376');%创建BP网络和定义训练函数
pzf=xlsread('E:
\数学\数学建模\深圳杯2015\A题\筛选后的BP素材\自费患者的样本.xlsx','B2:
G15587');
%归一化处理部分
p=[pqz;pzf];
pt=p';
pn=premnmx(pt);
%创建函数中需要的矩阵
pr=minmax(pn);
net=newff(pr,[100,20,1],{'tansig''tansig''purelin'},'traingdx');%这里用trainlm作为输出层的转移矩阵,
%创建目标矩阵
tqz=ones(1,375);
tzf=zeros(1,15586);
t=[tqz,tzf];
%训练神经网络
[net,tr]=train(net,pt,t);
%输出训练之后的权值和阈值
%iw1=net.IW{1};b1=net.b{1};lw2=net.LW{2};b2=net.b{2};
%存储训练好的神经网络
savenetkohlernet
7.2结果输出程序
test?
=?
xlsread('E:
\数学\数学建模\深圳杯2015\A题\BP分析数据\筛选后的BP素材\需要识别的样本.xlsx','B2:
G35838');
[testn,mintest,maxtest]?
=?
premnmx(test');
Y?
=?
sim(net?
?
testn);
%注:
以上程序必须与文件位置相对应才能正常运行。
八、附件
附件1、各科室平均消费额
附件2、自费患者的样本
附件3、欺诈者的样本
附件4、需要识别的样本
附件5、最终结果