医保诈骗问题解析.docx

资源描述

医保诈骗问题解析.docx

《医保诈骗问题解析.docx》由会员分享，可在线阅读，更多相关《医保诈骗问题解析.docx（23页珍藏版）》请在冰豆网上搜索。

医保诈骗问题解析.docx

医保诈骗问题解析

医保欺诈行为的主动发现

摘要

对于医保诈骗行为，我们认为仅通过一个模型直接找出所有的欺诈类型既不准确，操作起来又比较困难。

所以我们根据题附件中的费用明细表，通过分析费用数据与诈骗行为之间的关系建立模型一；根据各个表中出现的异常值，我们将异常值视为可能是医保欺诈行为，并由此建立模型二。

针对模型一，我们从三方面考虑。

首先，单张处方的总价过高可能为欺诈，但是考虑到总价与单价、数量之间的相互影响，对此我们先对单价、数量、总价进行相关分析，发现单价与总价呈弱相关；然后用聚类分析对医嘱子类、单价、数量、总价进行分类，案例数少的类即有欺诈嫌疑；其次，对病人ID号标记重复个案，由于重复个案所占比例较大，对重复个案进一步进行了聚类分析；最后，若下医嘱科室与病人科室不一致则可能为欺诈，对此我们绘制了简单线图，不在y=x直线上的即为欺诈记录。

针对模型二，建立合理的欺诈评判标准，检测其中的异常数据，进而对医保行为作出识别。

首先，构建基于Logistic分析的精炼欺诈识别因子模型。

建立Logit回归模型并用SPSS软件进行统计分析，通过分析回归模型的拟合优度和因素显著性检验，提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。

构建无导师学习的自组织特征映射（SOFM）神经网络模型。

即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型，导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果为不同类型的数据，即可对医保欺诈行为进行主动识别。

关键词：

医保欺诈标记重复个案相关分析logit模型SOFM神经网络

一、问题重述

1.1问题的背景

随着我国社会医疗保险体系的不断发展，人民的医保福利水平日益提高，一些医保体系中的问题也日益显著，其中焦点问题之一就是医保诈骗行为。

1.2问题的复述

医疗保险欺诈，是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中，故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。

骗保人进行医保欺诈时通常使用的手段，一是拿着别人的医保卡配药，二是在不同的医院和医生处重复配药。

下面这些情况都有可能是医保欺诈：

单张处方药费特别高，一张卡在一定时间内反复多次拿药等。

请根据附件中的数据，找出可能的欺诈记录。

2、问题分析

根据问题中对骗保人进行医保欺诈时的常用手段，以及可能属于医保欺诈行为的情况，经过分析我们可以将问题分为以下几个方面来解决。

1、判断是否为医保欺诈行为，需要从病人资料中的身份证号、医保手册号、Userupdate（用户更新次数）这三方面考虑。

对此利用SPSS软件使用标识重复个案、聚类分析的方法，通过分析运行结果，做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。

通过饼状图，可直观看出，所占比例的小的可能为欺诈记录。

2、首先第一步，对数据进行分析，构建基于Logistic分析的精炼欺诈识别因子模型。

基于第一步处理的欺诈案评判标准数据间的关系，建立Logit回归模型并用SPSS软件进行统计分析，通过分析回归模型的拟合优度和因素显著性检验，提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。

第三步，构建无导师学习的自组织特征映射（SOFM）神经网络模型。

即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型，在待检测数据中抽取一部分样本数据训练SOFM神经网络，得到欺诈行为识别模型。

第四步，导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果为不同类型的数据，即可对医保欺诈行为进行主动识别。

三、问题的假设

1、假设医保欺诈只是患者单方面行为，不存在医患合谋和医疗机构“引至欺诈”情况。

2、假设数据来源真实有效。

3、假设分析过程中，数据无缺失。

4、假设对每个聚类分析结果，使用同一评判标准。

5、假设附所有保险的有关规定没各个指标。

6、假设所有的相关数据具有独立性相呼影响。

四、符号说明

变量

标准方差

初始聚类中心

样本与聚类中心的距离

误差平方和准则函数

欧式距离

新聚类中心

Pearson相关系数

Pearson相关系数检验统计量

2个一级指标i=1,2

5个二级指标i=1,2j=1,2,3

3个成对比矩阵i=1，2，3

矩阵按行求和

矩阵的最大特征值

5个指标最终权重

一致性检验指标

随机一致性指标

一致性比率

欺诈程度阈值

五、模型的建立与求解

5.1模型一：

基于费用明细的医保欺诈行为主动发现

5.1.1模型一的分析

医疗保险欺诈行为，通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现，主要从单张处方的总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。

在附件给出的表2中，通过对各个变量进行K均值聚类分析，可以将数据分为几类，案例数少的则可能是欺诈行为。

但是考虑到单价、数量、总价之间的相互影响，对此我们使用了SPSS中相关性分析找出三个变量的相关性，并用图标构建程序绘制了简单3-D散点图。

对于病人ID号与模型一的分析一样，使用标记重复个案的方法，找到重复的记录，即可能为医保欺诈行为。

而下医嘱科室与病人科室应该是一致的，若不一致即为欺诈，因此对下医嘱科室和病人科室绘制简单线图。

5.1.2模型一的建立:

（1）数据标准化

由于所选数据的量纲和数值大小都不一致，数值的变化范围也不同，因此必须首先对所选数据进行标准化处理，如果有n个样本，m个指标，则每个变量可表示为

，均值

（1）

标准方差为

（2）

标准化以后的式子为

（3）

（2）聚类分析

系统聚类，将n个重复个案结果各自看成一类，然后规定样本之间的距离和类与类之间的距离。

开始，因每个结果自成一类，类与类之间的距离与个案之间的距离是相等的，选择距离最小的一对并成一个新类，计算新类与其他类的距离，再将距离最近的两类合并，这样每次少一类，直至所有的个案都成一类为止，最终完成分类。

1、设有n个样本，令I=1,选取K个初始聚类中心：

；

2、计算每一个数据样本与聚类中心之间距离：

（4）

如果满足

；

3、计算误差平方和准则函数JC，公式如下：

（5）

4、判断是否满足聚类算法结束条件：

如果

，则表示算法结束，否则，I=I+1，计算下一个新的聚类中心，并返回2,新的聚类中心计算公式如下:

（6）

距离：

对重复个案结果进行聚类时，“靠近”往往由某种距离来刻画。

令

表示第

个重复个案结果的第

个指标，

表示第

个重复个案与第

个重复个案之间的距离，最常见计算距离的方法是：

欧几里德距离

（7）

上式即为欧氏距离。

（3）相关性分析：

相关分析是描述两个变量间关系的密切程度，主要由相关系数值表示，当相关系数r的绝对值越接近于1，则表示两个变量间的相关性越显著。

双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等，在进行两者间的相关性检验时用pearson相关系数来判断，其公式为：

（8）

Pearson简单相关系数检验统计量为：

（9）

其中

统计量服从

个自由度的

分布。

5.1.3模型一的求解

（1）考虑到单价、数量、总价之间的相互影响，对这三个变量进行了双变量相关分析，图8为三个变量的相关性分析统计表，图9单价、数量、总价的简单3-D散点图。

表-1单价、数量、总价相关分析统计表

图-1单价，数量，总价的简单3-D散点图

（2）用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。

最终聚类中心结果见表-2，表-3是这四个变量的单因素方差分析表，表-4是运用k-均值聚类分析求出的重复个案数。

表-2病人ID号重复个案的最终聚类中心

表-3医嘱子类、单价、数量、总价的单因素方差分析表

图-2医嘱子类、单价、数量、总价的最终聚类中心条形图

表-4k均值聚类分析中的重复个案聚类

上述所有统计结构的分析：

（1）从相关分析的统计表中，可以看出单价与总价的相关性为0.456（弱相关），而数量与总价的相关性为0.116（不相关），所以认为，单价与总价有一定的相关性。

（2）从图10中看出，将医嘱子类、单价、数量、总价分为10类；图12为医嘱子类、单价、数量、总价的每个聚类的案例数，发现第1、2、4类的单价过高；第3、10类退药数量大，第8类买药数量大；第1、3类单张处方退药金额大；第2、4、6类单张处方药费高。

以上所述的都有可能为医保欺诈记录。

（3）图14统计出病人ID号重复个案占总数的77.6%，对此再进行聚类分析，结果见图15；由图16可知，第5、7、8、10类案例数较少，这些类的最终聚类中心大于25，此特征可能为欺诈。

（4）根据图17绘制的下医嘱科室与病人科室简单线图，可以看出有个别记录不在y=x线上，即为下医嘱科室与病人科室不一致，因此为医保欺诈行为。

（5）在图11的单因素方差分析中，医嘱子类、单价、数量、总价的P值均为0，说明各类在统计学上均有明显差异，将其作为分类标准是合适的。

5.2模型二的建立与求解

5.2.1logit模型的建立

我们把事件发生的情况定义为1，事件未发生的情况定义为0。

这样在保险欺诈识别模型中，取值为0、1的因变量可以写作：

（10）

我们通常以

表示事件发生的概率（则事件未发生的概率为

），并把

看作自变量

的函数。

在本论文中，医疗保险是医疗欺诈的概率为

。

对于

是0-1型Bernoulli模型，有如下分布：

（11）

通过logistic转换，索赔事件的对数概率发生比写成logit模型：

（12）

Logit一方面表达出它是医疗欺诈索赔概率p的转换单位;另一方面，它作为回归的因变量就可以与自变量识别因子之间的依存关系保持传统回归模型：

（13）

其中

分别为

个识别因子：

为常数项，

分别为

个自变量的回归系数。

5.2.2logit模型的求解

1、欺诈识别因子的选取

欺诈识别因子是指可以观测或测量到的，能够刻画保险欺诈特征的有效信息点，用以作为欺诈识别模型的解释变量。

根据给出的数据，本文选取了一下13个指标作为识别因子：

（1）被保人特征：

性别、年龄、是否有固定单位、是否死亡、是否留有手机号。

（2）医保单特征：

医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。

2、选取部分记录进行初步判定

由于logist模型的要求，必须先对一小部分记录进行初步判定，利用sql语句（详见附录2）选取每一栏目中异常数据，然后利用统计学分布等知识选取判定这一小部分数据，结果如下表：

表-5部分记录判定结果

3、欺诈识别因子的精炼

运用二元离散选择模型对选取的13个欺诈识别因子经行逻辑回归分析，从中获取具有显著性的因子。

本文通过SPSS 19.0软件实现样本数据的logit回归分析,所得结果见下表：

参数设定为：

方法-进入步进概率：

进入（N）=0.05，删除（V）=0.1；分类标准值（U）：

0.5；最大迭代次数：

50； Exp（B）的C.l.（X）：

95%。

表-6分类表

表-7迭代历史记录

Block拟合的是只含有常数的无效模型，表3为迭代历史记录，估计在迭代终止初始的对数似然值达到825.358；表4为分类预测表，可见在600例观察值记录中，269例被预测为0，331被预测为1。

表-8logit回归包含在防潮层中的变量估计值以及检验

在没有引入任何变量时方程的变量估计值及检验值如表5所示，常变量系数值为0.27，概率为0.082，可见常量对方程有显著性意义。

因为回归采用Enter方法，处了检查容忍度之外，没有其他任何进入标准，所有选择的变量都会进入回归方程。

将变量分别引入回归方程后对方程的显著性影响如表6所示。

可见性别、医嘱子类、是否留有手机号、执行科室、单价等五个因子引入方程对方程没有显著性影响。

表-9logit回归不包含在方程中的变量进入方程

5.2.3医疗欺诈识别的SOFM神经网络模型

以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型，在待检测数据中抽取一部分样本数据训练SOFM神经网络，得到欺诈行为识别模型。

导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果不同类型的数据，即可对医保欺诈行为进行主动识别。

SOFM神经网络结构模型的基本结构如下图所示：

图-3SOFM神经网络结构模型基本结构图

基于SOFM神经网络算法的基本功能函数，神经元

的输出可以采用两种方式：

（1）内积形式

（14）

（2）欧氏距离形式

（15）

接下来运用处理之后的数据对构建的神经网络模型进行训练，基于最小均方误差算法，以均方误差作为反映模型预测精度的标准，与最速下降法没有本质上的差别。

最标准最速下降法实际应用中往往收敛速度慢，因此作为改进权值更新阶段引入动量因子,使本次权值的更新方向和幅度不仅与本次计算的梯度有关还与更新有关，使权值更新有一定的惯性。

研究中动量因子设定为0.9。

模型经过94次训练误差精度达到0.009935小于目标0.01，训练结束，训练过程如下：

图-4模拟训练过程图

训练后模型的拟合优度达到0.97984，较为理想。

在合理的容错限度内可以较为准确地进行数据拟合和预测。

运用上述已经成型的神经网络模型，将数据导入其中得到了结果图:

图-5模型求解结果图

在10%的容错限度内判定准确率达到85.17%，在20%容错限度内准确率达到96.65%，可以认为准确率很高。

运用MATLAB语句选取概率在0.9以上的账单记录视为存在医疗保险欺诈的行为结果给出了797条，部分数据如下表所示：

表-10利用SOFM神经网络模型得到存在医疗欺诈的账单记录

．

六、模型的评价与改进

6.1模型的优点

1．利用logistic模型能够对初步确定的欺诈识别因子进行显著性水平检验，从而筛选出显著性高的识别因子；

2．以logit回归分析得到的显著有效地欺诈识别因子作为输出变量建立BP神经网络模型，从样本中选取一部分样本作为训练样本，用训练样本来训练神经网络，使神经网络更加合理，更加成熟；

3．模型能适用于其他各种医疗保险欺诈的识别，整个模型有很好的通用性。

6.2模型的缺点:

（1）在处理2.1病人资料，2.2 费用明细表数据时，对于不完整数据和主观认为不相关数据源进行了主观性忽略，可能会导致一些重要指标的丢失以及各个因素间的影响。

（2）医疗诈骗的行为很多，所以表现也多。

本模型分析的医疗诈骗行为可能不完善，所以有的诈骗行为可能难以区分。

七、参考文献

[1] 刘长骞，《K均值算法改进及在网络入侵检测中的应用》，《计算机仿真》,28（3）：

190-193，2011年 [2] 向继高能荆继武，《聚类算法在网络入侵检测中的应用》，《计算机工程》，29（16）：

48-50，2003年

[3] 姜启源谢金星叶俊，《数学模型》，北京：

高等教育出版社，2010年 [4] 李德宜李明，《数学建模》，北京：

科学出版社，2009年

[5] 丁国盛李涛，《SPSS统计教程》，北京：

机械工业出版社，2006年 [6] 薛薇，《统计分析与SPSS的应用》，北京：

中国人民大学出版社，2008

[6] 姜启源．数学模型（第三版）[M]．北京：

高等教育出版社，1999．

[7] 韩中庚．数学建模方法及其应用（第二版）[M]．北京：

高等教育出版社，2009．

[8] 王沫然．MATLAB与科学计算．北京：

电子工业出版社，2003年．

[9] 刘潇．社会医疗保险道德风险及其控制机制研究——基于医疗服务供需双方的分析．北京：

中国人民大学，2008年．

附录

附录1 计数程序

ii=331;

sum=0;

for i=1:

if r（i）>0.8

if r（i）<1.2

sum=sum+1;

rrr（i）=1;

end

附录2 数据库中对数据进行预处理程序

select WORKLOAD_ROWID as 购药记录,

WORKLOAD_ARPBL_DR as 账单号,

WORKLOAD_ITEMCAT_DR as 医嘱子类,

WORKLOAD_ITEMORD_DR as 医嘱项,

WORKLOAD_ORDDATE as 医嘱日期,

WORKLOAD_FLAGDATE as 结算日期,

convert（float, convert（datetime, WORKLOAD_FLAGDATE-WORKLOAD_ORDDATE）） as 时间间隔,

WORKLOAD_PAPMI_DR as 医保对象,

PAPMI_DOB as 出生日期,

PAPMI_MEDICARE as 病例号,

PAPMI_NAME3 as 医保手册号,

PAPMI_SEX_DR as 性别,

PAPMI_DECEASED as 是否死亡,

PAPMI_DECEASED_DATE as 死亡日期,

PAPMI_SECONDPHONE as 工作单位,

PAPMI_MOBPHONE as 手机号,

WORKLOAD_PATDEP_DR as 下医嘱科室,

WORKLOAD_QUANTITY as 医嘱数量,

WORKLOAD_RECDEP_DR as 执行科室,

WORKLOAD_RESDOC_DR as 下医嘱医生,

WORKLOAD_TAREC_DR as 核算分类,

WORKLOAD_TOTALPRICE as 费用,

WORKLOAD_UNITPRICE as 单价

update Sheet1$ set 医嘱数量=0-医嘱数量

where 医嘱数量<0

update Sheet1$ set 单价=0-单价

where 单价<0 update Sheet1$ set 费用=0-费用

where 费用<0

update Sheet1$ set 年龄

=datediff（YEAR,出生日期,'2014-08-15'）

update Sheet1$ set 性别 =0

where 性别=2

update Sheet1$ set 病例号=0

where 病例号='NULL' update Sheet1$ set病例号=1 where 病例号 <> 0

update Sheet1$ set 是否死亡=0

where 是否死亡 ='NULL' update Sheet1$ set 是否死亡 ='1' where 是否死亡 <>'0'

update Sheet1$ set 工作单位='0' where 工作单位 is NULL or 工作单位='未提供'

update Sheet1$ set 工作单位='1' where 工作单位 <>'0' update Sheet1$ set 手机号=0 where 手机号 =1

附录3 SOFM神经网络模型程序

%clear

%P=[ ]:

%训练样本输入数椐向量矩阵

%t=[ ]; %训练样本目标数据向量矩阵

%rand（'state',0）; %保证每次输出结果都相同

% p=p';

% t=t';

% x=p;

% z=t;

net=newff（minmax（p）,[16,1],{'tansig','purelin'},'trainrp'）; % 创建神经网络

net.trainparam.lr=0.1 % 学习速率

net.trainparam.mc=0.9; % 动量系数

net.trainparam.epochs=100000; %训练次数上限

net.trainparam.goal=0.02 %误差精度

[net,tr]=train（net,p,t）; % 网络训练

y=sim（net,p）; %预测分析

e=t-y %残差

res=norm（e） %整个网络误差

%x=[]'; %检验样本输入数据向景矩阵

%z=[]'; %检验样本目标数据向量矩阵

r=sim（net,x） %检验样本预测分析

s=z-r %检验残差

m=1:

length（t）; %检验样本编号

plot（m,r,'*',m,z,'o'） % 检验比较分析画图

xlabel（'样本案例序号'）%x轴名称

ylabel（'概率'）%y轴名称

附录4 logit回归不包括在方程中的变量进入方程a

附录5SOFM神经网络模型存在医疗欺诈的部分医疗记录

展开阅读全文