医保欺诈行为的主动发现.docx
《医保欺诈行为的主动发现.docx》由会员分享,可在线阅读,更多相关《医保欺诈行为的主动发现.docx(40页珍藏版)》请在冰豆网上搜索。
医保欺诈行为的主动发现
医保欺诈行为的主动发现
【摘要】在医疗保险领域中,医疗保险是关系到国计民生和国家发展的重大问题,维持医疗保险基金的收支平衡、对基金运营进行有效监管,以保证基金安全运营对医疗保险的发展、完善和社会稳定发展有重要影响。
医保信息化构建了较为完整的医保数据仓库,为数据挖掘技术的应用打下了良好的基础。
本篇论文利用数据挖掘中的聚类分析方法,以及二元回归分析根据实际情况建立数学模型,分析医疗费用记录中医保欺诈记录。
骗保人进行医保欺诈时使用的方式主要有:
冒用他人医疗保险证、卡就医;
异地就医人员伪造或虚开医疗票据回来报销;“挂床”住院就医;要求医院开具
本人不必要的诊疗项目或药品,由他人代作或代用等。
医保欺诈行为在本数据中反映主要有以下几类:
一、病人消费等级高(消费等级:
病人每张账单的平均消费额/该病人对应的病人科室的每张账单的平均消费额);
二、消费频率大(消费频率:
病人一个月总账单数/该病人对应的病人科室的总账单数);
三、一张卡在一定时间内反复多次拿药;
四、病人死后医保卡依旧有消费记录;
五、一张卡多人使用;
六、单张处方药数量大
七、单张处方药的费额大
八、病人一个月内平均每张账单药品数量大和价格高;
九、一个月内买药的总消费额大;
十、一个月内买药的总数量大十一、病人死亡后医保卡依旧有消费记录等。
本文重点分析以下三类:
1.对于病人消费等级高和消费频率高的医保欺诈行为。
研究病人消费等级高和消费频率高的医保欺诈行为,用excel和spss,access通过分析数据属性的特征值,选择典型数据作为初始聚类中心,用spss进行k-means聚类分析。
工具进行聚类分析。
2.对于其他的医保欺诈行为。
如:
病人死亡后,其医保卡被他人使用继续使
用,本文首先从题目表2.1病人资料pa_patmas表PAPMI_DECEASED(死亡标
志)字段中筛选出死亡病人的资料。
根据筛选出的死亡病人的ID查找其医保卡
消费情况,对比病人的死亡时间以及账单号的交易时间,若病人的死亡时间在前
与交易时间,则为医保欺诈记录。
3.对于一张医保卡多人使用的医保欺诈行为。
本文首先从题目表2.1病人资料pa_patmas表中对医保卡号一栏运用COUNTIF函数筛选一卡多用欺诈得出结果分为两种:
1.一张医保卡两人使用;2.一张医保卡三人使用
关键词:
医保欺诈数据挖掘聚类分析k-meanslogistic回归分析
一、问题重述
1.1问题背景
医疗保险是为解决公民或劳动者因为疾病和非因公负伤,丧失劳动能力后的
治疗费用及服务,给予物质帮助的一种社会保险制度。
我国的医疗保险分为社会
医疗保险和商业医疗保险。
商业医疗保险是投保人根据合同约定向保险公司支付
保险费,当被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限时,保险
公司承担给付保险金责任的保险合同。
社会医疗保险是国家通过立法的形式对社
会成员强制征缴社会医疗保险基金,用以对其中患有疾病、伤残者给予基本医疗
保障的一种社会经济保障制度。
医疗保险欺诈行为是指违反医疗保险管理法规和政策,采用虚构事实、隐瞒
真相以及其他方法,向医保基金管理机构骗取医保基金或医保待遇的行为。
这一
行为具有两个基本特征:
一是主观表现为直接故意,并且以非法占有医保基金或
非法获得医保待遇为目的,二是实施手段主要是通过虚构事实和隐瞒真相,即故
意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损
失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。
随着我国医疗保险事业的迅速的发展,我国医保的覆盖面不断扩大,包括了
城保、镇保、个保、居保等等。
保证医疗保险资金正常运作,规避潜在运营风险
的前提条件是判断出医保欺诈行为。
然而,利用数学建模的方法分析医保欺诈行
为,建立医保欺诈行为的模型,可为评判医保欺诈行为提供科学的理论依据。
1.2问题提出
骗保人进行医保欺诈时通常使用的手段:
1、医疗保险参保患者的欺诈、违规行为。
使用的方式主要有:
冒用他人医
疗保险证、卡就医;异地就医人员伪造或虚开医疗票据回来报销;“挂床”住院
就医;要求医院开具本人不必要的诊疗项目或药品,由他人代作或代用等。
2、医疗保险机构(药店)的欺诈、违规行为。
使用的方式主要有:
伪造、变
造以及提供虚假病历、处方、疾病诊断证明和医疗费票据等一系列作假行为,如
就医资格作假、病因作假、票据作假、处方作假、医疗明细作假、医疗文书作假、
住院床位作假、医疗证明作假等等,无不与医疗机构的工作人员有关。
此外还有
使用医疗保险基金支付应由参保人自费的医疗费用,较为严重的是将非医保支付
病种(如车祸、工伤、打架斗殴等)改为医保支付病种;向参保人提供不必要的
或过度的医疗服务。
3、医疗保险机构(药店)和参保患者合谋的欺诈、违规行为。
使用的方式主
要有:
虚开医保基金报销所需的入院证明、医疗发票、住院清单等医疗资料。
4、不法分子为了获取不当利益的欺诈行为。
使用的方式主要有:
不法分子
冒用医疗保险经办机构名义,虚构退返医疗保险金、社保卡发生故障、医保缴费
交易出现故障、医保卡欠费封锁、医保卡透支以及涉嫌购买非法药品等虚假信息,
要求参保人员提供身份证号码、医保卡号码及密码等个人信息,并要求其对某个
银行账户进行转款等,试图骗取参保人员信息及钱财。
本文讨论医疗保险参保患者的欺诈、违规行为为一下几点:
一、病人消费等级高(消费等级:
病人每张账单的平均消费额/该病人对应的病人科室的每张账单的平均消费额);
二、消费频率大(消费频率:
病人一个月总账单数/该病人对应的病人科室的总账单数);
三、一张卡在一定时间内反复多次拿药;
四、病人死后医保卡依旧有消费记录;
五、一张卡多人使用;
六、单张处方药数量大
七、单张处方药的费额大
八、病人一个月内平均每张账单药品数量大和价格高;
九、一个月内买药的总消费额大;
十、一个月内买药的总数量大十一、病人死亡后医保卡依旧有消费记录等
本文重点分析病人消费等级高和消费频率高的医保欺诈行为,病人死亡后仍有消费行为和一张医保卡多人使用的情况
二、问题分析
聚类分析是数据挖掘的一种重要分析方法。
聚类分析(clusteringanalysis)是
一种根据数据对象的属性将数据对象划分为相应的若干群组(Cclass)或者聚类
(cluster)的过程,同时让聚类的结果满足相同簇中的数据对象差距尽可能的小,
不同组中的数据差距尽可能的大。
聚类分析算法众多,从当前的研究状况来讲,可以将聚类分析算法大致分为
如下几类:
即基于模型的方法(Model-basedMethod),基于层次的方法
(HierarchicalMethod),基于网格的方法(Grid-basedMethod),基于划分的方法
(PartitioningMethod)和基于密度的方法(Density-basedMethod)。
k-means聚类算法是一种基于划分方法的聚类分析法,其通过计算数据对象
和每个聚类簇心的距离选择与簇心最近的簇分配到其中,从而将数据分类。
是一
种常用的描述任务的数据挖掘技术。
本文主要通过以下两个步骤来分析医保数据,找出可能的医保欺诈数据:
1.参保人就医行为模式挖掘。
了解不同参保人就医行为的特征,可以深入认
识部分参保人存在的共性。
2.医保欺诈检测。
根据分析可能的欺诈行为,并利用数据挖掘算法进行检测
和验证。
对于可能的欺诈行为,本文重点分析病人消费等级高和消费频率高的医保欺诈行为,
病人死亡后仍有消费行为和一张医保卡多人使用的情况。
1.对于病人消费等级高和消费频率高的医保欺诈行为。
研究病人消费等级高和消费频率高的医保欺诈行为,用excel和spss,access通过分析数据属性的特征值,选择典型数据作为初始聚类中心,用spss进行k-means聚类分析。
工具进行聚类分析。
2.对于其他的医保欺诈行为。
如:
病人死亡后,其医保卡被他人使用继续使
用,本文首先从题目表2.1病人资料pa_patmas表PAPMI_DECEASED(死亡标
志)字段中筛选出死亡病人的资料。
根据筛选出的死亡病人的ID查找其医保卡
消费情况,对比病人的死亡时间以及账单号的交易时间,若病人的死亡时间在前
与交易时间,则为医保欺诈记录。
3.对于一张医保卡多人使用的医保欺诈行为。
本文首先从题目表2.1病人资料pa_patmas表中对医保卡号一栏运用COUNTIF函数筛选一卡多用欺诈得出结果分为两种:
1.一张医保卡两人使用;2.一张医保卡三人使用
三、模型假设
1、医保卡号为1的病人为普通病人无欺诈嫌疑
2、消费资料来自同一医院
3、消费总额和消费数量为负数则视为冲账,取绝对值计算
4、假设参保人健康状况正常,无重大疾病。
5、假设参保人经济情况正常,能够支付起正常的医疗费。
6、假设忽略一个月内极少部分病人转科室的情况
7、假设用医保卡消费药品低于市场价
四、符号说明
符号
意义
Vmean
属性数据的均值
Vmedian
属性数据的中位数
Vvariance
属性数据的方差
δ
属性数据的标准差
DKL
属性数据点距离的平均值
K
数据簇
L
数据簇
Ni
表示第1个簇包含的对象数
五、模型的建立与求解
本文医保欺诈行为有:
一、病人消费等级高(消费等级:
病人每张账单的平均消费额/该病人对应的病人科室的每张账单的平均消费额);
二、消费频率大(消费频率:
病人一个月总账单数/该病人对应的病人科室的总账单数);
三、一张卡在一定时间内反复多次拿药;
四、病人死后医保卡依旧有消费记录;
五、一张卡多人使用;
六、单张处方药数量大
七、单张处方药的费额大
八、病人一个月内平均每张账单药品数量大和价格高;
九、一个月内买药的总消费额大;
十、一个月内买药的总数量大十一、病人死亡后医保卡依旧有消费记录等。
用excel和spss,access通过分析数据属性的特征值,选择典型数据作为初始聚类中心,用spss进行k-means聚类分析。
参保人员模型:
属性编号
属性
数据属性
1
病人ID(PAPMI_ROWID1)
主键
2
医保卡(PAPMI_NAME3)
参保人员基本信息
3
年龄
参保人员基本信息
4
性别
参保人员基本信息
5
医保卡共用与否
参保人员行为信息
6
消费等级
参保人员行为信息
7
消费频率
参保人员行为信息
8
单张处方药的最大数量
参保人员行为信息
9
单张处方药的最大金额
参保人员行为信息
10
一个月内平均每张账单药品数量
参保人员行为信息
11
一个月内平均每张账单药品价格
参保人员行为信息
12
一个月内买药的数量
参保人员行为信息
13
一个月内买药的消费额
参保人员行为信息
5.1病人消费等级高和消费频率高的医保欺诈行为
研究病人消费等级高和消费频率高的医保欺诈行为,用excel和spss,access通过分析数据属性的特征值,选择典型数据作为初始聚类中心,用spss进行k-means聚类分析。
5.1.1数据预处理
用ACCESS和EXCEL同时处理分析表一表二的数据,寻找各数据之间的关联关系,求出各科室总消费额,各科室总账单数,从而得出各科室每份账单的平均消费额,再求出病人的总消费额病人的总账单数,病人每张账单的平均消费额。
=
统计量
消费值的绝对值
N
有效
9853
缺失
0
均值
1.08927817
中值
.93323844
众数
1.072911
标准差
.865080854
方差
.748
极小值
.000000
极大值
16.148321
百分位数
25
.56377469
50
.93323844
75
1.38353338
统计量
消费频率
N
有效
9853
缺失
0
均值
.00124349
中值
.00044111
众数
.000101
标准差
.020606502
方差
.000
极小值
.000101
极大值
2.000000
百分位数
25
.00025413
50
.00044111
75
.00094607
5.1.2建立聚类分析模型
分析病人消费等级和消费频率之后,建立聚类分析模型。
根据基于凝聚
层次聚类(hierarchicalclustering)的K-Means算法公式:
带入初始聚类中心,使用spss进行聚类分析。
根据前面对数据属性特征值的分析,选择以下几组数据作为初始的聚类中心。
1.消费频率高,消费绝对值大
2.消费频率低,消费绝对值大。
3.消费频率高,消费绝对值小。
4.消费频率低,消费绝对值小
初始化聚类中心,带入聚类公式,进行计算,得:
初始聚类中心
聚类
1
2
3
4
消费频率
.002853
.004704
.001045
.001371
消费值的绝对值
.000000
16.148321
5.682740
10.861013
迭代历史记录a
迭代
聚类中心内的更改
1
2
3
4
1
.978
.000
1.802
1.425
2
.036
.000
.546
.966
3
.032
.000
.356
.755
4
.030
.000
.276
.649
5
.031
.000
.220
.537
6
.027
2.396
.161
.473
7
.027
1.672
.137
.439
8
.024
1.456
.114
.477
9
.022
1.008
.101
.500
10
.022
.483
.092
.351
a.迭代已停止,因为完成了最大次数的迭代。
迭代无法收敛。
任何中心的最大绝对坐标更改为.483。
当前迭代为10。
初始中心间的最小距离为5.178。
最终聚类中心
聚类
1
2
3
4
消费频率
.001373
.001262
.000901
.001103
消费值的绝对值
.704102
8.819242
1.798903
4.062244
最终聚类中心间的距离
聚类
1
2
3
4
1
8.115
1.095
3.358
2
8.115
7.020
4.757
3
1.095
7.020
2.263
4
3.358
4.757
2.263
每个聚类中的案例数
聚类
1
7032.000
2
22.000
3
2555.000
4
244.000
有效
9853.000
缺失
.000
根据聚类结果,共有大约7000个病人消费频率高,消费绝对值大22个病人消费频率低,消费绝对值大;大约2500个病人消费频率高,消费绝对值小。
大约244个病人消费频率低,消费绝对值小。
属于第二组和第四组大约266个病人聚类结果集中都为医保欺诈嫌疑记录。
具体处理见附件二、聚类成员;附件三、聚类素材
5.2Logistic回归模型
在前面我们设计并运行的K-means聚类分析后我们有了一个较好的Logistic回归分析模型的欺诈样本,同时omen又取所有的自费患者及医保卡号为1的所有患者的相应信息作为非欺诈样本,这样我们就有了容量大约为22000的样本。
方程:
:
其中,是和未知的多元线性回归模型相似的常数。
对我们模型的自变量是:
X1=年龄(0-96,数值)
X2=性别(1,2,3,4)
X3=年龄(数值)
X4=消费等级
X5=消费频率
ClassificationTablea
Observed
Predicted
是否欺诈
PercentageCorrect
0
1
Step1
是否欺诈
0
22088
2
100.0
1
340
1
.3
OverallPercentage
98.5
a.Thecutvalueis.500
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
95.0%C.I.forEXP(B)
Lower
Upper
Step1a
性别
.033
3
.998
性别
(1)
16.969
1.519E4
.000
1
.999
2.341E7
.000
.
性别
(2)
16.948
1.519E4
.000
1
.999
2.294E7
.000
.
性别(3)
-.127
2.517E4
.000
1
1.000
.881
.000
.
年龄
.005
.002
4.698
1
.030
1.005
1.000
1.010
消费等级
-66.048
25.632
6.640
1
.010
.000
.000
.000
消费平率
40.588
8.938
20.623
1
.000
4.237E17
1.046E10
1.717E25
Constant
-21.292
1.519E4
.000
1
.999
.000
a.Variable(s)enteredonstep1:
性别,年龄,消费等级,消费频率.
分析结果得出性别、Constant对欺诈概率的影响不显著。
回归方程为:
Y=0.0051*年龄-66.0477*消费等级+40.5877*消费频率
概率=1/(1+EXP(-(0.0051*年龄-66.0477*消费等级+40.5877*消费频率)
将原数据进行检验结果与聚类结果符合度较好。
5.3其他医保欺诈行为
对于其他的医保欺诈行为,如病人死后医保卡依旧有消费记录;一张医保卡多人使用,本文通过特殊情况特殊处理,主要采用excel数据筛选和比对的方法,分析和筛选数据。
本文重点分析病人死后医保卡仍被消费与一张医保卡多人使用的情况。
5.3.1病人死后医保卡仍被消费
从题目表2.1病人资料pa_patmas表PAPMI_DECEASED(死亡标志)字段中
筛选出死亡病人的资料,得:
表5.3.1.1死亡病人资料表
PAPMI_ROWID1
PAPMI_NAME2
PAPMI_DECEASED
PAPMI_DECEASED_DATE
PAPMI_DECEASEDTIME
214055
LTL
Y
2014/1/25
1970/1/11:
10
267817
邬XX
Y
2014/4/18
1970/1/118:
45
293821
CWM
Y
2014/4/9
1970/1/120:
00
340155
LPZ
Y
2014/3/13
1970/1/116:
11
474594
XZL
Y
2014/2/10
1970/1/112:
49
666401
LYJ
Y
2014/1/11
1970/1/123:
03
658234
WYL
Y
2014/1/6
1970/1/117:
46
679918
LCY
Y
2014/1/19
1970/1/113:
17
679677
YZY
Y
2014/1/19
1970/1/115:
23
683806
LJD
Y
2014/2/19
1970/1/114:
25
根据筛选出的死亡病人的ID查找其医保卡消费情况,得:
死亡病人费用明细表
病人ID
单价
数量
总价
账单号
结算日
214055
33.95
1
33.95
5334584
2014/1/23
214055
0.42
1
0.42
5337122
2014/1/23
214055
5.08
1
5.08
5337122
2014/1/23
267817
1.54
2
3.08
5247472
2014/1/16
267817
1.245
20
24.9
5247472
2014/1/16
293821
10.84
1
10.84
5086290
2014/1/4
293821
16
1
16
5086290
2014/1/4
293821
0.138
1
0.138
5086290
2014/1/4
293821
4.16
1
4.16
5086290
2014/1/4
293821
5.08
1
5.08
5086290
2014/1/4
340155
0.095
100
9.5
5126257
2014/1/7
340155
0.0452
100
4.52
5126257
2014/1/7
340155
5.64
24
135.36
5126257
2014/1/7
340155
2.012
80
160.96
5137357
2014/1/7
340155
0.175
48
8.4
5137357
2014/1/7
474594
42.95
4
171.8
5067350
2014/1/3
474594
2.687
200
537.4
5067350
2014/1/3
474594
0.021
100
2.1
5067350
2014/1/3
474594
1.67
30
50.1
5067350
2014/1/3
474594
1.085714286
21
22.8
5067350
2014/1/3
474594
2.832
30
84.96
5067350
2014/1/3
474594
4.732857143
14
66.26
5067350
2014/1/3
474594
0.339
200
67.8
5067350
2014/1/3
666401
4.61
1
4.61
5176060
2014/1/11
666401
5.08
1
5.08
5176060
2014/1/11
666401
3.67
1
3.67
5176060
2014/1/11
666401
23.17
1
23.17
5176060
2014/1/11
666401
28.63
1
28.63
5176060
2014/1/11
666401
36.64
1
36.64
5176060
2014/1/11
658234
0.42
2
0.84