数学建模医保讹诈行为主动发觉.docx

资源描述

数学建模医保讹诈行为主动发觉.docx

《数学建模医保讹诈行为主动发觉.docx》由会员分享，可在线阅读，更多相关《数学建模医保讹诈行为主动发觉.docx（23页珍藏版）》请在冰豆网上搜索。

数学建模医保讹诈行为主动发觉.docx

数学建模医保讹诈行为主动发觉

医保讹诈行为的主动发觉

摘要

关于医保诈骗行为，咱们以为仅通过一个模型直接找出所有的讹诈类型既不准确，操作起来又比较困难。

因此咱们依照题附件中的费用明细表，通过度析费用数据与诈骗行为之间的关系成立模型一；依照各个表中显现的异样值，咱们将异样值视为可能是医保讹诈行为，并由此成立模型二。

针对模型一，咱们从三方面考虑。

第一，单张处方的总价太高可能为讹诈，可是考虑到总价与单价、数量之间的彼此阻碍，对此咱们先对单价、数量、总价进行相关分析，发觉单价与总价呈弱相关；然后用聚类分析对医嘱子类、单价、数量、总价进行分类，案例数少的类即有讹诈嫌疑；第二，对病人ID号标记重复个案，由于重复个案所占比例较大，对重复个案进一步进行了聚类分析；最后，假设下医嘱科室与病人科室不一致那么可能为讹诈，对此咱们绘制了简单线图，不在y=x直线上的即为讹诈记录。

针对模型二，成立合理的讹诈评判标准，检测其中的异样数据，进而对医保行为作出识别。

第一，构建基于Logistic分析的精炼讹诈识别因子模型。

成立Logit回归模型并用SPSS软件进行统计分析，通过度析回归模型的拟合优度和因素显著性查验，提掏出具有显著有效性的讹诈识别因子作为后续模型的学习样本标准。

构建无导师学习的自组织特点映射（SOFM）神经网络模型。

即以Logit统计分析提取的具有显著有效性的讹诈识别因子作为输入变量成立SOFM神经网络模型，导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果为不同类型的数据，即可对医保讹诈行为进行主动识别。

关键词：

医保讹诈标记重复个案相关分析logit模型SOFM神经网络

一、问题重述

问题的背景

随着我国社会医疗保险体系的不断进展，人民的医保福利水平日趋提高，一些医保体系中的问题也日趋显著，其中核心问题之一确实是医保诈骗行为。

问题的复述

医疗保险讹诈，是指公民、法人或其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇进程中，故意捏造事实、弄虚作假、隐瞒真实情形等造成医疗保险基金损失的行为。

骗保人进行医保讹诈时通常利用的手腕，一是拿着他人的医保卡配药，二是在不同的医院和医生处重复配药。

下面这些情形都有可能是医保讹诈：

单张处方药费专门高，一张卡在一按时刻内反复多次拿药等。

请依照附件中的数据，找出可能的讹诈记录。

二、问题分析

依照问题中对骗保人进行医保讹诈时的经常使用手腕，和可能属于医保讹诈行为的情形，通过度析咱们能够将问题分为以下几个方面来解决。

一、判定是不是为医保讹诈行为，需要从病人资料中的身份证号、医保手册号、Userupdate（用户更新次数）这三方面考虑。

对此利用SPSS软件利用标识重复个案、聚类分析的方式，通过度析运行结果，做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。

通过饼状图，可直观看出，所占比例的小的可能为讹诈记录。

二、第一第一步，对数据进行分析，构建基于Logistic分析的精炼讹诈识别因子模型。

基于第一步处置的讹诈案评判标准数据间的关系，成立Logit回归模型并用SPSS软件进行统计分析，通过度析回归模型的拟合优度和因素显著性查验，提掏出具有显著有效性的讹诈识别因子作为后续模型的学习样本标准。

第三步，构建无导师学习的自组织特点映射（SOFM）神经网络模型。

即以Logit统计分析提取的具有显著有效性的讹诈识别因子作为输入变量成立SOFM神经网络模型，在待检测数据中抽取一部份样本数据训练SOFM神经网络，取得讹诈行为识别模型。

第四步，导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果为不同类型的数据，即可对医保讹诈行为进行主动识别。

三、问题的假设

一、假设医保讹诈只是患者单方面行为，不存在医患合谋和医疗机构“引至讹诈”情形。

二、假设数据来源真实有效。

3,、假设分析进程中，数据无缺失。

4、假设对每一个聚类分析结果，利用同一评判标准。

五、假设附所有保险的有关规定没各个指标。

六、假设所有的相关数据具有独立性相呼阻碍。

四、符号说明

变量

标准方差

初始聚类中心

样本与聚类中心的距离

误差平方和准则函数

欧式距离

新聚类中心

Pearson相关系数

Pearson相关系数检验统计量

2个一级指标i=1,2

5个二级指标i=1,2j=1,2,3

3个成对比矩阵i=1，2，3

矩阵按行求和

矩阵的最大特征值

5个指标最终权重

一致性检验指标

随机一致性指标

一致性比率

欺诈程度阈值

五、模型的成立与求解

模型一：

基于费用明细的医保讹诈行为主动发觉

模型一的分析

医疗保险讹诈行为，通过度析病人的费用明细表中的各项数据也能够找出可能的讹诈行为表现，要紧从单张处方的总价太高、病人ID号是不是重复过量、下医嘱科室与病人科室是不是一致这三个方面考虑。

在附件给出的表2中，通过对各个变量进行K均值聚类分析，能够将数据分为几类，案例数少的那么可能是讹诈行为。

可是考虑到单价、数量、总价之间的彼此阻碍，对此咱们利用了SPSS中相关性分析找出三个变量的相关性，并用图标构建程序绘制了简单3-D散点图。

关于病人ID号与模型一的分析一样，利用标记重复个案的方式，找到重复的记录，即可能为医保讹诈行为。

而下医嘱科室与病人科室应该是一致的，假设不一致即为讹诈，因此对下医嘱科室和病人科室绘制简单线图。

模型一的成立:

（1）数据标准化

由于所选数据的量纲和数值大小都不一致，数值的转变范围也不同，因此必需第一对所选数据进行标准化处置，若是有n个样本，m个指标，那么每一个变量可表示为

，均值

（1）

标准方差为

（2）

标准化以后的式子为

（3）

（2）聚类分析

系统聚类，将n个重复个案结果各自看成一类，然后规定样本之间的距离和类与类之间的距离。

开始，因每一个结果自成一类，类与类之间的距离与个案之间的距离是相等的，选择距离最小的一对并成一个新类，计算新类与其他类的距离，再将距离最近的两类归并，如此每次少一类，直至所有的个案都成一类为止，最终完成份类。

1、设有n个样本，令I=1,选取K个初始聚类中心：

；

2、计算每一个数据样本与聚类中心之间距离：

（4）

若是知足

；

3、计算误差平方和准那么函数JC，公式如下：

（5）

4、判定是不是知足聚类算法终止条件：

若是

，那么表示算法终止，不然，I=I+1，计算下一个新的聚类中心，并返回2,新的聚类中心计算公式如下:

（6）

距离：

对重复个案结果进行聚类时，“靠近”往往由某种距离来刻画。

令

表示第

个重复个案结果的第

个指标，

表示第

个重复个案与第

个重复个案之间的距离，最多见计算距离的方式是：

欧几里德距离

（7）

上式即为欧氏距离。

（3）相关性分析：

相关分析是描述两个变量间关系的紧密程度，要紧由相关系数值表示，当相关系数r的绝对值越接近于1，那么表示两个变量间的相关性越显著。

双变量系数测量的要紧指标有卡方类测量、Spearman相关系数、pearson相关系数等，在进行二者间的相关性查验时用pearson相关系数来判定，其公式为：

（8）

Pearson简单相关系数查验统计量为：

（9）

其中

统计量服从

个自由度的

散布。

模型一的求解

（1）考虑到单价、数量、总价之间的彼此阻碍，对这三个变量进行了双变量相关分析，图8为三个变量的相关性分析统计表，图9单价、数量、总价的简单3-D散点图。

表-1单价、数量、总价相关分析统计表

图-1单价，数量，总价的简单3-D散点图

（2）用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。

最终聚类中心结果见表-2，表-3是这四个变量的单因素方差分析表，表-4是运用k-均值聚类分析求出的重复个案数。

表-2病人ID号重复个案的最终聚类中心

表-3医嘱子类、单价、数量、总价的单因素方差分析表

图-2医嘱子类、单价、数量、总价的最终聚类中心条形图

表-4k均值聚类分析中的重复个案聚类

上述所有统计结构的分析：

（1）从相关分析的统计表中，能够看出单价与总价的相关性为（弱相关），而数量与总价的相关性为（不相关），因此以为，单价与总价有必然的相关性。

（2）从图10中看出，将医嘱子类、单价、数量、总价分为10类；图12为医嘱子类、单价、数量、总价的每一个聚类的案例数，发觉第一、二、4类的单价太高；第3、10类退药数量大，第8类买药数量大；第一、3类单张处方退药金额大；第二、4、6类单张处方药费高。

以上所述的都有可能为医保讹诈记录。

（3）图14统计出病人ID号重复个案占总数的%，对此再进行聚类分析，结果见图15；由图16可知，第五、7、八、10类案例数较少，这些类的最终聚类中心大于25，此特点可能为讹诈。

（4）依照图17绘制的下医嘱科室与病人科室简单线图，能够看出有个别记录不在y=x线上，即为下医嘱科室与病人科室不一致，因此为医保讹诈行为。

（5）在图11的单因素方差分析中，医嘱子类、单价、数量、总价的P值均为0，说明各类在统计学上均有明显不同，将其作为分类标准是适合的。

模型二的成立与求解

模型的成立

咱们把事件发生的情形概念为1，事件未发生的情形概念为0。

如此在保险讹诈识别模型中，取值为0、1的因变量能够写作：

（10）

咱们通常以

表示事件发生的概率（那么事件未发生的概率为

），并把

看做自变量

的函数。

在本论文中，医疗保险是医疗讹诈的概率为

。

关于

是0-1型Bernoulli模型，有如下散布：

（11）

通过logistic转换，索赔事件的对数概率发生比写成logit模型：

（12）

Logit一方面表达出它是医疗讹诈索赔概率p的转换单位;另一方面，它作为回归的因变量就能够够与自变量识别因子之间的依存关系维持传统回归模型：

（13）

其中

别离为

个识别因子：

为常数项，

别离为

个自变量的回归系数。

logit模型的求解

一、讹诈识别因子的选取

讹诈识别因子是指能够观测或测量到的，能够刻画保险讹诈特点的有效信息点，用以作为讹诈识别模型的说明变量。

依照给出的数据，本文选取了一下13个指标作为识别因子：

（1）被保人特点：

性别、年龄、是不是有固定单位、是不是死亡、是不是留有电话号。

（2）医保单特点：

医嘱日期和结算日期距离、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。

二、选取部份记录进行初步判定

由于logist模型的要求，必需先对一小部份记录进行初步判定，利用sql语句（详见附录2）选取每一栏目中异样数据，然后利用统计学散布等知识选取判定这一小部份数据，结果如下表：

表-5部份记录判定结果

3、讹诈识别因子的精炼

运用二元离散选择模型对选取的13个讹诈识别因子经行逻辑回归分析，从中获取具有显著性的因子。

本文通过SPSS 软件实现样本数据的logit回归分析,所得结果见下表：

参数设定为：

方式-进入步进概率：

进入（N）=，删除（V）=；分类标准值（U）：

；最大迭代次数：

50； Exp（B）的.（X）：

95%。

表-6分类表

表-7迭代历史记录

Block拟合的是只含有常数的无效模型，表3为迭代历史记录，估量在迭代终止初始的对数似然值达到；表4为分类预测表，可见在600例观看值记录中，269例被预测为0，331被预测为1。

表-8logit回归包括在防潮层中的变量估量值和查验

在没有引入任何变量时方程的变量估量值及查验值如表5所示，常变量系数值为，概率为，可见常量对方程有显著性意义。

因为回归采纳Enter方式，处了检查容忍度之外，没有其他任何进入标准，所有选择的变量都会进入回归方程。

将变量别离引入回归方程后对方程的显著性阻碍如表6所示。

可见性别、医嘱子类、是不是留有电话号、执行科室、单价等五个因子引入方程对方程没有显著性阻碍。

表-9logit回归不包括在方程中的变量进入方程

医疗讹诈识别的SOFM神经网络模型

以Logit统计分析提取的具有显著有效性的讹诈识别因子作为输入变量成立SOFM神经网络模型，在待检测数据中抽取一部份样本数据训练SOFM神经网络，取得讹诈行为识别模型。

导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果不同类型的数据，即可对医保讹诈行为进行主动识别。

SOFM神经网络结构模型的大体结构如以下图所示：

图-3SOFM神经网络结构模型大体结构图

基于SOFM神经网络算法的大体功能函数，神经元

的输出能够采纳两种方式：

（1）内积形式

（14）

（2）欧氏距离形式

（15）

接下来运用途理以后的数据对构建的神经网络模型进行训练，基于最小均方误差算法，以均方误差作为反映模型预测精度的标准，与最速下降法没有本质上的不同。

最标准最速下降法实际应用中往往收敛速度慢，因此作为改良权值更新时期引入动量因子,使本次权值的更新方向和幅度不仅与本次计算的梯度有关还与更新有关，使权值更新有必然的惯性。

研究中动量因子设定为。

模型通过94次训练误差精度达到小于目标，训练终止，训练进程如下：

图-4模拟训练进程图

训练后模型的拟合优度达到，较为理想。

在合理的容错限度内能够较为准确地进行数据拟合和预测。

运用上述已经成型的神经网络模型，将数据导入其中取得了结果图:

图-5模型求解结果图

在10%的容错限度内判定准确率达到%，在20%容错限度内准确率达到%，能够以为准确率很高。

运用MATLAB语句选取概率在以上的账单记录视为存在医疗保险讹诈的行为结果给出了797条，部份数据如下表所示：

表-10利用SOFM神经网络模型取得存在医疗讹诈的账单记录

．

六、模型的评判与改良

模型的优势

1．利用logistic模型能够对初步确信的讹诈识别因子进行显著性水平查验，从而挑选出显著性高的识别因子；

2．以logit回归分析取得的显著有效地讹诈识别因子作为输出变量成立BP神经网络模型，从样本当选取一部份样本作为训练样本，用训练样本来训练神经网络，使神经网络加倍合理，加倍成熟；

3．模型能适用于其他各类医疗保险讹诈的识别，整个模型有专门好的通用性。

模型的缺点:

（1）在处置病人资料，费用明细表数据时，关于不完整数据和主观以为不相关数据源进行了主观性忽略，可能会致使一些重要指标的丢失和各个因素间的阻碍。

（2）医疗诈骗的行为很多，因此表现也多。

本模型分析的医疗诈骗行为可能不完善，因此有的诈骗行为可能难以区分。

七、参考文献

[1] 刘长骞，《K均值算法改良及在网络入侵检测中的应用》，《运算机仿真》,28（3）：

190-193，2020年 [2] 向继高能荆继武，《聚类算法在网络入侵检测中的应用》，《运算机工程》，29（16）：

48-50，2003年

[3] 姜启源谢金星叶俊，《数学模型》，北京：

高等教育出版社，2020年 [4] 李德宜李明，《数学建模》，北京：

科学出版社，2020年

[5] 丁国盛李涛，《SPSS统计教程》，北京：

机械工业出版社，2006年 [6] 薛薇，《统计分析与SPSS的应用》，北京：

中国人民大学出版社，2020

[6] 姜启源．数学模型（第三版）[M]．北京：

高等教育出版社，1999．

[7] 韩中庚．数学建模方式及其应用（第二版）[M]．北京：

高等教育出版社，2020．

[8] 王沫然．MATLAB与科学计算．北京：

电子工业出版社，2003年．

[9] 刘潇．社会医疗保险道德风险及其操纵机制研究——基于医疗效劳供需两边的分析．北京：

中国人民大学，2020年．

附录

附录1 计数程序

ii=331;

sum=0;

for i=1:

if r（i）>

if r（i）<

sum=sum+1;

rrr（i）=1;

end

附录2 数据库中对数据进行预处置程序

select WORKLOAD_ROWID as 购药记录,

WORKLOAD_ARPBL_DR as 账单号,

WORKLOAD_ITEMCAT_DR as 医嘱子类,

WORKLOAD_ITEMORD_DR as 医嘱项,

WORKLOAD_ORDDATE as 医嘱日期,

WORKLOAD_FLAGDATE as 结算日期,

convert（float, convert（datetime, WORKLOAD_FLAGDATE-WORKLOAD_ORDDATE）） as 时刻距离,

WORKLOAD_PAPMI_DR as 医保对象,

PAPMI_DOB as 诞生日期,

PAPMI_MEDICARE as 病例号,

PAPMI_NAME3 as 医保手册号,

PAPMI_SEX_DR as 性别,

PAPMI_DECEASED as 是不是死亡,

PAPMI_DECEASED_DATE as 死亡日期,

PAPMI_SECONDPHONE as 工作单位,

PAPMI_MOBPHONE as 电话号,

WORKLOAD_PATDEP_DR as 下医嘱科室,

WORKLOAD_QUANTITY as 医嘱数量,

WORKLOAD_RECDEP_DR as 执行科室,

WORKLOAD_RESDOC_DR as 下医嘱医生,

WORKLOAD_TAREC_DR as 核算分类,

WORKLOAD_TOTALPRICE as 费用,

WORKLOAD_UNITPRICE as 单价

update Sheet1$ set 医嘱数量=0-医嘱数量

where 医嘱数量<0

update Sheet1$ set 单价=0-单价

where 单价<0 update Sheet1$ set 费用=0-费用

where 费用<0

update Sheet1$ set 年龄

=datediff（YEAR,诞生日期,'2021-08-15'）

update Sheet1$ set 性别 =0

where 性别=2

update Sheet1$ set 病例号=0

where 病例号='NULL' update Sheet1$ set病例号=1 where 病例号 <> 0

update Sheet1$ set 是不是死亡=0

where 是不是死亡 ='NULL' update Sheet1$ set 是不是死亡 ='1' where 是不是死亡 <>'0'

update Sheet1$ set 工作单位='0' where 工作单位 is NULL or 工作单位='未提供'

update Sheet1$ set 工作单位='1' where 工作单位 <>'0' update Sheet1$ set 电话号=0 where 电话号 =1

附录3 SOFM神经网络模型程序

%clear

%P=[ ]:

%训练样本输入数椐向量矩阵

%t=[ ]; %训练样本目标数据向量矩阵

%rand（'state',0）; %保证每次输出结果都相同

% p=p';

% t=t';

% x=p;

% z=t;

net=newff（minmax（p）,[16,1],{'tansig','purelin'},'trainrp'）; % 创建神经网络

% 学习速度

% 动量系数

%训练次数上限

%误差精度

[net,tr]=train（net,p,t）; % 网络训练

y=sim（net,p）; %预测分析

e=t-y %残差

res=norm（e） %整个网络误差

%x=[]'; %查验样本输入数据向景矩阵

%z=[]'; %查验样本目标数据向量矩阵

r=sim（net,x） %查验样本预测分析

s=z-r %查验残差

m=1:

length（t）; %查验样本编号

plot（m,r,'*',m,z,'o'） % 查验比较分析画图

xlabel（'样本案例序号'）%x轴名称

ylabel（'概率'）%y轴名称

附录4 logit回归不包括在方程中的变量进入方程a

附录5SOFM神经网络模型存在医疗讹诈的部份医疗记录

展开阅读全文