数学建模医保讹诈行为主动发觉.docx-资源下载

数学建模医保讹诈行为主动发觉.docx

1、数学建模医保讹诈行为主动发觉医保讹诈行为的主动发觉摘要关于医保诈骗行为，咱们以为仅通过一个模型直接找出所有的讹诈类型既不准确，操作起来又比较困难。因此咱们依照题附件中的费用明细表，通过度析费用数据与诈骗行为之间的关系成立模型一；依照各个表中显现的异样值，咱们将异样值视为可能是医保讹诈行为，并由此成立模型二。针对模型一，咱们从三方面考虑。第一，单张处方的总价太高可能为讹诈，可是考虑到总价与单价、数量之间的彼此阻碍，对此咱们先对单价、数量、总价进行相关分析，发觉单价与总价呈弱相关；然后用聚类分析对医嘱子类、单价、数量、总价进行分类，案例数少的类即有讹诈嫌疑；第二，对病人ID号标记重复个案，由

2、于重复个案所占比例较大，对重复个案进一步进行了聚类分析；最后，假设下医嘱科室与病人科室不一致那么可能为讹诈，对此咱们绘制了简单线图，不在y=x直线上的即为讹诈记录。针对模型二，成立合理的讹诈评判标准，检测其中的异样数据，进而对医保行为作出识别。第一，构建基于Logistic分析的精炼讹诈识别因子模型。成立Logit回归模型并用SPSS软件进行统计分析，通过度析回归模型的拟合优度和因素显著性查验，提掏出具有显著有效性的讹诈识别因子作为后续模型的学习样本标准。构建无导师学习的自组织特点映射（SOFM）神经网络模型。即以Logit统计分析提取的具有显著有效性的讹诈识别因子作为输入变量成立SOFM神

3、经网络模型，导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果为不同类型的数据，即可对医保讹诈行为进行主动识别。关键词：医保讹诈标记重复个案相关分析 logit模型 SOFM神经网络一、问题重述问题的背景随着我国社会医疗保险体系的不断进展，人民的医保福利水平日趋提高，一些医保体系中的问题也日趋显著，其中核心问题之一确实是医保诈骗行为。问题的复述医疗保险讹诈，是指公民、法人或其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇进程中，故意捏造事实、弄虚作假、隐瞒真实情形等造成医疗保险基金损失的行为。骗保人进行医保讹诈时通常利用的手腕，一是拿着他人的医

4、保卡配药，二是在不同的医院和医生处重复配药。下面这些情形都有可能是医保讹诈：单张处方药费专门高，一张卡在一按时刻内反复多次拿药等。请依照附件中的数据，找出可能的讹诈记录。二、问题分析依照问题中对骗保人进行医保讹诈时的经常使用手腕，和可能属于医保讹诈行为的情形，通过度析咱们能够将问题分为以下几个方面来解决。一、判定是不是为医保讹诈行为，需要从病人资料中的身份证号、医保手册号、Userupdate（用户更新次数）这三方面考虑。对此利用SPSS软件利用标识重复个案、聚类分析的方式，通过度析运行结果，做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图，可直观看出，所占比例的小的可能

5、为讹诈记录。二、第一第一步，对数据进行分析，构建基于Logistic分析的精炼讹诈识别因子模型。基于第一步处置的讹诈案评判标准数据间的关系，成立Logit回归模型并用SPSS软件进行统计分析，通过度析回归模型的拟合优度和因素显著性查验，提掏出具有显著有效性的讹诈识别因子作为后续模型的学习样本标准。第三步，构建无导师学习的自组织特点映射（SOFM）神经网络模型。即以Logit统计分析提取的具有显著有效性的讹诈识别因子作为输入变量成立SOFM神经网络模型，在待检测数据中抽取一部份样本数据训练SOFM神经网络，取得讹诈行为识别模型。第四步，导入所有待检测数据，通过SOFM神经网络模型仿真，将所

6、有数据信息进行分类，输出结果为不同类型的数据，即可对医保讹诈行为进行主动识别。三、问题的假设一、假设医保讹诈只是患者单方面行为，不存在医患合谋和医疗机构“引至讹诈”情形。二、假设数据来源真实有效。3,、假设分析进程中，数据无缺失。4、假设对每一个聚类分析结果，利用同一评判标准。五、假设附所有保险的有关规定没各个指标。六、假设所有的相关数据具有独立性相呼阻碍。四、符号说明变量标准方差初始聚类中心样本与聚类中心的距离误差平方和准则函数欧式距离新聚类中心Pearson相关系数Pearson相关系数检验统计量2个一级指标i=1,2 5个二级指标i=1,2j=1,2,3 3个成对比矩阵i=1，

7、2，3=矩阵按行求和矩阵的最大特征值W5个指标最终权重CT一致性检验指标RI随机一致性指标CR一致性比率t1欺诈程度阈值五、模型的成立与求解模型一：基于费用明细的医保讹诈行为主动发觉模型一的分析医疗保险讹诈行为，通过度析病人的费用明细表中的各项数据也能够找出可能的讹诈行为表现，要紧从单张处方的总价太高、病人ID号是不是重复过量、下医嘱科室与病人科室是不是一致这三个方面考虑。在附件给出的表2中，通过对各个变量进行K均值聚类分析，能够将数据分为几类，案例数少的那么可能是讹诈行为。可是考虑到单价、数量、总价之间的彼此阻碍，对此咱们利用了SPSS中相关性分析找出三个变量的相关性，并用图标构建程序绘制

8、了简单3-D散点图。关于病人ID号与模型一的分析一样，利用标记重复个案的方式，找到重复的记录，即可能为医保讹诈行为。而下医嘱科室与病人科室应该是一致的，假设不一致即为讹诈，因此对下医嘱科室和病人科室绘制简单线图。模型一的成立:（1）数据标准化由于所选数据的量纲和数值大小都不一致，数值的转变范围也不同，因此必需第一对所选数据进行标准化处置，若是有n个样本，m个指标，那么每一个变量可表示为，均值（1）标准方差为（2）标准化以后的式子为（3）（2）聚类分析系统聚类，将n个重复个案结果各自看成一类，然后规定样本之间的距离和类与类之间的距离。开始，因每一个结果自成一类，类与类之间的距离与个案

9、之间的距离是相等的，选择距离最小的一对并成一个新类，计算新类与其他类的距离，再将距离最近的两类归并，如此每次少一类，直至所有的个案都成一类为止，最终完成份类。1、设有n个样本，令I=1,选取K个初始聚类中心：；2、计算每一个数据样本与聚类中心之间距离：（4）若是知足；3、计算误差平方和准那么函数JC，公式如下：（5）4、判定是不是知足聚类算法终止条件：若是，那么表示算法终止，不然，I=I+1，计算下一个新的聚类中心，并返回2,新的聚类中心计算公式如下: （6）距离：对重复个案结果进行聚类时，“靠近”往往由某种距离来刻画。令表示第个重复个案结果的第个指标，表示第个重复个案与第个重复个案之间的

10、距离，最多见计算距离的方式是：欧几里德距离（7）上式即为欧氏距离。（3）相关性分析：相关分析是描述两个变量间关系的紧密程度，要紧由相关系数值表示，当相关系数r的绝对值越接近于1，那么表示两个变量间的相关性越显著。双变量系数测量的要紧指标有卡方类测量、Spearman相关系数、pearson相关系数等，在进行二者间的相关性查验时用pearson相关系数来判定，其公式为：（8）Pearson简单相关系数查验统计量为：（9）其中统计量服从个自由度的散布。模型一的求解（1）考虑到单价、数量、总价之间的彼此阻碍，对这三个变量进行了双变量相关分析，图8为三个变量的相关性分析统计表，图9单价、数

11、量、总价的简单3-D散点图。表-1单价、数量、总价相关分析统计表图-1单价，数量，总价的简单3-D散点图(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见表-2，表-3是这四个变量的单因素方差分析表，表-4是运用k-均值聚类分析求出的重复个案数。表-2 病人ID号重复个案的最终聚类中心表-3 医嘱子类、单价、数量、总价的单因素方差分析表图-2 医嘱子类、单价、数量、总价的最终聚类中心条形图表-4 k均值聚类分析中的重复个案聚类上述所有统计结构的分析：（1）从相关分析的统计表中，能够看出单价与总价的相关性为（弱相关），而数量与总价的相关性为（不相关），因此以为，单价

12、与总价有必然的相关性。（2）从图10中看出，将医嘱子类、单价、数量、总价分为10类；图12为医嘱子类、单价、数量、总价的每一个聚类的案例数，发觉第一、二、4类的单价太高；第3、10类退药数量大，第8类买药数量大；第一、3类单张处方退药金额大；第二、4、6类单张处方药费高。以上所述的都有可能为医保讹诈记录。（3）图14统计出病人ID号重复个案占总数的%，对此再进行聚类分析，结果见图15；由图16可知，第五、7、八、10类案例数较少，这些类的最终聚类中心大于25，此特点可能为讹诈。（4）依照图17绘制的下医嘱科室与病人科室简单线图，能够看出有个别记录不在y=x线上，即为下医嘱科室与病人科室不一致，

13、因此为医保讹诈行为。（5）在图11的单因素方差分析中，医嘱子类、单价、数量、总价的P值均为0，说明各类在统计学上均有明显不同，将其作为分类标准是适合的。模型二的成立与求解模型的成立咱们把事件发生的情形概念为1，事件未发生的情形概念为0。如此在保险讹诈识别模型中，取值为0、1的因变量能够写作：（10）咱们通常以表示事件发生的概率（那么事件未发生的概率为），并把看做自变量的函数。在本论文中，医疗保险是医疗讹诈的概率为。关于是0-1型Bernoulli模型，有如下散布：（11）通过logistic转换，索赔事件的对数概率发生比写成logit模型：（12） Logit一方面表达出它是医疗讹诈

14、索赔概率p的转换单位;另一方面，它作为回归的因变量就能够够与自变量识别因子之间的依存关系维持传统回归模型：（13）其中别离为个识别因子：为常数项，别离为个自变量的回归系数。 logit模型的求解一、讹诈识别因子的选取讹诈识别因子是指能够观测或测量到的，能够刻画保险讹诈特点的有效信息点，用以作为讹诈识别模型的说明变量。依照给出的数据，本文选取了一下13个指标作为识别因子：（1）被保人特点：性别、年龄、是不是有固定单位、是不是死亡、是不是留有电话号。（2）医保单特点：医嘱日期和结算日期距离、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。二、选取部份记录进行初步判定由于lo

15、gist模型的要求，必需先对一小部份记录进行初步判定，利用sql语句（详见附录2）选取每一栏目中异样数据，然后利用统计学散布等知识选取判定这一小部份数据，结果如下表：表-5部份记录判定结果3、讹诈识别因子的精炼运用二元离散选择模型对选取的13个讹诈识别因子经行逻辑回归分析，从中获取具有显著性的因子。本文通过SPSS软件实现样本数据的logit回归分析,所得结果见下表：参数设定为：方式-进入步进概率：进入（N）=，删除（V）=；分类标准值（U）：；最大迭代次数：50；Exp（B）的.（X）：95%。表-6 分类表表-7 迭代历史记录 Block拟合的是只含有常数的无效模型，表3为迭代历史记录

16、，估量在迭代终止初始的对数似然值达到；表4为分类预测表，可见在600例观看值记录中，269例被预测为0，331被预测为1。表-8 logit回归包括在防潮层中的变量估量值和查验在没有引入任何变量时方程的变量估量值及查验值如表5所示，常变量系数值为，概率为，可见常量对方程有显著性意义。因为回归采纳Enter方式，处了检查容忍度之外，没有其他任何进入标准，所有选择的变量都会进入回归方程。将变量别离引入回归方程后对方程的显著性阻碍如表6所示。可见性别、医嘱子类、是不是留有电话号、执行科室、单价等五个因子引入方程对方程没有显著性阻碍。表-9 logit回归不包括在方程中的变量进入方程医疗讹诈识别的

17、SOFM神经网络模型以Logit统计分析提取的具有显著有效性的讹诈识别因子作为输入变量成立SOFM神经网络模型，在待检测数据中抽取一部份样本数据训练SOFM神经网络，取得讹诈行为识别模型。导入所有待检测数据，通过SOFM神经网络模型仿真，将所有数据信息进行分类，输出结果不同类型的数据，即可对医保讹诈行为进行主动识别。SOFM神经网络结构模型的大体结构如以下图所示：图-3 SOFM神经网络结构模型大体结构图基于SOFM神经网络算法的大体功能函数，神经元的输出能够采纳两种方式：（1）内积形式（14）（2）欧氏距离形式（15）接下来运用途理以后的数据对构建的神经网络模型进行训练，基于最小均方误差

18、算法，以均方误差作为反映模型预测精度的标准，与最速下降法没有本质上的不同。最标准最速下降法实际应用中往往收敛速度慢，因此作为改良权值更新时期引入动量因子,使本次权值的更新方向和幅度不仅与本次计算的梯度有关还与更新有关，使权值更新有必然的惯性。研究中动量因子设定为。模型通过94次训练误差精度达到小于目标，训练终止，训练进程如下：图-4模拟训练进程图训练后模型的拟合优度达到，较为理想。在合理的容错限度内能够较为准确地进行数据拟合和预测。运用上述已经成型的神经网络模型，将数据导入其中取得了结果图: 图-5模型求解结果图在10%的容错限度内判定准确率达到%，在20%容错限度内准确率达到%，能够以为

19、准确率很高。运用MATLAB语句选取概率在以上的账单记录视为存在医疗保险讹诈的行为结果给出了797条，部份数据如下表所示：表-10 利用SOFM神经网络模型取得存在医疗讹诈的账单记录六、模型的评判与改良模型的优势1利用logistic模型能够对初步确信的讹诈识别因子进行显著性水平查验，从而挑选出显著性高的识别因子；2以logit回归分析取得的显著有效地讹诈识别因子作为输出变量成立BP神经网络模型，从样本当选取一部份样本作为训练样本，用训练样本来训练神经网络，使神经网络加倍合理，加倍成熟；3模型能适用于其他各类医疗保险讹诈的识别，整个模型有专门好的通用性。模型的缺点:（1）在处置病人资料，费

20、用明细表数据时，关于不完整数据和主观以为不相关数据源进行了主观性忽略，可能会致使一些重要指标的丢失和各个因素间的阻碍。（2）医疗诈骗的行为很多，因此表现也多。本模型分析的医疗诈骗行为可能不完善，因此有的诈骗行为可能难以区分。七、参考文献1刘长骞，K均值算法改良及在网络入侵检测中的应用，运算机仿真,28(3)：190-193，2020年2向继高能荆继武，聚类算法在网络入侵检测中的应用，运算机工程，29(16)：48-50，2003年3姜启源谢金星叶俊，数学模型，北京：高等教育出版社，2020年4李德宜李明，数学建模，北京：科学出版社，2020年5丁国盛李涛，SPSS统计教程，北京：机械工业出版

21、社，2006年6薛薇，统计分析与SPSS的应用，北京：中国人民大学出版社，20206姜启源数学模型（第三版）M北京：高等教育出版社，19997韩中庚数学建模方式及其应用（第二版）M北京：高等教育出版社，20208王沫然MATLAB与科学计算北京：电子工业出版社，2003年9刘潇社会医疗保险道德风险及其操纵机制研究基于医疗效劳供需两边的分析北京：中国人民大学，2020年附录附录1计数程序ii=331;sum=0;fori=1:iiifr(i) ifr(i) sum=sum+1; rrr(i)=1; end end end附录2数据库中对数据进行预处置程序selectWORKLOAD_ROWIDa

22、s购药记录,WORKLOAD_ARPBL_DRas账单号,WORKLOAD_ITEMCAT_DRas医嘱子类,WORKLOAD_ITEMORD_DRas医嘱项,WORKLOAD_ORDDATEas医嘱日期,WORKLOAD_FLAGDATEas结算日期,convert(float,convert(datetime,WORKLOAD_FLAGDATE-WORKLOAD_ORDDATE)as时刻距离,WORKLOAD_PAPMI_DRas医保对象,PAPMI_DOBas诞生日期,PAPMI_MEDICAREas病例号,PAPMI_NAME3as医保手册号,PAPMI_SEX_DRas性别,PAPM

23、I_DECEASEDas是不是死亡,PAPMI_DECEASED_DATEas死亡日期,PAPMI_SECONDPHONEas工作单位,PAPMI_MOBPHONEas电话号,WORKLOAD_PATDEP_DRas下医嘱科室,WORKLOAD_QUANTITYas医嘱数量,WORKLOAD_RECDEP_DRas执行科室,WORKLOAD_RESDOC_DRas下医嘱医生,WORKLOAD_TAREC_DRas核算分类,WORKLOAD_TOTALPRICEas费用,WORKLOAD_UNITPRICEas单价updateSheet1$set医嘱数量=0-医嘱数量where医嘱数量0upda

24、teSheet1$set单价=0-单价where单价0updateSheet1$set费用=0-费用where费用0updateSheet1$set年龄=datediff(YEAR,诞生日期,2021-08-15)updateSheet1$set性别=0where性别=2updateSheet1$set病例号=0where病例号=NULLupdateSheet1$set病例号=1where病例号0updateSheet1$set是不是死亡=0where是不是死亡=NULLupdateSheet1$set是不是死亡=1where是不是死亡0updateSheet1$set工作单位=0where工

25、作单位isNULLor工作单位=未提供updateSheet1$set工作单位=1where工作单位0updateSheet1$set电话号=0where电话号=1附录3SOFM神经网络模型程序%clear%P=:%训练样本输入数椐向量矩阵%t=;%训练样本目标数据向量矩阵%rand(state,0);%保证每次输出结果都相同%p=p;%t=t;%x=p;%z=t;net=newff(minmax(p),16,1,tansig,purelin,trainrp);%创建神经网络%学习速度%动量系数%训练次数上限%误差精度net,tr=train(net,p,t);%网络训练y=sim(net,p);%预测分析e=t-y%残差res=norm(e)%整个网络误差%x=;%查验样本输入数据向景矩阵%z=;%查验样本目标数据向量矩阵r=sim(net,x)%查验样本预测分析s=z-r%查验残差m=1:length(t);%查验样本编号plot(m,r,*,m,z,o)%查验比较分析画图xlabel(样本案例序号)%x轴名称ylabel(概率)%y轴名称附录4logit回归不包括在方程中的变量进入方程a附录5 SOFM神经网络模型存在医疗讹诈的部份医疗记录

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？