基于聚类分析的ADR信号检测模型Word格式文档下载.docx
《基于聚类分析的ADR信号检测模型Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基于聚类分析的ADR信号检测模型Word格式文档下载.docx(30页珍藏版)》请在冰豆网上搜索。
根据事件的严重程度与信息的质量,一般需要多份报告才能产生一项信号。
传统针对SRS数据库的信号检测工作主要靠专家委员会来完成。
但随着计算机科学技术的发展以及ADR自发呈报数量日益增加,ADR数据库逐步建立,专家评价的局限性开始显现,如主观偏差、耗时长、效率低下、时间滞后等。
2006年一年全国收集的ADR报告数就超过36万份,从如此海量的数据中专家人工发现ADR信号难度系数相当高。
怎样有效的分析和利用这些报告资料,利用这些数据库所包含的巨大数据资源结合计算机辅助技术进行数据挖掘处理成为一个关键环节。
本课题旨在结合江苏省ADR监测中心给出的数据,从统计学的角度出发构建统计模型,深层次的挖掘和分析药品/药品类-不良反应/不良反应类之间的关系,从而为不良反应信号监测和预警工作提供理论与决策支持。
具体包括:
①对数据进行规范化处理,并对各种药品及不良发应进行编码、分类,为下面的分析做好准备工作。
②从统计学角度出发,对所有药品进行聚类,最终得出药品新的类别,然后再进行分析、探讨。
③利用其他的药品不良反应信号检测办法(如:
四格法等等)来对数据进行分析,并与聚类分析得出的结果进行比对检验。
二、ADR信号检测的研究背景
1.ADE概述
药品不良事件(adversedrugevevt,ADE)指在治疗过程中发生的任何意外的有害反应,其与用药间的必然因果关系尚待确定。
上个世纪六十年代之后,陆续出现了一些与上市药品相关的严重不良反应报告。
如著名的沙利度胺(反应停)与海豹肢畸型[1]、己烯雌酚、与妇女阴道透明细胞癌[2]、普拉洛尔与眼—粘膜—皮肤综合症[3]、氨己烯酸与视野缺损[4],另有一些已经上市较长时间的药物,在临床应用过程中逐渐发现一些与之相关严重的不良反应,如减肥药氟苯丙胺(芬氟拉明),长期使用会增加瓣膜病变的风险。
2.研究背景
自20世纪50年代开始,世界新药研制出现高潮,药品的品种多达数万种,全球药品不良反应的发生率、严重性日益突出。
据WHO统计,在世界许多国家,因药物不良反应导致的死亡在其死因顺位中居第4至6位。
而在我国,不合理用药占用药者的12%至32%,在中国现有的聋哑儿童中,60%以上是不合理用药所致,每年因药品不良反应事件死亡的人数高达几十万人,远远超过因传染病死亡的人数。
由于药品本身“治病又致病”的特殊性,许多药品在前期临床试验中,因检验的样本小、观察时间与范围有限等原因,很难发现一些药品潜在的危险,因此当这些药品进入临床使用后很可能导致不可预测的危害。
那么在要求药品能治病的同时,怎样尽可能减少ADR的发生?
为此,需要深入分析ADR与各种可能因素的关系,探求ADR的内在发生机制。
可是影响ADR发生的因素十分复杂,不仅有药物的因素,也有非药物的因素,还有病人的体质及用药环境等多方面原因。
面对成千上万种药物,不同体质的病人与用药环境,性质各异的不良反应,要研究其中隐藏的深层次规律并合理运用,这对ADR监测和预警工作而言,是一项巨大挑战。
具体体现为:
如何从海量数据中发现ADR信号?
怎样根据数据库特点选取适当的信号检测方法?
如何检验信号的真实性?
如何挖掘出ADR中隐藏的大量规律?
要解决好以上问题,除了需要精深的医学理论与实践作指导外,还离不开现代化信息手段、先进的数据挖掘技术、严谨的数学建模(含统计建模)技术。
为此,本课题试图将计算机信息处理技术、数据挖掘技术、统计建模技术有机结合起来,在医学理论与实践的指导下,在海量数据中深层次探究ADR发生的内在规律,从而尽量减少国家和个人的损失,并有助于在保证药品能治病的同时,尽可能把ADR的危害降到最低限度,从而为构建和谐社会做出贡献。
三、国内外关于ADRs信号检测的研究现状
1.国内研究现状
我国的ADR监测比国外晚了近20年。
1989年,卫生部成立了ADR监测中心,并开展了相应的工作。
1998年3月,我国正式加入了WHO国际药品监测合作中心并成为第68个成员国。
1998年4月,国家药品监督管理局成立。
截止到2002年12月底,31个省、自治区、直辖市均成立了本地区药品不良反应监测中心,加上解放军ADR监测中心,共有32个省级ADR监测中心,国家药品不良反应监测技术体系框架全部建成。
2003年建成覆盖全国的国家ADR监测信息网络系统,这为中国的ADR监测工作提供了现代化的管理手段。
而科学有效的ADR监测及应急管理,依赖于高质量的数据库及严谨而科学的ADR综合分析技术。
关于我国ADR数据库及相关研究的现状可概括如下:
(1)ADR数据采集方式单一且漏报率较高。
药品不良反应监测采取的是自愿性报告和强制性报告相结合的方式,药品不良反应报表主要来源于医疗机构,我国药品不良反应的发生率约为5%,但上报率却仅有1%。
漏报率较高导致无法计算ADR的发生率,且对自发呈报的ADR进行适宜解释的暴露人群的资料缺乏,由于对药品的ADR报告率的差异,在同等情况下,可影响医生对药品的选择,对ADR的分析质量无疑会产生不利影响。
(2)缺乏适合我国国情的ADR信号检测方法和标准。
近几年,国内的学者也开始了ADR信号检测的研究工作:
李婵娟等人将国外的多种信号检测方法应用于广东省ADR数据并进行了比较与分析[5],章少华等根据江苏省ADR数据作了相应的统计分析[6],取得了一定的成效,但均未能建立适合我国ADR数据特点的信号检测方法和标准。
根据CNKI文献数据库资料查询,国内ADR预警相关文献仅十余篇,并且大部分文献主要讨论了药品安全预警的必要性和意义,因此对于适合我国特点的信号检测方法与标准方面的研究几乎空白。
此外在ADR因果评价方面,面对大型数据库,复杂的不确定性影响因素,在医学领域一直是个公认的难题,目前只能采用成本较高的流行病学等方法。
其原因在于缺少多学科专业人员的有机融合。
(3)缺乏对不良反应内在发生机制的分析。
即使有准确的信号检测方法与因果评价方法、及准确的预警,如果没有对ADR内在机制的综合分析,就不会制定出更详细的应急预案,进而更有效地实行应急管理。
综观国内不良反应分析方面的学术论文,往往仅是对不良反应病案信息进行简单的归类论述,如计算各类临床表现的构成比和年龄段、性别构成比等,缺少能深入揭示不良反应发生机制的有价值的知识发现。
之所以出现这些现象,除了缺少高质量的数据库外,根本原因还在于没有使用数据挖掘、统计建模等深层次的数据分析技术。
(4)现代信息技术应用不够。
目前ADR主要通过网络进行数据的收集,异常信号检测以主观经验判断和人工评阅为主,2006年全国收集的ADR报告达36万份,从如此海量的报告中通过人工的方式来发现异常信号几乎是不可能的。
同时,ADR监测工作主要以药物学和医学相关专业人员构成,缺乏信息处理的技术和能力,不能采用先进的数据处理与分析技术来实现数据的自动处理。
2.国外研究现状
自著名的“反应停”事件之后,西方各发达国家纷纷着手本国的“ADR监测体系建设”。
1968年,WHO应各成员国的要求开始推行“国际ADR监测合作计划”,并最终于瑞典的乌普萨拉镇成立了国际ADR监测中心,即现在著名的UMC中心。
随着WHO国际ADR监测合作计划在全球的推广,到本世纪初,各发达国家的ADR报告体系日臻成熟。
在现在药品市场日益全球化的大背景下,ADR监测也逐步走向全球一体化。
为此WHO及国际ADR监测组织密切合作、协调、制定相关的通行标准与要求,以期提高世界各国ADR报告的数量和质量;
并在世界范围内组织研究利用ADR数据库检测生成ADR信号的方法;
用流行病学方法进行某些特定药品的安全性研究,加强世界范围内的ADR信息交流等。
ADR数据库的建立和完善,将为ADR信号检测提供强有力的数据保证。
国外基于ADR数据库的定量研究,较多地集中在ADR信号检测层面,比较而言,利用数据挖掘进行ADR因果评价的研究相对较少。
而关于ADR信号检测,目前国际上尚无统一的标准,各国体制不一样,ADR数据的来源、质量和性质不一样,因而检测方法也不可能完全相同。
但主流的方法都是基于“比例失衡测量法”,该方法建立在经典的四格表的基础上,其思想就是估计自发报告系统中实际出现的与某种药物有关的不良反应数量与预期数量或者与其他药物引发的其他不良反应数量的比值来确定信号。
目前,该方法已被荷兰的药物警戒中心、英国的药品不良反应监测系统、世界卫生组织Uppsala药品不良反应监测中心(WHO-UMC)及美国的药品不良反应自发报告系统、处方事件监测数据库广泛应用。
比值失衡测量法中具体测量比值失衡程度的方法很多,可概括为两大类:
即频数方法与贝叶斯方法,都是基于分子的方法(不考虑分母)。
前者主要有报告比值比法(ROR)、比例报告比法(PRR)、MHRA法等;
后者包括贝叶斯判别可信区间递进神经网络模型(BCPPN)与美国FDA采用的经验性贝叶斯伽玛泊松分布缩减法等。
在上述各种定量信号检测方法中,频数方法使用简单、方便、易理解,但具有某些情况下不能计算的缺点;
而贝叶斯方法无应用条件限制,可做时间趋势分析,但计算过程复杂,不易理解常需借助计算机程序。
所有上述方法的共同缺陷是没有充分考虑ADR数据库中所提供的患者信息与临床信息,并要求报告数足够大(这与预警目的相悖),仅进行关联度分析而非真正意义上的因果分析,且灵敏度和特异度难以同时满足要求,各种方法的结果差异较大,如:
日本于2004年开展相关的研究,结果显示在药物-不良反应组合报告数为1、2例时,一致性较差[7]。
在国外现有的上述信号检测方法中,除了BCPPN法可称为真正意义上的数据挖掘之外,其他方法至多可称为基于数据库信息的知识发现,而不是典型或严格意义上的数据挖掘。
在信号的因果评价上,国外利用ADR数据库及电子病案等数据库进行了成功的药物流行病学研究工作,如StromBL利用Medicaid数据库资料,对西米替丁引起中性白细胞减少症进行评价,发现二者因果关系不明显[8],并通过研究否定了透皮东莨菪碱的使用引起惊厥得假设[9]。
但从因果评价的一般方法来看,仍然主要采用传统的流行病学方法、临床前药理学和毒理学的再验证及Meta方法,或建立在专家知识和经验基础上的“全面内省法”。
而基于ADR数据库并利用数据挖掘和数学模型进行因果分析的研究却很少。
3.四格表法
传统的ADR信号检测方法的研究都是基于四格表原理,报告比例比(proportionalreportingratios,PRRs)就是一种基于四格表原理信号检测方法,通过计算数据库中出现某特定Drug-ADR组合(Drug-ADRcombinations)的比例,所得结果与背景相比,如有明显增强并达到一定标准时,可以认为是一个可能的信号。
表2.3中,a表示数据库中同时出现目标药物与目标ADR的报告数量,b为目标药物出现的其他所有ADR的总数,c为数据库中除目标药物之外其他药物出现目标ADR的总数,d为整个数据库中除了目标药物以及目标ADR之外的报告总数,n为整个数据库的报告总量。
在一个已知数据库中,四个表中a、b、c、d的具体值都可以通过对数据的筛选获得。
表2.1四格表法
目标ADR
所有其他ADRs
目标药物
a
b
数据库中所有其他药物
c
d
即:
卡方检验校正公式
4.小结
综观以上国内外研究现状,以及我国在ADR研究方面的不足,①在信号检测方法上,针对国外主流类的“比例失衡测量法”的不足,即:
某些情况上不可计算、没有充分利用患者信息和临床信息、仅进行关联度分析而非真正意义上的因果分析、且灵敏度和特异度难以同时满足要求,要求报告数足够大等,本课题将利用数据挖掘技术和统计建模的思想对“比例失衡测量法”中的几种通用的信号检测方法进行有效改进,并建立相应的信号检测标准,使之适合我国体制特点。
②在信号的因果评价上,无论是国内还是国外,都缺少基于ADR数据库的定量因果研究,所以本课题将在遵循因果联系准则的前提下,结合医学理论与实际,通过统计建模技术,解决因果评价的难题。
③在ADR发生规律的研究上,由于国内基于数据挖掘和统计模型的研究还属空白,国外的相应研究也很少,本课题将利用统计建模思想并结合数据挖掘技术,对ADR数据进行综合分析,多角度多侧面地研究ADR的发生规律。
④⑤由于数据挖掘和统计建模技术具有很强的专业性,所以需将这些研究方法得到的结果进行综合,并结合专家意见。
四、存在的缺陷及假设性解决方案的提出
1.存在的缺陷
综上所述,现在国内适合我国特点的特色检测方法与标准方面的研究几乎空白。
而国外主流的方法都是基于“比例失衡测量法”,该方法建立在经典的四格表的基础上。
频数方法使用简单、方便、易理解,但具有某些情况下不能计算的缺点;
所有上述方法的共同缺陷是必须要有足够量的样本,且分母不能为0,否则无法计算结果。
2.假设性解决方案的提出
我们提出用聚类的方法来对ADR信号进行检测。
通过构建多维矩阵,借助Matlab软件实现对ADR的聚类,通过分析每一类里产生目标不良反应的药品占该类药品总数的比例来进行检测:
之所以这些药品会聚在一起是因为这些药品的特征(即它们产生的不良反应)有一定的共性,比利越大说明这一类所有的药都能产生这种不良反应可能性也就越大。
本课题选取这类里没有产生这种不良反应的药品数为3或者2或者1作为参考标准。
举例说:
某一类里有10种药,其中能够产生头晕这种不理反应的药品比例占到7/10,那么就有3种药没有产生这种不良反应,由此可以挖掘出:
这3种药也可能产生头痛这种不良反应,然后对照原始数据进行比对。
最后通过大量的数据检测和专家对其结论的评价来检验它的合理性及精确性。
整个模型构建的流程图如下:
图3.1建模的流程图
聚类技术是现代科学研究中最常用的一种数据挖掘技术。
聚类分析又称群分析,是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。
聚类分析(ClusterAnalysis)是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生分类结果。
类内部个体之间具有相似性,不同类间个体特征的差异性较大。
定义聚类分析之前,首先要知道“类”的意思。
由于客观事物的千差万别,在不同问题中,类的定义是不尽相同的。
基本原则是同一类中的事物相比较,或说它们之间的距离比较小(这里的距离有欧氏距离、绝对距离等)。
它的数学模型可以描述如下:
假设样本集X={x1,x2,…,xn},其中样本xi=(xi1,xi2,…,xim)为m维特征空间Rm中的一个点,现在要找到这样一个划分C={C1,C2,…,Ck},使得:
且
,并且满足类内之和
的值最小,xj*表示类Cj的中心,xi表示划分在类Cj中的样本。
五、ADR信号检测的聚类模型建立
1.工具
VisualFoxpro(6.0版):
用于数据的预处理;
MATLAB(R2007b):
用于聚类算法的实现;
SPSS:
进行统计分析。
2.数据采集
从江苏省ADR中心收集了51982例不良反应的报告,用表格形式表示成了如表4.1所示。
其中包括2759种药品,及118种不良反应。
3.数据预处理
由于所采集的的数据(如表4.1所示)存在一些不规范的书写,所以对原始数据进行一定的处理是必要的,这不仅是为了让一些工具软件能很好地识别,同样也是为了得到最优化的数据,从而保证分析结果的科学性和准确性。
表4.1原始药品不良反应数据
ADR
DRUG
头晕
**骨刺平片
过敏性休克
*来立信
*恶寒
**灌肠剂
腹泻
*利落林
发热
口干
*利培酮口腔崩解片
呕吐
焦急不安
便秘
**硫糖铝片
锥体外系病
**铝镁加
恶心,呕吐
*连花清瘟胶囊
**齐拉西酮
*林旦乳膏
静脉炎
*6-氨基己酸
震颤
*氯丙咪嗪片
皮疹
*ABPC
*头痛、头昏、嗜睡
*氯唑沙星片
腹痛
*T型节育环
头痛
*面色苍白
*VB1注射液
*轮状病毒
*药疹
*阿莫西林钠克拉维加
水肿
*洛平
*安茶碱
瘙痒
*洛文
恶心
*氨萘成注射液
*美宝
*奥沙美嗪
*莫家清宁丸
*奥汀美嗪
不适
*内消乳核冲剂
注射部位反应
*白破二联苗
*心慌、脸色苍白
*奈替米星氯化钠
*尿素霉素
*帕特欣炎
(1)规范化处理
原始数据中如出现“*”、“**”、“,”等不规范的书写,这样今后的数据处理工具就会不能识别,所以必须将这些符号去掉。
诸如类似于“头痛、皮疹”两种不良反应在表中对应着“博利康尼片”一种不良反应的情况也有很多,也是不规范的。
本课题要研究处理的是那种一种药品对应着一种不良反应,所以可以将其改写为“头痛”和“皮疹”分别对应着“博利康尼片”,这样就相当于增加一条记录。
具体点操作是我们将Excel表格导入到vfp里面,利用vfp强大的表处理功能,通过编写算法来对这51983条记录进行处理。
如此便得到了如下所示的规范化的数据:
表4.2规范后的药品不良反应数据
骨刺平片
来立信
恶寒
灌肠剂
利落林
利培酮口腔崩解片
硫糖铝片
铝镁加
连花清瘟胶囊
齐拉西酮
林旦乳膏
6-氨基己酸
氯丙咪嗪片
ABPC
氯唑沙星片
T型节育环
面色苍白
VB1注射液
轮状病毒
药疹
阿莫西林钠克拉维加
洛平
安茶碱
洛文
氨萘成注射液
美宝
奥沙美嗪
莫家清宁丸
奥汀美嗪
内消乳核冲剂
白破二联苗
心慌
奈替米星氯化钠
尿素霉素
帕特欣炎
药品名采用通用名,此项工作相对容易,一些记录是用药物商品名代替通用名,或出现错别字,经修改后统一采用规范的通用名。
比较重要的是对ADRs名称的规整,规整的标准时WHO药品不良反应术语集。
需要进行ADRs名称整理的情况通常有以下几种:
出现错别字,如:
“寒战”,记录中也有称为“寒颤”的。
出现WHO药品不良反应术语集中没有的ADRs名称,如胸闷,腹胀,昏厥,根据对整个术语集的仔细查找,及关于这些不良反应的相关医疗资料查询,找出与之最为相似的名称进行替代,分别为憋气,胃肠胀气,昏厥。
不良反应诸如“发热”、“发烧”表示的是同一个意思,我们可以将其作为“发烧”来统一编号。
类似的还有“肌肉痛”和“肌痛”等等。
(2)分类及编码处理
1.分类
通过用药网()结合说明书的查询,将2759(51982条记录一共包含有2759种药品)种药品分为34类:
抗微生物药、抗寄生虫病药、主要作用于中枢神经系统的药、主要作用于神经系统的药、麻痹药及其辅助药物、循环系统药物、主要用于呼吸系统的药物、消化系统药物、泌尿系统药物、血液系统用药、激素及影响分泌的药物、抗肿瘤药物、免疫系统用药、抗变态反应药物、维生素、矿物质类、营养药、减肥药、调节水、电解质及酸碱平衡用药物、临床专科用药物、酶类及其他生化制剂、生化制剂、解毒药物、诊断用药物、西药其他用药、延缓衰老药及某些老年病用药、内科用药、外科用药、肿瘤用药、妇科用药、五官科用药、骨伤科用药、皮肤科用药、民族药、中药其他用药。
依据不良反应作用人体的部位所属的系统或者器官,将118种不良反应分为20类:
皮肤及其附件损害、肌肉骨骼系统损害、中枢及外周神经系统损害、视觉损害、听觉和前庭功能损害、神经紊乱、胃肠系统损害、肝胆系统损害、代谢和营养障碍、心血管系统一般损害、心率及心律失常、心外血管损害、呼吸系统损害、红细胞异常、白细胞和网状内皮系统异常、血小板和出血,凝血障碍、泌尿系统损害、女性生殖系统损害、全身性损害、用药部位损害。
2.编码
对药品和不良反应进行编码处理可以使工具软件能够方便快速的读取数据和其他分析操作。
对这些药品采取简单合理的手段进行编码。
如阿莫西林,我们将其编为0010101001。
具体的示意图如下:
图4.1药品编码方式示意图
对药品统一用10位数进行编码,第一位用二进制表示(0表示西药,1表示中药),第二三位表示药品所属的大类别,后面的两部分表示大类别里的小类别,这样的编码可以一下就清晰的知道该药品大致信息。
依据WHO药品不良反应术语集对原始数据中的不良反应进行编码。