1、Heartbeat classification usingdiseasespecific featur eselection外文翻译使用疾病特异特征选取分类心跳类型摘要自动分类心跳类型是协助医生找出在长期的动态心电图记录中异常的心跳的重要手段。在本文中,我们介绍了一种新的疾病特异特征选取的方法,它由一个一对一的特征排名阶段和一个包含在同一个一对一的支持向量机的二类分类器中的特征搜索阶段组成。 本文提出的方法与传统方法的不同之处在于它的重点是对有效的特征子集的选择,从而能通过一对一的对比从其他分类器中挑选出一个分类器。从MIT-BIH心律失常数据库中得到的心电图被用来评估本文所提出的特征选取方
2、法。所采用的心电图特征包括跨节拍内和逐次心跳间期,振幅形态,面积形态和形貌上的距离。 采取美国医疗仪器促进协会(AAMI)提出的建议,MIT-BIH-AR的所有心率样本分为四类,即: 正常搏动或束支传导阻滞(N),室上性早搏(S),室性早搏(V)和心室融合心跳(F)。 训练和测试数据的划分遵守个体间的图示。 实验结果表明,所提出的特征选取方法的的平均分类精度是86.66,胜过那些无特征选择的方法。对N,S,V和F分类的灵敏度分别是88.94,79.06,85.48和93.81,相应的阳性预测值分别为98.98,35.98,92.75和13.74。 在灵敏度和阳性预测值的算术平均值方面,所提出的
3、方法也有比其他的最先进的特征选择方法更好的性能。1.简介心电图(ECG)是一个无创,廉价且相当成熟的诊断工具。它含有基本的生理信号,被广泛得用于分析心脏功能。然而,对于长期的心电图记录的分析,逐拍的手动检查既乏味又耗时,尤其是对于床边监护或可穿戴式在线医疗监护,其中实时诊断对初级医生来说是一项艰巨的任务。因此,临床医生通常采用计算机辅助方法来分析和解释ECG信号。在临界条件下,心律失常可以被分成两种类型,即致命的和非致命的。致命的心律失常可能引发心脏骤停而突然死亡,如心室颤动和心动过速。患者在这种情况下,需要紧急治疗。虽然非致命的心律失常可能不会立即导致心脏衰竭,但是仍然需要及时的治疗,以避免
4、病情进一步恶化。在某些情况下,心律失常只会偶尔发生在患者的日常生活中。为了捕捉到这些稀少的信号,通常采用动态心电图装置来记录长期的心电数据。因此,从大量的ECG数据中自动识别出异常的心跳是一个既重要又必要的任务。第一类型的心律失常已经被详细的研究过了,并且一些检测算法已经被开发和实施在自动体外除颤器(AED)。识别第二类的异位搏动检测是关键的一步。在这项研究中,我们只专注于非致命的心律失常研究以及相关的异位搏动检测。 在过去的几十年里,大量的研究一直致力于心跳类型自动分类。该工作可被分为两种分类模式,即 “内患者” 和“跨患者”或者也分别被称为 “面向类的” 和 “面向主题的”。内患者模式仅根
5、据节拍标签划分整个数据集为训练和测试子集,其中部分的心电图上的记录可能同时出现在两个数据子集上。通过这样的方案,分类通常会产生过于乐观的结果。在临床实践中,由于的个体间差异会导致分类性能的下降。 为了适应实际的情况中,de Chazal等人建议当训练和测试的子集是从不同的心电图记录中构造得到时,将会把个体间的差异考虑在内,并且分类器将会呈现较好的泛化能力。这种模式已经被采纳并用来评估对MIT-BIH心律失常数据集的分类性能。此外,一个被称为“患者特异性”的混合模式也被de Chazal等人提出,其中,先训练一个全局分类器,然后再用一个本地分类来调整全局分类器。据文献指出,这种方法优于那些纯粹由
6、患者间的分类实现的分类器。Ince等人受这种模式的启发,提出了“患者特异性”神经网络,其中训练数据由两部分组成:()从训练记录中随机选出的共同的具有代表性的节拍以及()从每个记录的前5分钟取出的患者特异性节拍。此外,Wiens等人采用了一种主动学习的方法来检测室性早搏和室上性异位早搏。另外,Llamedo等人研究发现,当专家们能有效的改进在主动学习中的迭代步骤时,性能将得到许多改善。大多数研究参考美国医疗仪器促进协会(AAMI)的意见,对心律指定使用5个标签,分别是正常搏动或束支传导阻滞(N),室上性早搏(S),室性早搏(V)和心室融合心跳(F),以及不能被分类的心律(Q)的。这一建议使得各心
7、律之间能进行公平的比较分类。 考虑到通常用心电图的特征来分类,被最广泛使用的是RR间隔周围的特征,例如前一笔RR间期,后一笔RR间期,当下的RR间期,平均的RR间期和其它基于RR间期的特征。其他的时域特征,包括PP间期,P波持续时间,QRS宽度,PR间期,T波间期和QT间期。此外,ECG样本在P波,QRS波群和T波上的 “形态学”特征以及节拍和平均节拍之间的形态的距离也已经被采用。这些特征已经用于临床上的研究,相关的诊断标准也已被规定。 虽然基于向量图(VCG)的特征可以提供有关心脏疾病的全面信息,但是VCG的重建需要更多的信息,因此这些特征的应用是相当有限的。此外,频域上的特征分析还可以用来
8、深入了解ECG信号。信号处理方法包括小波分解(WT),主成分分析(PCA),独立成分分析(ICA)。 虽然这些功能都具有明确的数学相关解释,但是他们没有可以让医生以直观的方式来理解的生理意义。 因此,从大量的特征中选择最相关的特征来改善分类的性能群众是一个极大的挑战。Llamedo等人采用一种顺序浮动特征选择(SFFS)算法以增强贝叶斯分类器。他们试图为所有的子分类器寻找一个最佳的特征子集。可是,在临床实践中,不同的疾病所参考的特征不同。通过对特征的分析,临床医生可以把一种疾病从其他疾病中分别出来,或者把有疾病的状态和健康的状态区别开来。基于这个想法,我们试图提出一个新颖的“疾病特异”特征选取
9、方法并且用它来增强心律分类器的性能。为了评估这种方法,我们采用了患者间分类模式来保证更好的泛华能力,并且关注于四个在临床上已经被较全面的研究过了的种类,N,S,V和F。所呈现的测试结果采用了美国医疗仪器促进协会的建议。2.ECG 数据在本文的研究中,用MIT-BIH心律失常数据集来训练以及测试分类器。该数据集包括了从47个被试者(201和202记录采自从同一个被试者中)中得到的48笔双导联记录,每一笔记录长约30分钟,采样率都为360Hz。在48笔记录中,23笔(“100系列”)从日常的非固定的训练中得到,从在23笔100系列中没有被很好的呈现出来的,不平常的但在临床上是非常重要的心律失常案例
10、中提取出剩余的25笔(“200系列”)。ECG的导联随被试者的改变而改变,取决于电极放置的物理位置。对于大多数的记录来说,第一个通道是一个改进的第二肢导联(MLII)(只有114记录使用V5来当做第一导联,用MLII当做第二导联;在这篇论文中我们交换了导联)。第二个通道通常是V1(有时是V2,V4或者V5,取决于被试者)。该数据库包含了QRS位置和节拍种类的信息注释,至少被两个专家验证过。为了保证对相关文献有一个公平的比较,并且遵守AAMI的意见,我们放弃了四笔有步调节拍的记录,即102,104,107以及217。另外,所有的原始心律标签同AAMI的标签相对应,对应规则如表1所示。同时,我们也
11、采用了文献6中所采用的划分计划训练集(DS1)和训练集(DS2)。请注意我们放弃了AAMI中的Q种类(未被分类且有节奏的心跳),因为这种类型在MIT-BIH-AR中比较少。DS1和DS2中的数据集的数量按类型列在表1中。表1.数据集DS1和DS2的大小以及他们在AAMI和MIT-BIH-AR标签中的映射。a DS1中的记录: 101, 106, 108, 109, 112, 114, 115, 116, 118, 119, 122, 124, 201, 203, 205, 207, 208, 209, 215, 220, 223, 230.b DS2中的记录: 100, 103, 105, 1
12、11, 113, 117, 121, 123, 200, 202, 210, 212, 213, 214, 219, 221, 222, 228, 231, 232, 233, 234.3.方法在本文中我们采用了一个四阶的分类策略来分析ECG数据。如图1所示,整个分类策略由四个阶段组成:信号预处理,特征提取,特征选取和分类器调谐。相对于之前文献中的方法来说,多加了形态学和间隔的特征。在本文中P波下的面积,QRS波群和T波也被采用做心脏特征。此外,我们用特征选取阶段来决定合适的特征。另外,我们通过将一些被独立训练的一对一的二类支持向量机分类器与从两个导联中得到的数据相结合,完善了一个具有增强型泛
13、化能力的混合分类器。Llamedo等人使用同样的特征子集来分类,与他们的方法不同,我们提出的基于特征排序方法的一对一的分类器更合理。现实的特征选取方法,即获取最佳的特征子集是具有疾病特异性的,并且只能是二类分类器任务。这个优点将会在3.3部分被详细讨论。3.1. ECG预处理自从MIT-BIH-AR资料库中的ECG信号被动态心电图装置采集到了后,信号被基线漂移,电源线噪声以及高频肌电图干扰所污染。用被文献6,12所采用的方法,先用一个200-ms宽度的中频滤波器除掉所有的ECG信号中的P波和QRS波群,再用一个600-ms宽度的中频滤波器来除掉T波。将得到的信号被视为随后从原始信号中减去,以产
14、生基线校正的心电图信号的基线。用一个12序列截止频率为35Hz的FIR低通滤波器来去除因为电源线和高频产生的噪声。最后,滤波后的二导联心电信号会被送入下一步进行进一步的处理。图1.全自动心律分类过程。3.2 心跳划分和分割在心跳特征提取之前,由QRS波的位置将ECG的时间序列分割成独立的心跳。许多方法可以用来定位出QRS波的位置并且检测出那些基准点,比如文献20,21中用到的方法以及文献22,23中用到的小波算法。本文的目的则是完善一种基于特征选取的心律分类器。为了方便也为了能在波形数据库(WFDB)中更好的操作,我们用包含在MIT-BIH-AR中的QRS的注释以及工具“ecgpuwave”(
15、一种QRS探测器,波形限制定位器可以从生理网上下载得到。)来检测基准点,包括P波的起始点,P波尖峰,P波终点,QRS波群起点,QRS终点,T波起点,T波尖峰以及T波终点。当一个心跳节拍中没有P波时,该心跳节拍的起点和终点由下一个QRS波群的起点开始算起。因此,该心跳会有零个P波间期,被缩短的PR间期以及被缩短了的后一个的PP间期。同样的,当心跳中没有T波时,心跳节拍的起点和终点由下一个QRS波群的起点开始算起,导致该心跳节拍会有零个T波间期,以及被缩短了的QT间期。3.3. 特征提取基于检测出的基准点,每个节拍以及每个导联的46个的特征都会被本文考虑到,这些特征被列在表2,其具体介绍在图2.表
16、2.本文用到的特征。图2.ECG中基于区域和基于间隔的特征的图解:充满+和/符号的区域分别代表正负区。3.3.1. 心搏间期五个心搏间期是指逐次心跳基准点之间的间隔。基于QRS尖峰点,一共有四个相关的RR间期。前一笔的RR间期是给定的心跳与前一笔心跳间的RR间期。后一笔的RR间期是给定的心跳与后一个心跳之间的RR间期。10笔局部的平均的RR间期由一个心跳节拍附近的10个RR间期取均值得到。RR间期的均值指的一笔记录中的RR间期值,并且该值与在一笔数据中的所有心跳的RR间期具相等。最后,基于P波的尖峰点,后一笔的RR间期被定义为给定的心跳的R波尖峰与后一笔心跳的R波尖峰。后一笔的RR间期表征心室
17、周期,后一笔的 PP间期表征心房周期。如图二所示,后一笔的RR间期,后一笔的PP间期以及心搏间期是相互依赖的。3.3.2 内部节拍间期内部节拍间期被定义为一个在一个心跳上后一个基准点与前一个基准点间的间期。本篇论文采用了五个内部节拍间期,如图2所述,并且他们相关的基准点也被列在相应的行和图2的最后一栏。我们用这些间期来当做心脏特征,因为他们是众所周知的,并被广泛的用于临床实践中。3.3.3. 形态学振幅本文采用了文献6中提到的形态振幅。为了描述ECG的形态,我们通过一个特定的窗口对信号振幅向下采样了一组数值。P波的形态定义为P波的起始点和P波的终点之间的10个采样点的物理振幅。同样地,QRS的
18、形态和ST的形态分别定义为QRS的起始点和QRS的终点之间的10个采样点的物理振幅和QRS的起始点和T波的终点之间的9个采样点的物理振幅.3.3.4. 形态面积由于形态学和间期的特征在自动心率节拍分类器上的重要性,我们在本文中介绍了一种基于波区域的特征,为了能当对特征选取的性能进行评估时将心跳的形态考虑在内,并且提高分类器的分类性能。特别地,如图2所示,很显然,有些区域被波的间期,典型的ECG波以及基线所封闭。所以基线以上的区域的总面积被定义为正区,反之,位于基线以下的区域被定义为负区。用这些测量出来的封闭区域可以得到6个基于波区域的特征,即P波,QRS波群,T波的正区和负区,共同地代表了波间
19、隔和采样幅度的综合特征。3.3.5. 形态距离尽管个体间的差异,一笔数据中正常的ECG通常拥有一个相似的同一个导联的心跳形态距离。为了描述心跳之间的相似性,Wiens 等人提出了一个基于动态时间规整的新特征,该特征是给定的节拍和一笔数据的中部的距离。这一特点具有良好的对心室异位、早搏和室上性异位搏动的辨别能力。在本文中,ECG信号心电信号从250毫秒QRS左峰值开始,在QRS的右峰值的380毫秒结束,其中每个每个节拍都以50Hz的采样率分割和下采样。形态距离即每个分段和中间分段的动态时间规整距离。虽然ecgpuwave是一个用来检测QRS周期以及定位波形时限的强大工具,但是它仍然不能在有严重噪
20、声的片段中检测出基准点,从而导致错误的测量和不正常的特征。所以为了比较这些特征分数,必须消除这些异常值。在本文中,我们用了一个基于规则的程序来识别和过滤异常值。这里,间期特征被限制在一个合理的范围内。任何一个超出这个范围节拍都被当做异常值。参照心脏的生理功能,在表3中列出的相关特征的上限和下限被用来限定一个心跳节拍。注意当一个异常心跳从一个导联中被移除的时候,为了配合不同的导联的节拍,其他导联中的相应的节拍会被手动删除。异常值的移除过程只在预处理阶段中应用于DS1。被移除异常值后的DS1只在特征选取和分类器调谐中使用。如第4部分所示,在最后的训练和测试过程中,DS1和DS2都是原始心跳并且没有
21、一个异常值有被移除。此外,为了排序特征必须进行归一化。在本文中,用正切S型函数对所有特征进行归一化至-1,1范围。表3.识别心律的特征的上下界。3.4. 带特征选取的支持向量机二级正则化支持向量机因其出色的泛化能力,在本文中被用做心跳节拍分类器。这种分类器致力于找到一个最佳的超平面,使得两个不同的类别中有个最大的分类间隔。在这个任务中,假设一个训练集有N个样本(yi,xi),i=1,.,N,其中xiRd,表示d维特征向量中的第i个样本,yiR,表示相对应的类标签,并且yi1.最优超平面由一个从训练集中得到的用来预测随后的测试集的类型的决策函数f(x)表示。通过使用核方法,决策函数可表示为,(1
22、)其中K(xi,x)是一个能将数据映射到一个更高维度的空间上的核函数,而i为每个训练数据范例的拉格朗日乘子。线性核函数因为其在特征选取过程中所表现出的线性解释能力而被采用。在(1)中,一些i通常等于零,其相应的训练数据范例被称为支持向量。与二级正规化支持向量机相比,另一种常规化的支持向量机,也被称为一级正规化支持向量机,它的优化目标是将更多的转为零。这种分类器可被当做自然特征选择法也叫作嵌入式特征选择法。在本文中,它被用作第四部分中的用来作比较的基线。许多软件包都可以用来学习该决策函数,本文选择liblinear来当做二类分类器的解,因为它具有高效性以及在MATLAB中的友好界面。因为支持向量
23、机在本质上是一个二类分类器,为了将它扩展为一个多类分类器,特别是一个四类心律分类器,通常会结合使用一对多和一对一的方法。如上所述,在心律分类的任务中,将一种疾病的心电图特征与另一种疾病的心电图特征是一个更现实的方法,而且它的分解也会更精细。因此,用一对一的模式,6个二类分类器被建立用来决定出一个预测类。此外,我们会证明一对一的模式同样适用于多类特征选取。众所周知,特征选取可以提高分类器的泛化能力。为了能提供一个更快更具成本效益的预测器,同时也为了能更好的理解所处理的数据,许多方法都能被用来挑选出一个最优的特征子集,比如基于封装器的方法,基于滤波器的方法以及基于嵌入式的方法。在基于封装器的方法中
24、,分类器被当做一个黑盒子,根据特征的的预测能力对特征子集进行评分。然而在基于滤波器的方法上特征子集的选择仅仅是一个预处理步骤,与被选择的预测器无关。对于基于嵌入式的方法,是在训练过程中进行变量选择,并且通常是具体的分类。为了能与支持向量机综合,本文采用基于封装器的方法与支持向量机相结合。可是,基于封装器的方法伴随着两个问题,即长的搜索时间和对支持向量机预测器的评估。为了解决第一个问题,我们用F值准则对特征进行排序来加速搜索过程,并且在搜索策略中使用向后消去法。对于后一个问题,先将所有特征根据其重要性进行排序。然后,逐步消除最不重要的特征。特别地,在一个二元分类器中,给定一个训练向量xi,i=1
25、,.,N,阳性和阴性的实例数量分别为n+和n-,对于第k个特征的F值准则为其中分别是第k个特征对于整体的平均值,阳性数据样本数,阴性数据样本数,是对于第i个阳性实例和第j个阴性实例的第k个特征。公式中的分子和分母分别代表类间的区分度和跨类的紧凑度。所以,一个特征的F值越大,它的判别力和重要性可能就越大。从表1中我们看到对于四个类别训练实例的数量是不平衡的。为了平衡一个二元分类器的灵敏度,我们使用两个预测灵敏度的几何平均值来得到支持向量机的预测,即其中Se+和Se-分别是阳性和阴性类别的预测灵敏度。该度量已被广泛用于处理不平衡数据集,为了将阳性类别和阴性类别的分类的结果考虑在内。对于每个二元分类
26、器,调整惩罚因子C是必不可少的。本文提出的方法中会介绍一个外加的特征选取阶段,用来在后面的特征消除过程中调整前特征。22折交叉验证方法被用来调整DS1中的C和,其中C是在坐标20,22,.,220中搜索得到的。有了这些参数,在训练集中一对一的训练过程被重新执行来获得相对应的支持向量机的本模型。这些过程在导联上是各自独立执行的。所以,在每个导联上都有6个二元分类器,对于两导联的MIT-BIH-AR一共有12个二元分类器。在接下来的小节中,我们会展示如何融合这些二元分类器并且选出最后的预测类别。3.5 组合分类器ECG数据通常包括多导联中的信号,可以被视为对同一心脏活动的不同位置的观察。整和不同导
27、联中的信号可以增强分类的准确度。在本文中,我们采用乘积规则来混合两导联的MIT-BIH-AR中相同的一对。它基于贝叶斯理论,并且其强大的性能已经被报道。正如前面所讨论的,因为从每个导联中得到的数据被两个独立的过程训练,我们简单的假设他们有相等的先验概率。给定M个类别和L个分类器,最终的预测类别ym由平均值决定,为其中P(ym|xl)是分类器xl对于类别ym预测的后验概率。在两个双导联训练的独立的二元分类器上执行混合过程,即M=2,L=2。对于一个二元分类器,y1=+1,y2=-1分别表示阳性和阴性类。给定一个未来的观察x,x的成对后验概率P(ym,x),是阳性还是阴性类可以由S型函数计算得到:
28、其中f(x)是由(1)给定的判定值,表示x到超平面的距离。经过一系列的混合过程后,可以得到一个用来对多类问题做出预测的本模型+1,-1。然后应用下面的多数表决规则其中只计算从每个二元分类器中获得类c的投票数,c=1,.,4(即类N,S,V和F),r=1,.,6.3.结果在本文中,我们提出了一个通过识别一个最优特征子集来提高ECG数据心律分类的性能的疾病特异特征选取方法。实验包括三个步骤,来评估这个方法。第一,所有的特征根据通过(2)计算得到的F值从大到小进行排列。第二,这些排列的特征被喂给DS1的验证模型和参数搜索程序。为了展现特征选取的作用,没有用特征选取,但有相同的一对一规则的二级正则化支
29、持向量机,一级正则化支持向量机被作为基线分类器。在所有方法上的每个一对一的规则的支持向量机的惩罚参数在坐标20,22,.,220中搜索得到,并且由几何均值和在DS1上的22折交叉验证策略调整。所提出的方法的最佳参数列于表4中。有了这些参数,我们建立了2个评估实验。在第一个实验中,一系列的最优一对一二元分类器在DS1中被重新训练,然后在DS2中执行预测和联合。使用相同的训练和测试集来划分方案,参考的分类器和本文所提出的方法进行了比较,其详细混淆矩阵和一对一的记录性能比较被列在表5和表6中。在第二个实验中,我们运行了10次的随机划分而不是固定的划分方案,以评估所提出的方法的泛化能力,其结果如表7所
30、示。4.1 特征评估为了方便直观的比较,我们将最小的特征评分扩展到0,最大到1,所以所有的特征评分被归一化到0,1范围中。归一化并不影响特征的排序。图3展示了在导联A的前20个F值以及他们在一对一规则上的相对应的特征指标。同时,我们堆起所有的由每个特征按不同的规则得到的F值。图4展示了前20个F值。由图可见,不同的规则可以得到不同的特征排序,这正好解释了特征对于所关注的疾病是特定的,并且根据比较规则可以转移到其他特征。此外,图4的特征排名和图3是不同的。这意味着对于多类的分类任务,F值只能提供对特征重要性的粗略评估。把整体的比较分解成精细的规则更适合。从图4中进一步观察得到导联A的排序和导联B
31、的排序是不同的,并且除了指标46导联A上的所有F值都比导联B上的高。第46个特征是基于一个节拍和一笔记录上中间的节拍的形态学距离。该特征对室性早搏、阵发性室上性节拍具有优良的辨别力。在MIT-BIH-AR中,导联B是靠近心室的胸导联,所以这一特征有助于识别室性异位搏动,图3(h)(N vs. V)和图3(j)(S vs,F)上它的得分比其他特征的得分高。其他在导联B上低的F值可能是因为信号在该通道上的变化所致,通常是V1,有时也有可能是V2,V4或者V5。此后,我们主要关注于导联A上的特征排序分析,因为导联B上的F值相对较低。在所有表2所列的特征中,和RR间期相关的特征(指标1-4)是重要的特
32、征,经常排在前20,甚至前10,除了在导联A上的N vs. F规则之外。这符合在7中特征选择的结果,其中四个与RR间期相关的特征从39个特征中被选出来。另外,如图3(a)所示,与P波相关的特征(P波正区,P波段,PR间期,PP间期以及P波的形态,在40,6,9,5以及15-18各项指标中)以及与ST相关的特征(QT间期,T波段,T波的正区和负区,在10,8,44以及45各项指标中)对于从常或束支阻滞的节拍中鉴别出室上性异位搏动是很重要的。值得注意的是图3(a),(b)和(f)P波的正区(40)与P波段(6)以及PR间期(9)相关,这些特征的排列是相近的。该现象归因于生理事实,即宽的P波会导致短的PR间期,反之亦然。相似的,在图3(c)-(e)中,第九个样本(29)的QRS的形态与QRS波群的负区(43)相关。 这是因为QRS波群的负区主要由S波的波谷决定,如图2所示。从降维的角度来看,这些特征共同存在的冗余并不可取。利用功能之间的相互信息,可以移除多余的特征。可是,在本文中,我们的目标是找到最佳的特征来改善心律分类而不是得到最低的可
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1