大数据分析及其在医疗领域中的应用图文精文档格式.docx
《大数据分析及其在医疗领域中的应用图文精文档格式.docx》由会员分享,可在线阅读,更多相关《大数据分析及其在医疗领域中的应用图文精文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
互联网时代之前,采集世界各地的数据并让它们快速地进入计算系统几乎是一件不可想象的
事情。
20世纪80年代兴起的互联网技术在近30
年里发生了翻天覆地的变化,彻底地改变了人们的工作和生活方式【l】.通过互联网人们不仅可以下载到新闻、小说、论文等各类文字数据,而且可以轻而易举地下载到音乐、图像和视频等多媒体数据,这使得互联网上的数据流量急剧增长。
据统计,现在互联网上每分钟流人流出的数
据量达到1
000
PB,即10亿
GBt21。
推动大数据产生的另一个重要因素是物联网技术。
近几年发展起来的物联网技
术通过给每个物品贴上标签
并应用RFID等技术实现了
各类物品信息的快速采集【3】。
如新研发的各种穿戴式设备可实时在线获取人体运动过程中的各种
数据,各类带有USB接口或网络接口的电子仪器可迅速地将仪器中的数据上传到互联网并进入计算系统H】,智能化生产过程中产生的各种数
据、GPS导航系统和飞机汽车等现代交通工具在行进中产生的数据均可通过移动互联网上传。
所有这一切表明,由于互联网技术的发展和物联网技术的推动,使得原本存在的大数据可快速地进入到计算系统,大数据时代到来了。
大数据的产生也与其他领域的技术发展密
不可分。
如生物遗传学领域近几年开展的一项巨
作者简介:
邹北骥,男,中南大学信息科学与工程学院副院长,教授,博士生导师,教育部中南大学移动医疗重点实验室副主任,中国计算机学会CAD&
CG专业委员会副主任,湖南省高等教育学会计算机教育专业委员会理事长;
在医学图像分析领域承担多项国家自然科学基金研究项目,主持开展基于电子病历的大数据分析项目研发和基于移动平台的健康管理系统开发,先后在国际国内外重要学术刊物和会议上发表学术论文120余篇,其中
SCI收录20余篇,获得专利2项,湖南省科技进步奖1项,出版著作3部。
bjzlou@CSU.edu.cn;
bjzou@vip.163.com。
第7期
新视点
25
大工程——人类基因组计划,要对人类23对染色体基因中30亿个碱基对进行测序,其数据量之巨大,以至于当前高性能计算机系统都难以在
可接受的时间内完成[5】。
高能物理实验一天产生
的数据高达几个TB,这些数据都在排队等待处
理,当前的计算系统已难以满足它们的处理要求了16].
人们关注大数据的最重要原因是因为大数据
中隐藏着具有丰富价值的信息。
互联网上传递的
商品订购信息反映了消费者的意向、对商品质量
的评价等,于是不断地收集互联网上的这些信息
并进行挖掘分析将有助于企业分析其产品前景,
从而不断改进以获得更多利润。
分布在全球各地的气象设备采集的气象数据通过互联网汇集并通
过挖掘分析后可用于预测天气情况,来自世界各地的地震监控仪采集的大量地下数据通过互联网收集形成大数据,采用数据挖掘方法分析并预测地震.大数据最早应用于电子商务领域,美国亚
马逊公司的电子商务平台每天获得大量的客户订单和消费数据,应用机器学习和数据挖掘方法分
析这些数据,发现了商品销售中的关联性,如商品A和商品B经常被客户同时购买,于是有意识地将这两种商品(也许它们是毫不相干的两类
商品)摆在同一个货架上,使得商品的销售量大增.这就是典型的大数据分析的结果。
因此大数据时代我们所要做的事情就是对隐藏于大数据中有价值的信息进行分析与挖掘,以便利用它们为
人类服务.
2
大数据的特征与计算系统面临的新问题
来自于各个领域的大数据尽管代表着不同的
事物,隐藏着不同的价值信息,但都具备4个重
要特征,称为4V特征,即Volume(大容量)、
Velocity(快速更新)、Variety(多类型)和Value(高
价值)。
所谓Volume是指数据量极大,虽然没有一个绝对的容量标准,但一般都在数十个TB以上。
Velocity是指数据产生和更新的速度很快,
大数据的产生是一个快速的动态过程.Variety是
指数据的种类多,除了文字数据外,还包括图像、图形、视频以及声音等多媒体数据。
Value
是指大数据中隐藏了具有高价值的信息,这些信息需要通过机器学习与数据挖掘方法才可能提取到。
以医院电子病历数据为例,它是典型的大数据.首先,电子病历的数据量大。
以一个小规模城市的数家医院形成的区域医疗系统为例,每天门诊量和住院病人人数都在数万人以上,每人每次的病历、检验数据可达到几个GB,因此每天的数据都在几个TB甚至数十个TB以上。
其次,
数据的更新速度快.每天在线检查化验的人数快速增加,其数据也在快速更新。
第三,电子病历
的数据类型包括了文本、图像、图形和视频等多类型数据。
最重要的是电子病历数据中隐藏着极有价值的医疗和医学信息。
通过数据挖掘方法可以挖掘出这些信息以便医生进一步分析患者的病
因,形成更好的治疗方案。
大数据给计算机科学与技术领域带来了以下
的新问题和挑战.
(1)大数据的存储。
大数据一般来自互联网,是动态的多类型数据。
尽管当前的存储器容量在不断增加,但选择一种什么样的结构来存储大数
据以便能更好地存取是一个需要解决的问题。
以电子病历数据为例,多家医院产生的电子病历数
据是集中存储于某一个医院还是分布式存储于各家医院,这里不仅有一个管理、隐私和医院利益的问题,也有技术上实现的问题,有待进一步研究。
近几年发展起来的云存储或许是一种很好的选择。
借助于第三方提供的云存储服务,在保证数据安全和各个医院权益的条件下,各家医院可
以将自己的电子病历数据存储到云服务器上,实现数据共享。
(2)计算系统的结构和计算模式。
传统的单机系统和分布式系统难以处理这些动态实时更新的大数据,于是以集群方式构建的多机系统再加上以互联网相连的云计算平台将成为大数据的有
效计算平台。
分布在各地的数据需要由当地的集
26
ComputerEducation
群式计算平台对数据做预处理,然后通过互联网
将数据传输到数据处理中心,以更高性能的集群
式系统进行处理并将结果反馈到各个分布式系统中。
近几年美国Google、IBM公司还有中国的
曙光、联想等大公司相继推出了用于处理大数据的各种集群式计算机系统,它们可为大数据的处
理提供更好的服务。
(3)大数据的处理。
如何从大数据中挖掘出有价值的信息。
大数据挖掘通过对数据分类、建
立关联以及对各类关系分析,包括典型的因果关系分析,提取数据的特征和属性。
当前以机器学习为代表的人工智能方法可为大数据挖掘提供有
力的支持.机器学习方法是近几年人工智能领域的热门课题,是让计算机模拟人类的学习过程。
机器通过学习获得智能分析能力。
3
医疗领域中的大数据
医疗领域是最早应用计算机技术的领域之
一。
从最早的伽马线成像、x光透视影像的数字
图像处理系统开始,到今天各个医院普遍应用的医疗管理系统、辅助诊断系统、医疗专家系统和影像系统,经历了半个多世纪的发展,形成了一些重要的产品,如目前医院广泛应用的医院综合管理信息系统(HIS),如图1所示,它是以医院
收费管理为中心的信息管理系统,将医院的人、财、物有效地管理起来以实现资源共享和效益提升,在一段时期为医院信息化起到了重要作用.
随着医院为病人服务的理念提升,以病人为中心的服务模式在逐步形成,HIS系统也转化为以电子病历为中心的管理信息系统(EMR)。
它
将原有的HIS系统、影像系统(PACS)、检验信
息系统(LIS)、放射信息系统(RIS)以及绩效管理系统等有效地组织起来,实现医院以病人为中心的全信息化服务,如图2所示。
特别是随着区域医疗的发展,将分布在一个城市的若干家医院的电子病历系统通过互联网相连接,实现数据共享,可减少患者的重复检验,
绩艘管壤
()A
图1
医院HIS系统
图2电子病历系统
减轻患者的经济负担,提高看病效率,发挥名医
院、大医院和名医、专家的指导作用。
由此看到,电子病历系统所产生的数据是大数据,它包含3部分:
电子病历数据、医学检验数据和医学影像数据。
电子病历是病人自述病
症、大夫记录产生的以文字表述为主体的数据,
它是一种非结构化的数据,如图3所示。
医学检验数据来自于医学检验设备,如血常
规检查、肝功能检验、心电图检查等,由这些医学仪器产生的数据一般是数字数据,且有标准和规范,因此它是一种结构化的数据。
影像数据来
自于影像设备,是一种以图像显示为检测结果的
医学检验装置,由它产生的数据主要是图像,是一种非结构化数据。
如x光照片、MRJ核磁共振、眼底图像摄影、B超影像等,如图4所示。
黟。
◆I参
.。
。
一
图3电子病历示例
图4医学影像示例
分析一个患者一次看病的数据量,电子病历数据和医学检验数据一般只有几百K,一张医学影像数据平均为1GB左右,一般每个患者有2~3张影像,所以一次诊断所产生的医疗数据大约为2GB~3GB。
一个三甲医院平均每天就诊和住院患者在3万人次左右,这样一家医院一天所产生的数据约为90TB~100TB,一年按300个工作日计算,将会产生30
000
TB的数据,10家医院将
是300000TB的数据。
4
大夫看病的过程实质上就是数据的关
联分析过程
我们来分析一下大夫诊断病人的过程。
首先
是病人自述,大夫倾听并记录,接着是让病人作
各种医学检验以及必要的影像医学检验,由此获
得医学检验数据和影像检验数据.大夫的脑袋就
像一台计算机,自然地将电子病历数据、医学检验数据和影像医学数据以及医学知识、诊断经验
等关联,诊断出是什么疾病并开药或给出手术治疗方案,这一过程可用图5表示.
喧过仪器拍摄的影像数据观察患青生理结构变化
图5大夫看病的过程实质上是数据的关联分析过程
然而实际上大夫看病的过程有一定的局限
性:
①所有的数据只是来源于这一个病人;
②大夫在将数据与医学知识和诊治经验关联时只是用到了他一个人的知识和经验,即使采用联合会诊
的方式也只是用到了若干位大夫的知识和经验。
因此,疾病诊断的准确性和治疗方案的合理性会
受到一定的影响。
设想一下,如果医疗大数据挖掘分析系统已
经建立并在医院投入使用,大夫在诊断疾病和给
出治疗方案时,就可以将患者的所有数据录入大数据系统。
由于大数据系统的数据来自于成千上万上百千万的患者,通过机器学习和挖掘分析方
法,大夫即可获得类似症状患者的疾病机理、病因以及治疗方案,这有助于大夫更好地把握疾病
的诊断和治疗.
5
医疗大数据的其他应用
医疗大数据除了应用于疾病的辅助诊断和治
疗方案的确定外,还可应用于医学研究、流行病
预测和药物副作用分析等方面。
医疗大数据系统保存了成百上千万患者的全
部真实数据,如患者个人基本信息,包括居住地
28
ComputerEducation
2014
信息、家族疾病史等,这些信息有助于研究某些疾病发病的家族性和地区区域的分布性。
通过大数据系统的挖掘分析,可以得知哪些癌症会有明显的家族遗传性,从而可进一步分析其发病与基因变化的关系,以找到降低这种癌症发病率的方法。
通过挖掘分析大数据中疾病与地区区域的关
系,可以得知哪些疾病容易在某些地区发生,以
便进一步分析该地区的环境因素与疾病发生的关系,使得人类去有意识地改变环境,去除导致疾病发生的诸多因素.
医疗大数据系统还可以用于流行病爆发的预
测。
相关部门通过分析医疗大数据的变化,获得
来自全球各地的患者出现相同或类似症状并迅速
在人群中蔓延的信息,从而可预测某些流行病的爆发,为人类阻止或减缓流行病的发展提供依据。
医疗大数据系统的另一个重要应用是药物
副作用分析。
在临床用药过程中,药物使用可
能会引起病人的不良反应。
这种不良反应会导致治疗作用减弱甚至失败,严重的可能会导致患者死亡,同时不合理用药也会使患者医疗费用大大增加,给患者带来更多的经济负担。
据文
献统计,药物不良反应的发生率:
门诊病人为
o.3%~5.O%,住院病人为10%~20%【”。
来自美国的报告显示,美国每年有70多万人因为药物副
作用受到伤害或者死亡;
一家有700张床位的医院,每年因药物副作用导致的住院和门诊费用达到560万美元邛]。
因此研究药物副作用对于提高
患者疾病的治疗质量,指导临床用药以减少药物对患者的伤害,降低药物费用以及指导新药研发
都具有重要的意义。
传统的药物副作用分析主要采用临床试验法、药物副作用报告分析法等,这些方法受到样
本数小、采样分布有限等因素影响,难以全面反映药物副作用造成的影响。
如果应用医疗大数据
库系统,可从千百万患者的数据中挖掘到与某种药物相关的不良反应,样本数大,采样分布广,所获得结果更具有说服力。
更进一步,我们还可
以从社交网中(如新浪博客、医疗网络论坛)搜
索到大量人群服用某种药物的不良反应记录,通
过比对分析和数据挖掘方法,更科学、更全面地获得药物副作用的影响。
综上所述,医疗大数据具有极大的价值,挖掘医疗大数据中的价值信息对于疾病诊断、
治疗方案确定、流行病预测、医学研究和药物
副作用分析等方面具有重要的意义。
从某种意义上讲,医疗大数据系统对于改善人类生活环境、
提高生活质量、获得更高的幸福指数均有重要的作用。
6
医疗大数据实现中的几个关键问题
构建医疗大数据系统首先需要从各个医院做
起,然后通过互联网将多个医院连接在一起,实
现数据共享,即形成区域医疗.在区域医疗的基础上,再发展为城市医疗大数据、省级医疗大数据乃至全国医疗大数据和全球医疗大数据系统.
(1)实现电子病历数据的采集和存储。
对大夫作出一些规范性的要求,使电子病历记录规范.除了病历数据外,医学检验数据和影像检验数据的采集、存储也需要规范,同时需要建立统一的数据库存储系统来存储电子病例数据、医学
检验数据和影像医学数据等各种类型的数据,其中标准问题是技术实现的关键.
(2)数据的结构化处理。
以文本数据为主体
的病例数据是非结构化数据,需要作结构化处理。
特别是对于中文电子病历,需要进行词汇分割、语义提取等。
影像数据需要基于医学的相关知识进行图像分析,将图像中的病灶转化为结构
化的数据,包括数值数据和规范的文本数据。
(3)数据库系统设计.医疗大数据的数据库系统有别于传统的数据库系统,大数据的4个重要特征要求其数据库系统能更好地适应于大数据
的处理,包括适用于基于局部集群式和大规模云计算系统等处理模式要求。
(4)大数据挖掘分析方法。
大数据挖掘的核心内容是数据的特征与属性提取,并依据特征和
第7期新视点29 属性进行分类.在此基础上将不同属性的数据类其中有价值的信息对于领域发展具有重要作用,是未来科学发展的重要方向。
医疗大数据系统目进行关联分析,从而获得有价值的信息。
可以将 机器学习方法应用于大数据的挖掘分析。
7前正处在建设和发展当中,其中首要的任务是医疗大数据的采集与获取,目前中南大学已正式立项,在其5家附属医院100个科室着手建设临床 医学大数据采集系统。
结语大数据分析是当前计算机科学与技术领域的热点,各个领域都有大数据,获得大数据并挖掘参考文献:
【l】李国杰,程学旗.大数据研究:
未来科技及经济社会发展的重大战略领域:
大数据的研究现状与科学思考四.中国科学院院刊,2012(6):
647-657.f2】王元卓,靳小龙,程学旗.网络大数据:
现状与展望【J】.计算机学报,2013,36(6):
1125-1138.【3]孟小峰,慈祥.大数据管理:
概念、技术与挑战阴.计算机研究与发展,2013,50
(1):
146-169.【4】埃里克・托普.颠覆医疗:
大数据时代的个人健康革命【M】.北京:
电子工业出版社.2014. 【5】涂子沛.大数据【M】.桂林:
广西师范大学出版社,2013.【6]维克托-迈尔.舍恩伯格,肯尼思・库克耶.大数据时代:
生活、工作与思维的大变革[M】.盛杨燕,周涛,译.杭州:
浙江人民出版社.2013:
239.244.[7】Bates【8】Bates DWjCullenDJ,LaidN,etofthe prevention[J].JournalDW'
SpellN,CullenAmeri啪MedicalAssociation,1995.274(1):
29-34.1.a1.Incidence ofadverse drugevents andpotential adversedrugevents・implicationsfordrugeventsin hospitalizedpaticn&
[J】.Journal oftheAmericanMedicalD J,eta1.111e costs of adverseAssociation,1997,277(4):
307-31 (编辑:
彭远红)(上接第23页l 订计划、执行计划的计算思维能力培养。
6结语通过探索以计算思维为切入点,培养学生就 业生涯所需要的信息素养,以信息处理能力培养 为重点的高职计算机公共课教学改革,学生的学 习动力得到进一步提高,学习效果良好.在此基 础上,如何将面向知识的考核评价、面向技术技 图6Raptor运行结果能的评价、面向工作过程的评价有机结合,以及将计算机基础网络学习平台为有效补充,是下一 阶段的课程教学改革目标。
借助Raptor工具,在教学中可以淡化对编程工具的学习,而专注于培养学生理解问题、制参考文献:
【1]郑莉.培养计算思维,笃行创新实践:
清华大学计算机公共课程改革探索【J】.计算机教育,2013(15):
106—108.【2】刘道文.高校非计算机专业计算思维能力培养策略研究与实践[J】.计算机教育,2013(13):
39-43.【3】陈一明.新形势下普通高校计算机基础教育目标与课程体系研究叨.计算机教育,2013(11):
73.77.【4】聂哲.高职计算机公共课程建设探索川.中国职业技术教育,2010(11):
8l-83.【5】程向前,陈建明.可视化计算【M】.北京:
清华大学出版社,2012.【6】夏耘,黄小瑜.计算思维基础[M】.北京:
电子工业出版社,2012.(编辑:
赵廓) 万方数据
大数据分析及其在医疗领域中的应用作者:
作者单位:
刊名:
英文刊名:
年,卷(期:
邹北骥中南大学信息科学与工程学院,湖南长沙,410083计算机教育ComputerEducation2014(7 参考文献(8条1。
李国杰;
程学旗大数据研究:
大数据的研究现状与科学思考2012(062。
王元卓;
靳小龙;
程学旗 网络大数据:
现状与展望2013(063。
孟小峰;
慈祥 大数据管理:
概念、技术与挑战2013(01 4。
埃里克?
托普颠覆医疗:
大数据时代的个人健康革命20145。
涂子沛 大数据20136。
维克托。
迈尔—舍恩伯格;
肯尼思·
库克耶;
盛杨燕;
周涛大数据时代:
生活、工作与思维的大变革 20137.BatesDW;
Cullen DJ;
LaidN Incidenceofadversedrug eventsandpotential adversedrugevents—implications forprevention1995(01 8.Bates DW;
SpellN;
CullenDJ Thecostsofadversedrugeventsinhospitalizedpatients1997(04引用本文格式:
邹北骥大数据分析及其在医疗领域中的应用[期刊论文]—计算机教育2014(7