医疗大数据分析应用平台.docx
《医疗大数据分析应用平台.docx》由会员分享,可在线阅读,更多相关《医疗大数据分析应用平台.docx(81页珍藏版)》请在冰豆网上搜索。
医疗大数据分析应用平台
医疗大数据分析应用平台
医疗大数据分析应用平台产品解决方案
(初稿)
本应用平台产品的总体方案思路是:
基于目前医疗服务机构及相关机构已有
的HLI、NHLI、HIS等有关系统形成并积累的医药医疗大数据和信息,采用最新
的大数据技术、云计算技术、BI和数据挖掘技术,形成对医疗行业具有新视角、
全方位、智能性、预测性、可视性的深层次展示分析效果(Insight),揭示医疗
行业整体规律和内在发展趋势,揭示患者个体的独有特质并形成个性医疗,将医
疗行业的宏观大势与每个患者的微观个体定性定量描述有机结合,达到支撑和形
成医疗行业新应用场景和新服务模式。
“医药医疗大数据”是具有更强的决策力、
洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,但需要新计
算处理模式。
1.背景介绍
根据国际著名分析机构Gartner给出的定义:
大数据就是那些具有规模大、
速度快、种类多三大特征的数据资产。
大数据分析从海量数据中筛选出有用的信
息,然后通过各种手段将信息转化为洞察力,从而做出正确决策,并最终推动业
务发展。
通过一系列分析处理,大数据可以帮助企业制定明智且切实可行的战略,
获取前所未有的客户洞察,支持客户购买行为,并构建新的业务模式,进而赢得
竞争优势。
随着人们的生活水平不断提高,健康也越来越受到家庭的关注。
2009年2
月27日,我国卫生部公布的第四次国家卫生服务调查结果显示,截止至2008年,
我国居民脑血栓,糖尿病,高血压等慢性病病例数达到2.6亿,占全国总人数的
20%,其中高血压病人对自身疾病的知晓率只有30%,同时这些病人中的治疗率
只有25%,控制率仅为6%,糖尿病病人中,能坚持做到规范治疗的也只有33%。
由此我们可以看出,建立科学、规范、高质量的慢性病管理策略,实现对人体慢
性病的监护具有重大的意义。
通过慢性病的早期诊断和监护,不仅能提前预防和
控制各种疾病,还能帮助他们合理用药,减少医药开支。
另一方面,我国公共医
疗卫生资源紧缺,城乡医疗卫生资源的差距比较大,城市人口平均拥有的医疗卫
生资源是农村人口的2.5倍以上,比如,占全国总人口近70%的农村拥有全国医
疗卫生资源的30%,而占全国总人口30%的城市却占有全国医疗卫生资源的70%,
优质的医疗卫生资源集中分布在城市,尤其是大城市。
因此,实现城乡之间的医
疗卫生资源共享成为丞待解决的重要问题。
同时,随着国家积极倡导“3521”医疗系统建设,我国医疗领域信息化程度
得到了很大的提高,预计在全国会出现上百个医疗数据中心,每个数据中心都将
承载近1000万人口的医疗数据,数量多、更新快且类型繁杂,使医院数据库的
信息容量不断膨胀,这就产生了医疗大数据。
医疗大数据通常具有以下特征:
(1)数据巨量化:
区域医疗数据通常是来自于拥有上百万人口和上百家医
疗机构的区域,并且数据呈持续增长的趋势。
依照医疗行业的相关规定,患者的
数据通常至少需要保留50年。
(2)服务实时性:
医疗信息服务中会存在大量在线或实时数据分析处理的
需求。
例如:
临床中的诊断和用药建议、健康指标预警等。
(3)存储形式多样化:
医疗数据的存储形式多种多样,例如各种结构化数据
表、非(半)结构化文本文档、医疗影像等。
(4)高价值性:
医疗数据对国家乃至全球的疾病防控、新药研发和顽疾攻克
都有着巨大的作用。
因此,如何在海量的医疗大数据中提取信息的能力正快速成为战略性发展的
方向,通过大数据分析挖掘出有价值的信息,将对疾病的管理、控制和医疗研究
都有着非常高的价值。
强化管理,降低成本,
为医疗卫生事故防控,
大数据将给医疗卫生带实现对医疗卫生早期预
有助于实现医疗卫生溯
从大数据中发现科学,
目前,大数据、云计算是已经普及并成为IT行业的主流技术。
国内外都已
经进入了大数据、云计算的研究热潮,同时大数据、云计算技术也逐渐成熟,大
规模区域医疗信息系统和大型数据中心的建立也在同时进行。
而云计算是大数据
成长的驱动力,与此同时,由于医药医疗大数据越来越多,对云计算的需求日益
增长,所以二者是相辅相成的。
随着医疗数据的急剧增长,如何充分利用这些数
据,运用大数据、云计算技术,搭建合理先进的数据云服务平台,为广大患者、
医务人员、科研人员提供服务和协助,必将成为未来信息化工作的重要方向。
“大数据时代”已经降临,“大数据”正在对每个领域都造成影响。
在商业、
经济及其他领域中,决策行为将日益基于数据和分析的结果,而非基于经验和直
觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已
经崭露头角。
2012年3月,美国政府公布了“大数据研发计划”(BigData
ResearchandDevelopmentInitiative)。
该计划的目标是改进人们从现有的海
量和复杂的数据中获取知识的能力。
其中,与医疗卫生领域相关的有生物传感
2.0、虚拟实验室环境(VLE)、癌症基因组图谱(TCGA)、神经科学信息框架(NIF)、
患者报告结果测量信息系统(PROMIS)等10余项。
2014年美国的公共数据开放
项目OpenFDA上线之后,先导项目开放了“300万份药物不良反应报告”,这些
数据是2004至2013年间被提交给FDA的药物不良反应和医疗过失记录。
对医疗
机构来说,不良反应和医疗过失记录起到的是长远的贡献作用,能减少医疗悲剧
的重现。
根据我国居民第三次死因调查报告显示,脑血管病已成为居民的第一死因。
脑卒中发病率正以每年8.7%的速率上升,我国每年用于治疗脑血管病的费用约
在100亿元以上。
2014年,GE医疗中国联合国家卫生计生委脑卒中防治工程委
员会(脑防委)启动了“脑卒中行动”合作战略。
GE医疗“脑卒中行动”的法宝
之一就是大数据。
尤其是GE构建的三级筛查网络,对双侧内膜增厚的高危人群
检出率提升了近10%。
GE搭建的脑卒中信息管理系统可以与医院Lis和His系统
全面对接,记录患者的基本信息、初筛信息、复筛信息、用药信息、实验室检查、
体格检查信息及其随访信息等,全面跟踪患者的诊治流程。
还可以与PACS系统
对接,全面记录患者的影像学信息,实现患者影像信息的共享。
同时,可对患者
全流程疾病影像信息回顾,减少患者重复检查的负担,协助医生对患者疾病信息
的全面判断。
在上述这些大背景下,本公司提出并计划研发“医疗大数据分析应用平台”
(以下简称“本平台”)产品,以期为我国医疗卫生实现数字医疗、智慧医疗、
健康医疗发挥重要作用。
从而达到:
服务模式(以患者为中心,形成居民健康全
过程服务),从被动到主动;医疗模式(以预防为主,人人享有基本医疗卫生服
务,将医疗卫生工作重点由后治前移到预防保健),从治病到防病;诊疗模式(避
免各自为政,实行上下联合,专业分工),从排斥到联动;数据模式(从业务系
统数据向整体数据转变,改变过去的数据不统一、不互通、不共享),从隔离到
整体;技术模式(采用各种新技术手段,包括大数据、云计算、物联网、移动互
联等,形成技术合力),从简单到综合的转变。
2.产品愿景
形成充分发挥大数据技术的,针对医疗医药行业的,能充分适应医疗卫生信
息特征的大数据分析应用支撑平台,通过大数据分析,达到发现知识、发现规律、
预测未来,将医疗卫生行业推进进入大数据时代提供技术可行性。
3.产品定位
本平台以医疗卫生行业的整体数据架构(数据模型、数据构成、数据关系)
为基础和标准,以对应的医疗卫生业务数据为输入,通过大数据技术,形成针对
医疗卫生行业中不同机构、角色和业务活动的智能化应用,因此本平台不是代替
已有医疗卫生信息化系统,而是在多个方面强化已有医疗卫生信息化系统,包括
任意查询、即兴分析、业务增强、规则约束、预测未来、发现知识,并提供互动
性、及时性、预知性、洞察性,从而达到实现智慧医疗的目标。
3.1解决的问题
当前医疗卫生信息化建设的主要问题是各个区域内不同医疗机构中患者的
基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信息重复
或不一致,很难得到有效利用。
通过本平台实现国家医疗卫生信息化规划中“4631-2”的三大基础数据库,
即电子健康档案数据库、电子病历数据库和全员人口个案数据库的应用落地;
通过本平台实现智慧医疗的核心部分,即医疗卫生服务体系的智能化,使医
疗卫生的各种应用提升水平;
通过本平台为“看病难、看病贵”的解决提供科学定量判断依据、对比分析
依据和方案效果评价依据;
3.2达到的效果
本平台预期部署到云平台上运行,采用SOA的理念进行架构开发,通过分层
将公共大数据算法模型封装为服务,对业务应用提供服务,同时平台业务应用也
是服务的形式存在,即应用单位不再需要购买部署自己的服务器硬软件环境,只
需要开通相应服务就可以了。
各个应用单位根据自己的业务需要定制服务,平台
支持“开通即用”服务模式,为实现业务应用集成,本平台将对外支持WebService
方式的接口服务。
本平台希望将医疗卫生的智慧功能应用普及到业务角色和过程的方方面面,
包括医生(包括专科医生、全科医生、保健医生等)、患者(包括慢性病患者、
潜在患者等)、管理者(包括医疗管理者、医疗保险管理者、医药监管管理者、
公共卫生管理者等)、医药经营者(药品研发、药品生产、药品物流、药品零售
等)以及商业医疗保险经营者(健康险、大病险、医疗意外险等)。
4.产品理念
医疗卫生、健康保健、医药器械形成的海量数据就象一座待开发的金矿,利
用大数据技术、云计算技术、物联网技术和便携设备技术的最新成果,将给医疗
卫生事业带来全新革命性的改变,明显解决看病难和看病贵的问题,达到医疗卫
生资源配置分布合理、大病小病治疗各司其职、疾病预防治疗有机结合、公民健
康保健全过程覆盖。
5.总体思路
通过建立医疗卫生大数据的统一标准和规范,形成可被相关业务应用所利用
的医疗卫生大数据源和交互机制,在此基础上,首先形成专题大数据应用,这些
应用具有跨部门和组织机构的通用性,并具有良好的稳定性,因为这些应用是面
向医疗卫生专题的;基于专题大数据应用,根据医疗卫生相关部门和组织机构的
业务要求,可开发形成各种业务大数据应用,并且随着平台的推广,积累的医疗
卫生业务大数据应用的实例将会越来越多,并最终形成不同方向的最佳应用样例。
医疗卫生大数据源专题大数据应用业务大数据应用
诊断处方治疗患者分析
医
个人(患者、亚健康)
疾病分析
生医疗卫生服务
医疗卫生服务机构
用药分析
医药生产经营企业费用分析
个人疾病全周期个人健康全周期
个
健康分析医疗卫生管理机构
人个人生命全周期
药品分析
医疗保险机构
安全风险分析
公共卫生服务机构
招投标采购物流支付
药
资源分析
医药监管机构品医药供应链
效果分析
5.1对接数据源,获取医疗卫生大数据
医疗卫生大数据中心为本平台进行医疗卫生大数据分析提供数据源,但不在
本平台范围内,并平台只是开发提供一套与该数据中心的数据读取接口,并具有
监控数据读取情况汇总统计和异常提示功能。
该数据中心的定位:
整合区域内不同医疗机构中患者/健康人群的各种临床
诊疗数据、健康数据,在相对集中的逻辑/物理环境中,构建一个以存储和处理
患者/健康人群诊疗信息为核心,覆盖多学科、多专业的面向区域内主要卫生行
政主管部门、临床医疗机构和社会公众的医学(医药、医疗、健康)信息资源共
享机制----区域性医学数据中心。
区域性医学数据中心的建设以行政业务处理、
医疗、预防、保健、康复为服务主线,以健康人群和患者的医疗活动需求为基础。
区域卫生数据中心通过制定标准的数据接口,建立基于广域网的信息交换、数据
采集和传输机制,对区域内医疗卫生信息数据进行采集、传输、清洗和汇总,将
医院、社区、医药企业以及公共卫生机构的各类数据、系统有机地整合起来,生
成区域的卫生大数据。
5.2对获取的医疗卫生大数据预处理机制
医疗卫生大数据预处理主要完成对已接收数据的辨析、抽取、清洗等操作,
目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具
(ETL)包括:
抽取:
因获取的数据可能具有多种结构和类型,数据抽取过程可
以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分
析处理的目的;清洗:
对于大数据,并不全是有价值的,有些数据并不是我们所
关心的内容,而另一些数据则是完全错误的干扰项。
因此要对数据通过过滤“去
噪”从而提取出有效数据。
5.3建立医疗卫生大数据的存储机制
虽然关系型数据库系统(RDBMS在)安装和使用上仍然占有主要地位,但毋庸
置疑,非关系型数据库NoSQL技术已经成为今天发展最快的数据库技术。
NoSQL
是对数据库系统的总称,在某种程度上,它的性能和用途可能完全不同。
目前除了关系型数据库外,还主要存在有以下四种NoSQL数据管理系统:
键值数据库:
当数据以键的形式访问时,比如通过国际标准书号ISBN找一
本书,键值数据库是最理想的。
在这里,ISBN是键,书籍的其他信息就是值。
必须知道键才能查询,不过值是一堆无意义的数据,读取之后必须经过翻译。
文档数据库:
该数据库以文档的形式管理和存储数据。
有点类似于键值数据
库,但文档数据库中的数据有结构。
与键值数据库中值是一堆无意义的数据不同,
文档数据库中数据以文档的结构被描述,典型的是JavaScriptObjectNotation
(JSON或)XML。
文档存储数据库中的数据可以通过定义的任何模式进行查询,但
键值数据库只能通过它的键进行查询。
列式数据库:
也被称为列式存储或宽列存储,一改之前行式存储的方式,对
数据进行列式存储。
在传统关系型数据库中,数据经常以行来访问。
以列式管理
记录的NoSQL数据库可以管理大规模的动态列。
因为没有固定的模式,所以列
名和键可以变换。
列式数据库适用于不经常写的情况,要满足ACID(原子性、
一致性、隔离性和持久性)的要求并不难,而且模式是变化的。
图型数据库:
图型数据库关注值与值之间的关系,用图型的数学概念存储数
据。
图型数据库用带有点、边缘和属性的图的结构表示和存储数据。
在图型数据
库中,每一个元素都包含一个直接的指向它毗邻元素的点,所以也就不需要索引
查找。
每个种类的NoSQL数据库都有适用的不同类型的应用程序和用例,这就涉及
到一个NoSQL社区常用的一个话题,即多样持久性,或者说根据数据库处理应用
程序需求的不同,使用不同的数据库系统,用于不同的应用程序和用例。
5.4医疗卫生大数据的处理和分析算法分类和形成
技术分类方法
根据挖掘任务:
分为分类或预测模型发现、数据总结、聚类、关联规则发
现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;
根据挖掘对象:
可分为关系数据库、面向对象数据库、空间数据库、时态
数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球
网Web;
根据挖掘方法:
可分为:
机器学习方法、统计方法、神经网络方法和数据库
方法。
主要处理和分析技术
预言处理:
用历史预测未来;
挖掘规律处理:
了解数据中潜在的规律;
关联分析:
查找存在于项目集合或对象集合之间的频繁模式、关联、相关
性、或因果结构;
序列模式处理:
给定一个由不同序列组成的集合,其中,每个序列由不同
的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指
定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子
序列在序列集中的出现频率不低于用户指定的最小支持度阈值;
分类(预言)分析:
预测分类标号(或离散值),根据训练数据集和类标号
属性,构建模型来分类现有数据,并用来分类新数据。
建立连续函数值模
型,比如预测空缺值;
聚类分析:
聚类是一种无监督分类法:
没有预先指定的类别。
在同一个类
中,对象之间具有相似性;不同类的对象之间是相异度分析;把一个给定
的数据对象集合分成不同的簇。
将物理或抽象对象的集合分组成为由类似
的对象组成的多个类;聚类在不同的应用领域,用作描述数据,衡量不同
数据源间的相似性,以及把数据源分类到不同的簇中;聚类是将数据分类
到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似
性,而不同簇间的对象有很大的相异性;聚类与分类不同,聚类所要求划
分的类是未知的;
异常检测分析:
异常检测是数据挖掘中一个重要方面,用来发现”小的模
式”(相对于聚类),即数据集中间显著不同于其它数据的对象;
可视化分析。
数据可视化可以让数据自己说话,让用户直观的感受到结果;
数据挖掘算法。
分割、集群、孤立点分析还有各种算法让我们精炼数据,
挖掘价值。
这些算法要能够应付大数据的量,同时还具有很高的处理速度;
语义引擎。
人工智能从数据中主动地提取信息。
包括机器翻译、情感分析、
舆情分析、智能输入、问答系统等;
数据质量和数据管理。
透过标准化流程和机器对数据进行处理可以确保获
得一个预设质量的分析结果。
5.5开发专题大数据分析,形成专题大数据应用
面向医疗卫生专业所特有的专题,开发形成一系列的专题大数据应用。
在充
分调研和分析医疗卫生行业的业务特性基础上,研发形成具有我国医疗卫生行业
特征的分类专题大数据分析,并根据专题组成和业务功能要求形成满足该业务专
题的大数据应用,如心脏病专题的大数据应用,包括其成因的大数据分析、其日
常行为对病情影响的大数据分析等,为有关机构进行心脏病的有关活动(预测、
预防、治疗、恢复)提供支撑。
5.6开发机构大数据分析,建立机构大数据应用
面向不同的医疗卫生机构和部门及其相关企业机构,开发形成针对不同机构
和部门业务的机构大数据应用,如医疗卫生机构应用、医疗卫生管理机构应用等。
在上述专题大数据应用基础上,结合所承担的相关医疗卫生及其相关机构项目,
进行机构大数据应用定制开发。
5.7建立平台应用实施推广组织机制
在本平台开发和部署基础上,逐步形成基于本平台开发应用项目的实施推广
组织机制,包括市场宣传、营销推广、实施维护和售后服务等。
5.8建立平台产品优化升级服务组织机制
本平台作为公司的主打产品系列,要建立严格的版本控制,并根据市场反馈
和内部技术发展,进行有计划的平台版本升级,并将新版本升级信息和文档,按
规定要求通知已有用户,并及时进行产品升级,并提供维护服务。
6.医疗卫生信息的大数据建模描述和分析
伴随着中国医疗卫生服务的信息化进程推进,将产生大量的数据。
这些数据
主要来源于医疗业务活动、健康体检、公共卫生等9项医疗卫生服务。
数据内容
包括来自医院的大量电子病历、区域卫生信息平台采集的居民健康档案等。
其中
大量充斥着非结构化/半结构化的数据,包括图像,office文档,以及XML结构
文档等。
医疗大数据的应用,关键是整合所有可能得到的这些数据,为机构和政
策制定者来找到如何刺激经济并降低共享数据的技术门槛。
6.1我们给出的相关数据模型
我国医疗卫生行业涉及的数据实体对象种类非常众多,包括医疗机构-科室
-医生(门诊、住院)、大众群体-患者、医疗管理部门-卫生局-疾控中心-
医保中心-发改委-中医药管理局、医药管理部门-药监局、医药研发-医药生
产-医药经营-药品(处方药、ODC药)、医疗器械研发-医疗器械生产-医疗
器械经营-医疗器械、商业医疗保险公司、体检中心-体检医生、APP服务等。
如下图所示。
卫生局医院
药品招采医生
药监局疾控中心
药品运输
与库存
处方P检查结果
医药生产医疗器械
销售零售药品患者医疗器械
生产销售
企业企业
医保中心
医疗保险体检结果
大众群体
商业保险体检医生
保险公司体征数据体检报告
健康报告
APP服务
体检中心
6.2卫计委给出的相关数据模型
2010年底,原卫生部完成了“十二五”卫生信息化建设工程规划编制工作,
初步确定了我国卫生信息化建设路线图,简称“3521-2工程”,即建设国家级、
省级和地市级3级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物
制度、综合管理等5项业务应用,建设健康档案和电子病历2个基础数据库和1
个专用网络建设,进行医疗卫生信息标准化体系和安全保障体系2个体系建设。
2013年11月,卫生部和计生委合并后,信息化建设工程规划的顶层设计规
划又调整为“4631-2工程”,其中,“4”代表4级卫生信息平台,分别是:
国家
级人口健康管理平台,省级人口健康信息平台、地市级人口健康区域信息平台及
区县级人口健康区域信息平台;“6”代表6项业务应用,分别是:
公共卫生、医
疗服务、医疗保障、药品管理、计划生育、综合管理;“3”代表3个基础数据库,
分别是:
电子健康档案数据库、电子病历数据库和全员人口个案数据库;“1”
代表1个融合网络,即人口健康统一网络;最后一个“2”是人口健康信息标准体
系和信息安全防护体系。
依托中西医协同公共卫生信息系统、基层医疗卫生管理
信息系统、医疗健康公共服务系统打造全方位、立体化的国家卫生计生资源体系。
卫计委规划的三大基础数据库相互关系和包括的主要数据如下图所示。
1、病历概要:
包括患者基本信息等四项内容。
2、门(急)诊诊疗记录:
包括门(急)诊病历、
处方等六项内容。
3、住院诊疗记录:
包括住院病案首页、住院志等
九项内容。
4、健康体检记录:
一般常规健康体检记录。
5、转诊(院)记录:
患者转诊的主要工作记录。
6、法定医学证明及报告:
包括出生医学证明等。
7、医疗机构信息:
医疗机构法人信息。
电子病历数据库
1、个人基本信息:
包括人口学信息、社会经济
1、个人基本信息:
包括姓名、性别、照片、英文名
、曾用名、身份证号码、年龄、证件类型、证件号码、籍
学信息、亲属信息、社会保障信息、基本健康信息
贯、国籍、户籍类型、户籍地址、政治面貌、健康状况、
、建档信息。
婚姻状况、宗教信仰、兵役状况、文化程度、专业、学位
2、主要卫生服务记录:
包括儿童保健信息、妇
女保健信息、疾病预防信息、疾病管理:
高血压、
糖尿病、肿瘤、重症精神疾病等病例管理信息,老
年人健康管理信息、医疗服务信息等。
、职称、从业状态、工作单位、工作单位通讯地址、社保
号、民政抚助对象类型、联系电话、手机号码、电子邮件
、现居住地址、居住类型、死亡标识信息等。
2、个人扩展信息:
包括工作、教育、家庭、住
房、社保、公积金、计划生育、卫生健康、犯罪记
录、死亡信息等。
电子健康档案数据库全员人口个案数据库
电子健康档案的数据架构是以人的健康为中心,以生命阶段、健康和疾病问
题、卫生服务活动(或干预措施)作为三个纬度构建的一个逻辑架构,用于全面、
有效、多视角地描述健康档案的组成结构以及复杂信息间的内在联系。
通过一定
的时序性、层次性和逻辑性,将人一生中面临的健康和疾病问题、针对性的卫生
服务活动(或干预措施)以及所记录的相关信息有机地关联起来,并对所记录的
海量信息进行科学分类和抽象描述,使之系统化、条理化和结构化。
个人健康档案的三维概念模型,可以清晰地反映出每个个人不同生命阶段、
主要疾病和健康问题、主要卫生服务活动三者之间的相互联系。
同时,坐标轴上
的三维坐标连线交叉所圈定的空间位置(域),表示了人在特定生命时期、因特
定健康问题而发生的特定卫生服务活动所需记录的特定记录项集。
由于三维空间
中的任意一个空间位置都对应着某个特定的健康记录,从而构成了一个完整、立