老年人口健康数据分析.docx

资源描述

老年人口健康数据分析.docx

《老年人口健康数据分析.docx》由会员分享，可在线阅读，更多相关《老年人口健康数据分析.docx（31页珍藏版）》请在冰豆网上搜索。

老年人口健康数据分析.docx

老年人口健康数据分析

老年人口健康数据分析系统

技术研究报告

第一章老年人口健康数据分析3

1.1数据预处理3

1.2C4.5算法分析7

1.2.1C4.5算法原理7

2.2.2决策树剪枝技术9

2.2.3决策树算法流程10

2.2.4医学领域中的决策树11

1.3数据分析12

1.3.1总体数据分析12

1.3.2老年人常见病数据分析13

2.3.3其他数据分析17

1.4小结18

第二章系统需求分析18

2.1系统需求18

2.2功能需求18

2.3接口需求19

2.4环境需求19

2.5性能及可行性分析19

2.6术语20

2.7小结20

第三章系统设计分析20

3.1系统架构设计20

3.2系统功能模块设计21

3.3系统数据库设计23

3.4系统界面设计24

第四章系统实现及测试25

4.1系统概述25

4.2数据可视化详细实现26

4.2.1主页26

4.2.2老年人自测题模块27

4.2.3数据可视化模块29

4.2.4知识补充模块31

4.2.5信息邮件反馈模块31

4.3数据可视化测试32

4.4小结32

第一章老年人口健康数据分析

将数据挖掘技术更好的应用于公共健康领域要做出很多努力：

首先，数据的数量和质量至关重要，大量数据采集自动化可以很好地解决这个问题；其次数据需要进行预处理（如清洗、提炼等）以得到高质量数据，并和相关计算工具和算法相匹配；然后，需要根据数据的特点和分析目的，确定最优工具和最优算法，并且不断的调整算法的参数，不断训练和测试，最终得到最优结果，通常需要多种算法相结合来完成；最后，数据可视化尤为重要，通过适当美观的方式展示计算结果，完成机器与用户的沟通，只有计算结果得到应用，才能说明前面数据挖掘的整个过程是有意义的。

本章从数据预处理、C4.5决策树算法和数据可视化三个方面来分析所得的老年人口健康数据。

1.1数据预处理

一般情况下，研究得到的数据都具有不同程度的不完整性。

如果直接使用这些数据进行挖掘，那么会出现很多偏离结论的噪声数据，很大程度的影响了挖掘结果的表现。

为了避免这种情况发生，通常都要首先进行数据预处理（datapreprocessing）[11]。

数据预处理就是对数据的清理、缺失值的补充、删除、最后进行集成等。

进行了数据预处理后再进行计算，会得到事半功倍的效果。

数据预处理有多种方法：

数据清理、集成，数据变换、规约等。

使用这些方法处理数据，可以很大程度的提高数据挖掘的质量，并降低挖掘所需要的时间。

数据清理通过补充缺失值、光滑噪声数据、识别离群点等，来清理数据，使数据最终达到格式标准化，纠正错误，清楚重复和异常的数据。

数据集成即为建立数据仓库的过程，就是将数据源中的数据结合起来后统一储存。

数据变换，通过数据规范化、平滑聚集此类方式，将数据转换为合适挖掘之形式[29]。

数据规约即将数据集规约表示，它比规约之前的数据集小得多，但仍然接近原数据的完整性，最主要的是，它与规约前的结果几乎相同。

在挖掘中如果遇到数据量很大的情况，可以使用数据规约方法。

数据挖掘中，存在着很多不确定不稳定因素，数据预处理之后，数据挖掘可以更清晰的找到挖掘结果[12]。

本研究可供处理的数据有：

全国分性别、城乡镇、健康状况的60岁及以上老年人口数据集；多个省市的重点人口健康调研报告。

数据中有很多无关项，并且有部分不一致不完整的脏数据，无法直接进行数据挖掘。

图1-1、1-2、1-3是多省市健康调查问卷。

问卷共分5部分，本研究提取了其中前三个部分进行数据的整理和挖掘。

这三部分分别是：

基本信息、生活方式、患病史。

图1-1健康调查问卷-基本信息

图1-2健康调查问卷-生活习惯

图1-3健康调查问卷-疾病史

原始数据是以调查问卷和excel表格的形式给出的，无法直接导入数据处理软件。

首先要对数据进行添加属性等操作，加入SPSS。

数据的结果在储存在SPSS中，如图1-4、1-5所示。

图1-4SPSS数据处理图

图1-5SPSS数据处理图

调查问卷得到的原数据中有不同地区共近万条数据，613个数据项。

其中包括了疾病状况、生活方式等一系列资料。

首先进行老年人筛选。

根据世界人口组织对老年人年龄的定义，我们选择年龄在60岁及以上的人，作为老年人群体。

然后删除掉姓名、筛查日期等于健康状况基本无关的信息。

由于各省市不同，老年人生活习惯也不同，因此本研究没有将不同省市的数据进行整合，而选择分别处理，将最后生成的决策树进行统一集成。

数据中整个F序列都是关于饮食方面的，在这个序列中主要采集的儿童数据，老年人的数据大多都是空白项，此处进行了删除F序列的处理。

数据项中整个D序列是包括妊娠等妇科疾病的统计，我们默认60岁以上女性老人已经基本失去生育能力，因此也删除D序列。

基本信息中，将身高体重腰围三项数据通过换算，处理为能反映胖瘦程度的身体质量指数（BMI）。

经过多步处理之后，剩余47个数据项，每个地区剩余大概200条数据。

最后统一数据格式，填补缺失值，生成初步数据表。

全国分性别、城乡镇、健康状况的60岁及以上老年人口数据集的原始数据分婚姻、收入、和年龄三部分，每部分又分城市、城镇、乡村与总体数据四部分。

先以总体数据的婚姻数据为例介绍处理方式、图2-6为总体数据的婚姻与健康数据。

图1-6全国老年人口健康数据

图2-7为处理后的数据，其中比率为每种分类的人数占所在地域的比重，健康状况分健康与不健康两种。

数据项分别为人数、性别、比率、地区、婚姻状况以及健康状况。

图1-7处理后数据

1.2C4.5算法分析

1.2.1C4.5算法原理

决策树是一类树形结构，由两种元素组成：

节点和分支。

在最终生成的决策树上，其中每个内部节点表示数据集的一个属性，每个分支代表对该属性的一个测试输出[16]，每个叶节点代表划分的类别，最顶端节点为根节点。

C4.5算法[23]是数据挖掘领域中的一种用于处理分类问题的算法。

该算法是属于监督学习类型，即：

获取一个数据集，使用一组属性来描述全部的实例，其中类别和实例是一一对应的，在获取的数据集中使用C4.5算法，既可以得到类别和实例的一一映射，使用新生成的映射可以分类新的位置实例。

J.RossQuinlan设计的C4.5算法来源于名为ID3的一个决策树算法[24]，而ID3则是被称为“迭代分解器”系列算法之第三代。

决策树的关键技术即是，把一系列问题的答案组织成树。

C4.5算法除了能规划出决策树，还可以把决策树转换成具有良好可理解性的某种规则。

尤其是进一步了解到，通过C4.5的后剪枝操作能够得到的分类器，不可以再被精确地转换成决策树。

一方面，ID3算法和OriginalTree算法均是各自独立发展，而OriginalTree算法最初由Friedman发明[26]，后来在Breiman、Olshen和Stone等人的参与下发展成CART算法[27]。

另一方面，可以看到C4.5算法也大量引用了CART的处理方式。

此外，Quinlan还肯定了CLS[25]框架对于发展ID3算法和C4.5算法的重要作用。

区别于ID3算法，C4.5有以下几点优势。

首先，C4.5用信息增益率代替了信息增益来选择决策属性，避免了分支较多的属性被优先选择的情况。

信息增益率的计算公式如下：

式（1-1）

其次，C4.5可以处理连续属性变量。

在本研究中，被研究者的年龄、BMI等值都为连续性属性，需要可以处理其的算法。

最后，C4.5算法采取后剪枝的方法，使决策树尽可能短小精壮，对噪声数据有很好的健壮性。

相比于离散变量，连续变量有一些列优势。

若想使用多种决策准则来生产分支，就必须要借助连续变量而不是离散变量。

Quinlan认为应使用常规的信息增益来选取阀值，不过依然要首先使用信息增益率筛选属性。

第二种处理连续变量的方法基于Risnnen的最小描述长度（MDL）原理[29]。

这种方法把树看成一种理论，Quinlan认为应该寻求树的分类性能和复杂度之间的平衡，尤其是计算树复杂度时，要仔细考虑树的编码成本以及树的例外状况。

有以下几种方法处理缺失值。

首先可以忽略训练数据中在属性x上没有值的属性，或者选用最常用的值或均值进行填充。

其次，可以对有缺失值的属性x的信息增益/信息增益率，依据已知缺失值的实例的比重来重新折算，或者对训练数据中的缺失值进行填充。

以此达到处理缺失值的目的。

现今，决策树已经拓展到支持数值、符号以致混合型的数据类型。

具体的领域应用也很广泛，例如临床决策、生物信息学等。

事实上，假若是问题的边界能用分解树形方式或判别规则来确定，就可使用C4.5算法。

C4.5算法遵从如下规则（如图1-8）：

第一，用根节点表现一个给定的数据集；第二，在每个节点测试一特定的属性（从根节点开始），把节点的数据集划成更小子集，并用子树表示；第三，此过程要一直进行，直到子集的所有实例均属于同一类别，树才可以停止增长。

图1-8C4.5规则

2.2.2决策树剪枝技术

为了避免训练数据和生成的树过度拟合，要求对树进行后剪枝处理。

C4.5算法采用的是自己创造并提出的剪枝法，称为“悲观剪枝法”。

此种方法通过来自训练数据集中的错误分类数量以此估算未知实例的错误率，因此该类方法不需要单独的一个测试集来服务。

悲观剪枝方法获得该目标节点的错误率，是通过计算递归目标节点的分值错误率。

举例说明[29]，某叶节点，有N个实例、E个错误，首先，悲观剪枝用比值（E+0.5）/N，确定叶节点经验的错误率。

假设一个子树具有L个叶节点，而且这些叶节点一共含有ΣE个错误、ΣN个实例，那么该子树的错误率可大约计算为（ΣE+0.5*L）/ΣN。

若该子树被他最佳的叶节点所替代，在训练数集中得到的错误分类数量为J，那么，假如（J+0.5）在（ΣE+0.5*L）的1标准差范围内，悲观剪枝方法就选择用该子树这个最佳叶节点来替换这棵子树[19]。

悲观剪枝法后来被拓展为基于理想置信区间的剪枝方法。

这种方法将叶节点的错误率e建模为服从Bernoulli分布的随机变量，对一个置信区间的阀值CI，存在一个e的上界emax，使e

进一步来说，可以用正态分布来逼近e（只需N足够大即可得到）。

根据多种约定条件，C4.5算法期望的误差上界为：

式（1-2）

公式中的z选择的是基于理想置信区间，（如果z是拥有零均值、单位房方差的正态随机变量，也就是N（0，1））。

2.2.3决策树算法流程

图1-9决策树算法流程图

决策树的算法流程如图1-9所示：

首先决策树读取录入的数据，然后依次读取并存储属性信息，若读取的信息为连续属性，则为改属性划分一个固定区域，若不为连续属性则跳过此步骤，将属性值储存到属性哈希表中。

接下来读取训练样本，若样本中有缺失值数据，将其忽略或是用最多的属性值替代（具体参见补充缺失值部分）。

缺失值补充好后，储存样本表。

将数据计划分为K个子集。

以上步骤处理完整后，取K-1个子集开始使用C4.5算法构造决策树。

树形构造完成后K次迭代交叉验证，进行规范提取，最后对生成的树进行测试即可。

图1-10C4.5算法函数

决策树算法的相关函数如图所示：

其中，choose_attribute函数是通过信息增益率来筛选出的属性，当属性不为空的时候就将其存放到哈希表中。

Entropy为数学求熵函数。

使用计算出的熵值来选择下一个属性。

2.2.4医学领域中的决策树

C4.5算法在健康与医疗领域具有广泛的应用。

可以处理连续性变量，并最终用直观的决策树形式，表现条件属性和决策属性之间的关系。

C4.5算法分类准确度较高，可

展开阅读全文