药物治疗.docx
《药物治疗.docx》由会员分享,可在线阅读,更多相关《药物治疗.docx(15页珍藏版)》请在冰豆网上搜索。
药物治疗
药物治疗(勘察表/C5.0)
在本章中,假设您是一位正在汇总研究数据的医学研究员。
您已收集了一组患有同一疾病的患者的数据。
在治疗过程中,每位患者均对五种药物中的一种有明显反应。
您的任务就是通过数据挖掘找出适合治疗此疾病的药物。
此示例使用名为druglearn.str的流,此流引用名为DRUG1n的数据文件。
这些文件可在任何IBM®SPSS®Modeler安装程序的Demos目录中找到。
此目录可通过WindowsIBM®SPSS®Modeler程序组进行访问。
文件druglearn.str位于streams目录中。
此demo中使用的数据字段包括:
数据字段
描述
年龄
(数值)
性别
男或女
BP
血压:
高、正常或低
Cholesterol
血液中的胆固醇含量:
正常或高
Na
血液中钠的浓度
K
血液中钾的浓度
Drug
对患者有效的处方药
您可以使用变量文件节点读取定界文本数据。
可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。
然后,双击新添加的节点以打开相应的对话框。
单击紧挨“文件”框右边以省略号“...”标记的按钮,浏览到您系统中的IBM®SPSS®Modeler安装目录。
打开Demos目录,然后选择名为DRUG1n的文件。
确保选中了从文件读取字段名称,注意已载入此对话框中的字段和值。
单击数据选项卡,覆盖和更改某个字段的存储。
注意,存储不同于测量,即,数据字段的测量级别(或用途类型)。
类型选项卡可帮助您了解数据中的更多字段类型。
还可以选择读取值来查看各个字段的实际值,具体取决于您在值列中的选择。
此过程称为实例化。
添加表
现在您已载入数据文件,可以浏览一下某些记录的值。
其中一个方法就是构建一个包含“表”节点的流。
要将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。
要查看表,请单击工具栏上的绿色箭头按钮运行流,或者右键单击“表”节点,然后选择运行。
创建分布图
数据挖掘过程中,创建汇总视图通常有助于研究数据。
IBM®SPSS®Modeler提供了若干不同类型的图表供您选择,具体取决于您要汇总分析的数据类型。
例如,要找出每种药物的对症患者的比例,请使用“分布”节点。
将“分布”节点添加到流,并将其与“源”节点相连接,然后双击该节点以编辑要显示的选项。
选择药品作为要显示其分布的目标字段。
然后,在对话框中单击运行。
最终图表将有助于您查看数据的“结构”。
结果表明,药品Y的对症患者最多,而药品B和药品C的对症患者最少。
此外,您还可以添加并执行“数据审核”节点,同时快速浏览所有字段的分布图和直方图。
数据挖掘过程中,创建汇总视图通常有助于研究数据。
IBM®SPSS®Modeler提供了若干不同类型的图表供您选择,具体取决于您要汇总分析的数据类型。
例如,要找出每种药物的对症患者的比例,请使用“分布”节点。
©CopyrightIBMCorporation1994,2012.
将“分布”节点添加到流,并将其与“源”节点相连接,然后双击该节点以编辑要显示的选项。
选择药品作为要显示其分布的目标字段。
然后,在对话框中单击运行。
最终图表将有助于您查看数据的“结构”。
结果表明,药品Y的对症患者最多,而药品B和药品C的对症患者最少。
此外,您还可以添加并执行“数据审核”节点,同时快速浏览所有字段的分布图和直方图。
可以在“输出”选项卡中找到“数据审核”节点。
创建散点图
现在我们来看一下有哪些因素会对药品(目标变量)产生影响。
作为研究员,您一定知道钠和钾的浓度在血液中有着重要的影响。
由于两者都是数值,您可以用颜色区分药品,创建一个关于钠和钾的散点图
将“散点图”节点放在工作区中,并将其与“源”节点相连接,然后双击该节点对其进行编辑。
在“散点图”选项卡中,选择Na作为X字段,选择K作为Y字段,并选择Drug作为交叠字段。
然后,单击运行。
此散点图清楚地显示了一个阈值,在此阈值上方,对症药品始终是Y,在此阈值下方,对症药品均不是Y。
此阈值等于钠(Na)和钾(K)的比。
创建网络图
因为很多数据字段均可分类,您也可尝试绘制网络图,此图表将反映不同类别之间的联系。
首先,将网络节点与您工作区中的源节点相连接。
在“网络节点”对话框中,选择BP(血压)和药品。
然后,单击运行。
此图显示,药品Y与三种级别的血压均相关。
这并不奇怪,因为您早已看出Y是最佳药品。
要关注其他药品,您可隐藏药品Y。
在视图菜单上,选择编辑模式,然后右键单击药品Y点并选择隐藏并重新计划。
简图中隐藏了药品Y及其所有链接。
现在您可以清楚地看到,只有药品A和B与高血压有关。
只有药品C和X与低血压有关。
而药品X与正常血压有关。
此时,您仍然无法在药品A与B或药品C与X之间为指定患者作出选择。
此时建模可以助您一臂之力
由于钠与钾的比似乎可以用来预测何时可以使用药品Y,因此您可以为每条记录导出一个包含此比值的字段。
该字段稍后可用于构建模型以预测何时可使用五种药品中的每一种药品
为了简化流布局,首先删除除DRUG1n源节点之外的所有节点。
将派生节点(字段选项选项卡)附加到DRUG1n,然后双击派生节点进行编辑
将新字段命名为Na_to_K。
由于是通过将钠值除以钾值获取新字段,所以请在公式中输入Na/K。
您还可通过单击紧挨该字段右侧的图标来创建公式。
此操作将打开“表达式构建器”,这是一种使用函数、操作数、字段及其字段值的内置列表交互式创建表达式的方式。
由于钠与钾的比似乎可以用来预测何时可以使用药品Y,因此您可以为每条记录导出一个包含此比值的字段。
该字段稍后可用于构建模型以预测何时可使用五种药品中的每一种药品。
©CopyrightIBMCorporation1994,2012.
为了简化流布局,首先删除除DRUG1n源节点之外的所有节点。
将派生节点(字段选项选项卡)附加到DRUG1n,然后双击派生节点进行编辑。
将新字段命名为Na_to_K。
由于是通过将钠值除以钾值获取新字段,所以请在公式中输入Na/K。
您还可通过单击紧挨该字段右侧的图标来创建公式。
此操作将打开“表达式构建器”,这是一种使用函数、操作数、字段及其字段值的内置列表交互式创建表达式的方式。
您可以通过将直方图节点添加到导出节点来检查新字段的分布情况。
在直方图节点对话框中,将Na_to_K指定为要绘制的字段,并将药品指定为交叠字段
由于钠与钾的比似乎可以用来预测何时可以使用药品Y,因此您可以为每条记录导出一个包含此比值的字段。
该字段稍后可用于构建模型以预测何时可使用五种药品中的每一种药品。
©CopyrightIBMCorporation1994,2012.
为了简化流布局,首先删除除DRUG1n源节点之外的所有节点。
将派生节点(字段选项选项卡)附加到DRUG1n,然后双击派生节点进行编辑。
将新字段命名为Na_to_K。
由于是通过将钠值除以钾值获取新字段,所以请在公式中输入Na/K。
您还可通过单击紧挨该字段右侧的图标来创建公式。
此操作将打开“表达式构建器”,这是一种使用函数、操作数、字段及其字段值的内置列表交互式创建表达式的方式。
您可以通过将直方图节点添加到导出节点来检查新字段的分布情况。
在直方图节点对话框中,将Na_to_K指定为要绘制的字段,并将药品指定为交叠字段
构建模型
通过研究和操作数据,您能够得出某些假设结论。
血液中钠与钾的比例以及血压似乎都会影响药品的选择。
但您还不能完全解释清楚所有关系。
此时似乎可以通过建模找出某些答案。
此种情况下,您可以尝试使用规则构建模型(C5.0)来拟合数据。
由于使用的是导出字段Na_to_K,您可以过滤掉原始字段Na和K,以避免在建模算法中重复操作。
上述操作可通过过滤节点完成。
在“过滤”选项卡上,单击Na和K旁边的箭头。
如果箭头上显示红色的X,则表示该字段已被过滤
然后,附加一个连接到“过滤”节点的“类型”节点。
“类型”节点允许您指出要使用的字段类型以及如何使用这些字段预测结果。
在“类型”选项卡上,将药品字段的角色设置为目标,表明您要预测该药品字段。
将其他字段的角色设置为输入,表示这些字段将用作预测变量。
要评估此模型,请将节点C5.0置于工作空间,然后将此节点附加到流的末端(如图所示)。
单击绿色运行工具栏按钮运行流。
执行C5.0节点时,模型块被添加到流,同时添加到位于窗口右上角的“模型”选项板。
要浏览模型,右键单击任一图标并从上下文菜单选择编辑或浏览。
“规则”浏览器以决策树形式显示C5.0节点所生成的规则集。
最初,决策树处于折叠状态。
要展开决策树,请单击所有按钮显示所有层。
谜团将因此而解开。
对于Na与K的比小于14.64的高血压患者,年龄将决定如何选择药品。
对于低血压患者,胆固醇含量似乎是最有力的预测变量。
通过单击查看器选项卡,还可以更复杂的图表形式查看同一决策树。
通过此图表形式,您可以更轻松地查看各个血压类别的观测值数量以及各个观测值的百分比。
使用分析节点
可以使用分析节点评估模型的精确度。
将分析节点(从输出节点选项板)附加到模型块,打开分析节点并单击运行。
分析节点输出显示:
使用该假设数据集,此模型已正确预测该数据集中每个记录的药品选择。
在真正的数据集中,未必能做到完全准确,但分析节点可帮您确定模型的精确度能否满足特殊使用要求。