通过SPSS建立得分模型.docx

资源描述

通过SPSS建立得分模型.docx

《通过SPSS建立得分模型.docx》由会员分享，可在线阅读，更多相关《通过SPSS建立得分模型.docx（19页珍藏版）》请在冰豆网上搜索。

通过SPSS建立得分模型.docx

通过SPSS建立得分模型

建立得分模型

Itellin

2005年12月7日

分类树过程最实用的特征和最有力的功能之一就是有从所建模型中提取数据到其他数据文件中参与预测的能力。

例如，基于包含人口统计信息和车辆购买价格信息的数据文件，我们能够建立一个模型，用于预测有相似人口统计特征的人中有多少人可能购买新车——然后将这个模型用于有人口统计信息但没有车辆购买信息的数据文件。

例如，我们将要使用的数据文件tree_car.sav.

一、建立模型

从菜单中选择：

Analyze

Classify

Tree...

选择Priceofprimaryvehicle作为因变量。

选择所有剩余变量作为自变量。

（过程会自动排除对最终模型没有显著性贡献的变量。

）

在生成方法下来列表框中选择CRT（分类和回归树。

适用于二元变量分类）。

点击Output。

点击Rules页。

选择（打勾）Generateclassificationrules.

Syntax栏中选择SPSS。

Type栏中选择Assignvaluestocases.

在Exportrulestoafile中打勾并输入文件名和路径。

注意：

文件名和路径必须写下来，因为不久你会用到这个文件。

如果不包括路径，你就不会知道文件保存在什么地方。

可以使用浏览按钮寻找（有效的）路径。

二、评估模型

在应用模型到其他数据文件之前，你可能想证实使用原始数据建立的模型合理吗。

（1）模型汇总

模型汇总表显示只有三个自变量对最终模型有显著性的贡献：

income,age,和education。

如果你想在其它数据中使用这个模型，知道这些非常重要。

因为这个模型中使用的自变量必须出现在其它数据文件中。

汇总表也显示树模型自身可能比较复杂因为它有29个节点15个端点。

如果模型可信这根本就无所谓，使用实际的模型比简单的模型更加容易解释或描述。

当然，从实际考虑，你可能不希望模型里有太多的自变量。

本例中，这不是问题因为只有三个自变量包含在最终模型中。

（2）树形图

树形图有许多节点以致立刻在目测的范围内看到节点信息全貌很困难。

使用treemap可以解决这个问题。

在Viewer窗口双击树，打开树编辑器。

从树编辑器菜单中选择：

View

TreeMap

∙treemap显示完整的树，在窗口四边拖动可以改变窗口的大小，图形按照窗口的大小自动显示完整的图形。

∙treemap中红色区域是当前显示的树。

∙可以使用treemap浏览树和选择节点。

对连续因变量，每个节点显示因变量的均值和标准差。

根节点显示购车价格的总平均值约为29.9（千美元）,标准差为21.6.

∙节点1表示收入小于75（千美元）的购买者，购车价格平均只有18.7。

∙与此相反，在节点2，收入大于75的购买者，购车均价为60.9。

进一步研究显示年龄和教育与购车价格有相关性，但是目前我们主要关心模型的实际应用而不是它的成分的细节检查。

（3）风险估计

到目前为止提供不出什么结果证明模型如何好。

模型性能的一个指示因子是风险估计。

对连续因变量而言，风险估计是节点内方差的度量，单独看它不能告诉你多少信息。

方差小表示模型较好，但是方差大小是相对观念，例如，如果价格是按照个位而不是千位计算，风险估计将相差上千倍。

要提供对连续因变量风险估计有意义的解释还需要做一点工作：

∙总方差等于节点内（误差）方差加上节点间（已解释）方差。

∙节点内方差是风险估计值：

68.485.

∙总方差是没有考虑自变量前因变量的方差，它在根节点上。

∙在根节点的标准方差显示是21.576；所以总方差是这个值的平方465.524.

∙未解释的方差是68.485/465.524=0.147。

∙由模型解释的方差是1–0.147=0.853，或85.3%，它表示这是个相当不错的模型。

（类似的解释是分类因变量的总正确分类率）。

三、应用模型到其它数据集

已经确定模型相当不错，现在可以应用模型到包含年龄，收入和教育变量的其它数据文件中，并产生一个新变量，它表示消费者购车的预测价格。

这种处理手法就是常常提到的得分模型。

在生成模型时，我们定义了指定个案保存在文本文件值的“规则”—用SPSS命令句法形式。

现在我们在那个文件中使用命令产生另一个数据文件的得分。

SPSS安装文件夹\sample_files下打开数据文件tree_score_car.sav。

接下来从SPSS菜单中选择：

File

New

Syntax

在命令句法窗口中键入：

INSERTFILE='c:

\temp\car_scores.sps'.

如果使用不同的文件名或路径，可以做适当的改变。

有两个新变量增加到数据文件中：

∙nod_001包含按照模型预测的端点数。

∙pre_001包含购车价格的预测值。

因为我们需要些规则为端点指定值，可能的预测值数就是与端点相同的数。

例如，预测节点数为10的个案都有相同的购车价格预测值30.56。

这同原始模型中端点10的均值不太一致。

虽然你将模型用在因变量值未知的数据文件中，在这个例子中，我们使用实际包含哪些信息的数据文件以便你能比较模型预测值和实际值。

从菜单中选择：

Analyze

Correlate

Bivariate...

选择Priceofprimaryvehicle和pre_001。

点击OK运行该过程。

相关系数0.92表示在实际购车价与预测购车价间存在很高的正相关，它也表示模型拟和良好。

你能使用分类树过程建立模型然后应用到其它数据文件中预测结果。

目标数据文件必须有与在最终模型自变量有相同名的变量，包括相同的度量单位和相同的缺失值。

然而，排除在最终模型外的即不是因变量又不是自变量需要出现在目标数据文件中。

展开阅读全文