数据挖掘题.docx

资源描述

数据挖掘题.docx

《数据挖掘题.docx》由会员分享，可在线阅读，更多相关《数据挖掘题.docx（22页珍藏版）》请在冰豆网上搜索。

数据挖掘题.docx

数据挖掘题

贵州大学2013-2014学年第一学期

《数据挖掘》期末考试题

姓名___专业__应用数学___学号_1107010186_

问题：

一、要求应用SPSS软件对实验数据（六个变量，500个数据）进行如下统计分析：

1、对每一变量数据作直方图与QQ图，选出直方图近似正态分布且QQ图近似直线的变量，视这些变量是随机变量（至少两个），其近似服从正态分布；

以上是对每一变量数据作直方图与QQ图，选出直方图近似正态分布且QQ图近似直线的变量为y2,y3，视这些变量是随机变量,其近似服从正态分布.

2、对近似服从正态分布的随机变量的分布函数进行假设检验（Kolmogorov–Smirnov方法）；

1.对于变量y2，P值〉0.05，因此接受原假设，认为符合正态分布，相同的，对于y3，P值〉0.05，因此接受原假设，认为符合正态分布。

2.3.双尾P值为0.046，在显著性水平0.05下，可以拒绝原假设，即可以认为，x1与y1不独立。

3、对x1与y1的独立性进行假设检验；

4、对x1（自变量）与y1（因变量）进行一元线性回归分析，建立回归方程，并进行线性性检验；

由上图可知：

相关系数R=0.89拟合优度

调整后的拟合优度=0.006标准误差估计为：

5764.573；所用回归模型F统计量值=3.987显著性系数=0.46，因此认为这个统计模型有统计意义；建立回归方程为：

y1=3.477x1+0.089

5、对x1（自变量）、x2（自变量）、x3（自变量）与y1（因变量）进行多元线性回归分析，建立回归方程，并进行线性性检验；

2：

从“Anova"表中，可以看出“模型2”中的“回归平方和”为2.287E8，“残差平方和”为1.645E10，总平方和=回归平方和+残差平方和。

3：

根据后面的“F统计量”的概率值为3.454，由于3.454〉0.01，随着“自变量”的引入，其显著性概率值均远大于0.01，所以可以不能拒绝总体回归系数为0的原假设，通过ANOVA方差分析表可以看出“y1”与“x1”和“x3”之间不存在着线性关系。

从“系数a”表中可以看出：

1：

多元线性回归方程应该为：

y1=-5229.008+0.17*x1+35.329*x3但是，由于常数项的sig为（0.315>0.1）所以常数项不具备显著性，所以，我们再看后面的“标准系数”，在标准系数一列中，可以看到“常数项”没有数值，已经被剔除

所以：

标准化的回归方程为：

销售量=-2.672*x1+20.727*x3

6、分别对来自三个总体（水平）x1、x2、x3的试验数据关于均值相等的假设进行方差分析，同理对来自三个总体（水平）y1、y2、y3的试验数据进行方差分析;

7、按六个变量进行变量聚类，以变量的相关系数作为距离度量，分析聚类结果。

近似矩阵表使用平方Euclidean距离计算的，其实质是一个不相似矩阵，其中的数值表示各个样本之间的相似系数，数值越大，表示样本距离越大。

聚类表反映的是每一阶段的聚类结果，系数表示的是聚合系数，冰柱图是反映样本聚类情况的图，如果按照设定的类数，在那类的行上从左到右就可以找到各类所包含的样本。

8.7下表由雇员的数据库的训练数据组成。

数据已泛化。

例如，age“31^35”之间。

对于给定的行，count表示department、status、age和salary在该行上具有给定值的元组数。

department

Status

age

salary

count

sales

senior

31……35

46K……50K

sales

junior

26……30

26K……30K

sales

junior

31……35

31K……35K

systems

junior

21……25

46K……50K

systems

senior

31……35

66K……70K

systems

senior

26……30

46K……50K

systems

junior

41……45

66K……70K

marketing

senior

36……40

46K……50K

marketing

junior

31……35

41K……45K

secretary

senior

46……50

36K……40K

secretary

junior

26……30

26K……30K

设status是类标号属性。

、

（a）如何修改基本决策树算法，以便考虑每个广义数据元组（即每个行）的count？

（b）使用修改过的算法，构造给定数据的决策树。

（c）给定一个数据元组，它的属性department、age和salary的值分别为“systems”、“26……30”和“46……50K”。

该元组ststus的朴素贝叶斯分类是什么？

解：

本题的类标号属性为：

status,它有senior，junior两个值，其中，senior有30+5+3+10+4=52个元组，senior有40+40+20+3+4+6=113个元组。

一共有165个元组。

D元组的期望为

计算depart,age,salary的期望：

Gain（dep）=Info（d）-Info（dep）=0,049

计算age的期望：

计算salary的期望：

3.根据题意。

要求分类的元组为X=（department=systems,age=26-30,salary=46k-50k），最化PX|CiPCi,i=1,2。

计算：

P（status=senior）=52/165=0.315，P（status=junior）=113/165=0.685P（department=systems|status=senior）=8/52=0.154

P（department=systems|status=junior）=23/113=0.204

则可以得到：

P（X|status=senior）

=P（age=26-30|status=senior）*P（department=systems|status=senior）*P（salary=46k-50k|status=senior）=0.002

P（X|status=junior）

=P（age=26-30|status=junior）*P（department=systems|status=junior）*P（salary=46k-50k|status=junior）==0.018

再次计算：

P（X|status=senior）P（status=senior）=0.002*0.315=0.00063

P（X|status=junior）P（status=junior）=0.018*0.685=0.01233

对于元组X，朴素贝叶斯分类器预测元组X的类为status=junior。

10.18假设你打算在一个给定的区域分配一个（ATM），舍得满足大量约束条件。

住宅或工作场所可以被聚类以便每个簇被分配一个ATM。

然而，该聚类可能被两个因素所约束：

（1）障碍物对象，即有一些可能影响ATM壳达性的桥梁、河流和公路。

（2）用户指定的其他约束，如每个ATM应该能为10000户家庭服务。

在这两个约束限制下，怎么修改聚类算法（k-均值）来实现高质量的聚类？

针对障碍实体的约束问题进行了研究,以划分方法中的K-中心点算法为基础,利用微聚类的方法压缩数据量,尝试利用建立距离查找表的方法解决存在障碍物的问题,提出了限制条件下的空间聚类改进算法。

传统的的K-中心点空间聚类算法在进行聚类时，并未考虑到目标物体间存在障碍物实体的情况，如参与聚类的空间对象可能存在河流，桥梁，高速公路，湖泊，山体等障碍实体，对空间聚类造成障碍或影响，使其聚类结果不具备实际意义。

对此问题进行了改进。

改进的K-中心点空间聚类算法

1.基于微聚类的数据压缩在进行微聚类之前,必须根据先验知识对微小簇给出一个阈值,即微小簇的最大半径Rmax,然后根据该阈值进行微聚类

2.在考虑限制条件的情况下,计算任意两个微小簇之间的距离,建立一个距离查找表。

若两个微小簇/可视0（即不存在障碍实体）,则用欧氏距离表示其间的距离,反之,则用加权距离表示其间的距离。

然后将所有微小簇之间的距离存储起来,以便在聚类的过程中随时调用。

这样既考虑了限制条件,又避免了重复计算微小簇之间的距离,提高了执行效率。

3.建立距离查找表。

建立查找表为便于聚类时直接调用。

必须考虑到聚类对象所存在的障碍实体和联通点给中心点与非中心点的距离所带来的影响若两个微小簇之间没有障碍物，其间的距离为：

若两个微小簇受障碍物的影响，完全不可视，其间的距离为：

M表示阻碍因子权值。

若两个微小簇受障碍物的影响，但经联通点连接后可达，其间的距离为：

式中，Li表示第i个联通点。

4.设定中心点的初始集合并聚类。

从所有的对象中随机选择k个对象作为当前的聚类中心，然后根据与中心点的距离，将每一个非中心点对象分配给离它最近的中心点。

5.置换中心点对象，重新聚类。

用距离某个簇的平均点坐标最近的非中心点对象，代替改簇的中心点，然后重新聚类。

作为评估聚类质量的准则函数为：

展开阅读全文