SPSS数据挖掘方法概述.docx
《SPSS数据挖掘方法概述.docx》由会员分享,可在线阅读,更多相关《SPSS数据挖掘方法概述.docx(39页珍藏版)》请在冰豆网上搜索。
SPSS数据挖掘方法概述
数据挖掘方法概述
一、主要概念1。
二、主要方法概述1
1、神经网络方法概述1
2、聚类方法概述9
3、主成分分析14
4、决策树概述17
5、关联分析21。
6、遗传算法概述23。
一、主要概念
1、数据挖掘(datamining,简记DM):
采取专门算法对数据库中潜在得、不明显得数据关系进行分析与建模。
2、CRISP-DM(CRoss-IndustryStandardProcessforDataMining):
各•企业中被广泛采用得数据挖掘标准流程。
包括6个步骤:
商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。
3、Clementine:
SPSS公司推出得企业级数据挖掘软件产品,苴包括得数据挖掘主要方法为:
神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。
二、主要方法概述
1、神经网络方法概述
主要问题:
(1)什么就是神经网络?
(2)神经网络有什么用?
(3)如何建立神经网络?
(4)如何应用神经网络?
(1)人工神经网络
“人工神经网络”(ARTIFICIALNEURALNETWORK,简称A、N、N、)就是基于模仿大脑神经网络结构与功能而建立得一种信息处理系统。
神经网络在一定学习规则下,对提供得学习样本进行学习,从中获取特征信息,并存储(记忆)在相应得权值及参数上。
学习后,对于新得输入数据,网络可通过已获取得权值及参数,让算网络得输出。
神经网络具有高度得非线性、容错性与自学习、自适应更新等功能,能够进行复杂得逻辑操作与非线性关系实现。
目前神经网络模型在辅助管理与决策中,应用广泛。
(2)神经网络得作用
已证明结论:
对于函数,在满足一怎条件下,可以找到函数与实常数与,构造函数:
使对于任意小得,满足
(3)简单神经网络模型(感知机模型)得建立
问题引入:
设想对购买手机得顾客制左销售方案,用购买量与购买频率两个指标来判别,
即:
购买量大,购买频率大,则给予优惠折扣:
购买量大,购买频率小,则给予优惠折扣;
购买量小,购买频率大,则给予优惠折扣;
购买量小,购买频率小,则不给予优惠折扣
问题:
这样得销售方案判别就是否可以建立模型表示?
设想:
分别对购买量、购买频率以及就是否优惠得两种取值定义为1,0,则上述四种方案可
以用四个样本表示,设每一样本具有两个评价指标XI,X2,—个评价结果Y:
样本号
XI,
X2
Y
1
1
1
1
2
1
0
1
3
0
1
1
4
0
0
0
构造两个输入节点、一个输岀节点、二层结构得神经网络模型:
(*)0.=f(乂」取值1或0,
w门(j=1,2)待求
1x>0
“0xW0
作用函数:
f(x)二
结构:
X4O
X=O
学习样本:
(xi(k),X2(k),Yx(k)),k就是样本数,k二1,2,3,4
关键问题:
如何获取模型(*)中得权数%使计算结果与样本得评价结果得误差最小?
计算w,j方法:
随机赋予w打初始值,通过对每一样本得学习,获取讣算结果与样本评价结果得误差,修正g得取值,使经过一泄次数得学习后,总误差能达到期望值,此时修正得到得就就是所要获取得权数,即设
«(k)=IY.-0
,就是计算结果。
,就是第k个样本评价结果(称期望输出或实际输岀),O
通过第k个样本得输出误差修正权数得公式为:
(k+1)=(k)+△(k),△二a6(k)Xj
其中,<1>0,a称收敛因子。
第k个样本得误差为:
误差ek=|8(k)|,
总误差E(k)=E(k-l)+ex
计算过程:
1)设a=l,随机赋予w”得初始值为0,即wu(k=l)=0,
w12(k=l)=0
2)对第一个样本进行学习:
把X1=1,X2=1代入(*),有
0=f(wuXXl+w12XX2)=f(0Xl+oxi)=f(0)=0
6(k=l)=IYk-OkI=1
修正权数:
Aw:
j=a6(k)Xj
A=8(k=l)XFIX1=1
Awis二&(k=l)X:
=1X1=1
(k=2)=(k=1)+△二0+1二1,
w13(k=2)=wl2(k=1)+Aw:
2=0+1=1
总误差E(K=l)=E(K=0)+ek=0+6(k=1)=1
3)对第2个样本:
X1=1,X2二0,0=f(1X1+1XO)=f(l)=1
S(k=2)=IYk-0xI=0
修正权数:
AwxFa6(k)Xj
△=6(k=2)X)=0X1=0
Aw12=6(k=2)X:
=0X0=0
(k=2)=(k=l)+A=1+0=1,
w12(k=2)=w1:
(k=l)+Aw1:
=l+0=1
总误差E(K=2)=E(K=l)+ek=l+6(k=2)=1
4)对于获取得权数二1,w12=l,有
对第3个样本:
X1二0,X2=l,O二f(1X0+1XI)二f
(1)二1二Y
对第4个样本:
Xl=0,X2=0,0=f(1X0+1X0)=f(0)二0二Y
5)结论:
=1,wR就是使计算结果与样本得评价结果误差最小得权数。
将=l,w,F代入模型(*),则模型建立完毕。
可以利用这个建立得模型,对任一组输入得X’,X:
在未知其输岀(评价结果)时,通过(*)讣算得到结果。
(4)误差逆传播神经网络模型(ErrorBack-Propagation,简记BP模型)
在简单神经网络得基础上,进行形式推广,对多个输入、多个输出、多层结构,不同作用函数得情况进行建模分析。
最常用得就是BP神经网络。
BP神经网络基本原理
BP神经网络模型就是一种具有三层或三层以上得前馈型得、按梯度算法使计算输出与实际输出得误差沿逆传播修正各连接权得神经网络模型。
网络按有教师示教得方式进行学习,
当一对学习模式提供给网络后,神经元得激活值,从输入层经各中间层向输出层传播,在输出层得各神经元获得网络得输入响应,并按减少希望输出与实际输出偏差得方向,从输出层经各中间层逐层修正各连接权,最后回到输入层,随着这种误差逆传播修正得不断进行,网络对输入模式响应得正确率不断上升。
正向传播
实际输出与网络输出误差
BP网络模型得特点:
模型表示:
Yi=f(i=l,2,3…,m,取值(一8,+oo)
Ot=f(t二1,2,3…,q,(X取值(0,1)
模型结构:
至少三层(至少有一隐层),多个输入,一个或多个输出作用函数(Sigmoid型函数):
f(x)二l/(l+e)
x(-,+)f(x)(0,1)
学习样本:
(x|(k),x3(k),x3(k),•••,Xz(k)>Dx(k).D:
(k).D3(k)…,DQ(k)),
k就是样本数,k=l,2,3…,P
权值修正公式:
设
二Di-Oi,Di就是期望输岀(实际输岀),0i就是网络计算输出
1)隐层与输出层连接权得修正:
(K+1)=(K)+A
就是隐节点输出
2)输入层与输出层连接权得修正:
(K+1)=(K)+A,
就是输入节点输入。
3)第K个样本误差
总误差E二(5)基于神经网络辅助医疗绩效得评泄
案例:
为了对城市医疗能力进行评价,收集一批有代表性得城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家得评价结果,旨在建立评价城市得医疗建设绩效得模型,应用于评价任意城帀得医疗建设绩效。
收集数拯见表1、1(单位:
万人)。
表1、1
样本
病床
数
医生数
工作人员
数
诊所
数
死亡率专家评价得医疗能
力
上海
g
V
V
V
b
V
北京
a
V
V
V
g
V
沈阳
b
b
b
a
g
b
武汉
g
g
g
a
b
a
哈尔滨
V
g
a
b
a
a
重庆
g
g
b
b
b
b
成都
a
g
g
a
a
a
兰州
V
g
a
g
V
V
青岛
g
b
V
V
a
g
鞍山
g
a
a
b
V
g
其中,V—-
-非常好,
g——好
>a
一般,
b——差
需要评价得城市数据见表1、2
表1、
2
样本
病
床医生数
工作人员
诊所数
死亡率
专家评价得医疗
数
数
能力
天津
b
g
b
g
a
广州
a
g
g
g
a
南京
b
g
g
g
b
西安
g
g
a
g
g
长春
g
g
g
a
g
太原
V
g
g
g
V
大连
b
a
b
a
g
济南
V
V
g
a
抚顺
g
t
b
b
g
建立评价得BP神经网络模型:
1)将取得得10个样本分别量化:
立义v.头a.b得取值为
1、5,沪0、5,a=-0.5,b=-l、5
(1)
也可以定义:
v=3,g=l,a=一l,b二-3
v二6,g二2,a=——2,b二-6
v=10,g=7,a=4,b=l由
(1)定义可得上海等10个城市样
本取值见表1、3。
表1、3
~病床数医生数工作人员诊所数死亡率~专家评价~转换值网络输出
得医疗能
力
上海
0.5
1、5
1、5
1、
一
0
5
1、5
0、9
0、8885
北京
—Ox5
1、5
1、5
1、
5
0、5
1.5
0、9
0.9581
沈阳
-1、5
-1、5
-1、5
_0、
L
0
0、5
—1、5
0、1
0、1215
武汉
0.5
Ox5
0、5
_0
、5
-K5
-0、5
0、37
0、3826
哈尔
1、5
0、5
-0.5
-1.
L
0
-0、5
—0、5
0、37
6
0、369
滨
重庆
0.5
0、5
-1、5
_1、
5
5
—1、5
0、1
0.1168
成都
-0.5
0、5
0.5
_0、
L
0
-0、5
-0.5
0.37
0、34697
兰州
1>5
0.5
-0.5
0、
一
□
1、5
1、5
0、9
0、8998
青岛
0、5
-1.5
1、5
1.
□
-0、5
0、5
0、633
0.641
鞍山
0.5
—0、5
一0、5
L
□
1.5
0、5
0.633
9
0.6560
2)设计具有三层、五个输入盯点、8个隐石点、一个输岀if点得BP模型,输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率,输岀为评价得医疗能力。
3)由于选择得映射函数就是S型函数:
f(x)=1/(1+e),x(-,+),f(x)(0,1)
需要把样本输出转换为(0,1)之间得值。
定义:
输岀转换值二0、1+0、8(样本输出值一最小值)/(最大值一最小值),
英中,这里最大值=1、5,最小值=一1、5,转换后得样本输岀见表1、3、
4)网络学习35万次后,网络收敛,总误差为0、16,网络输出见表1、3所示,存储网络学习后得有关权数与参数。
5)用学习后得网络,建立得城帀医疗能力评价模型:
Yi二f(,i=l,2,3…,8&取值(-8,4-oo),j=l,2-5
Ot=f(,t=l,(X取值(0,1)
英中,w:
:
、V「、、「已在学习中获取,评价表2城市得医疗能力,评价结果见表1、4。
表1、4
样本
病床数
医生数
工作人员
诊所数
死亡率
网络输岀
网络评价得医疗
数
能力
天津
-1、5
0、5
—1、5
0、5
—0、5
0、122
b
广州
-0、5
0、5
0、5
0、5
-0.5
0、6687
S
南京
-K5
0、5
0、5
0.5
-0、5
0、6423
g
西安
0.5
0、5
—0^5
0、5
0、5
0、6011
g
长春
0.5
0、5
0.5
—0、5
0、5
0、6333
g
太原
1、5
0、5
0、5
0、5
1>5
0、8851
V
大连
—1x5
-0、5
-1、5
-0、5
0.5
0、1134
b
济南
1.5
1、5
1、5
0.5
—0^5
0、8996
V
抚顺
0.5
一1、5
—1、5
—1>5
0、5
0、3869
a
思考问题:
(1)如何利用神经网络辅助客户分类,以制泄相应得促销或销售策略?
(2)如何利用神经网络对客户信誉等级进行评价?
(3)在城市医疗能力评价中,直接用收集得五个指标得泄量数据作为神经网络输
入,就是否可以?
(4)在城市医疗能力评价中,评价结果有四个可能得取值,可否设计四个节点得输
出?
如何上义?
作业:
拟建立神经网络进行肺病诊断,设每个病例有有五种症状:
发烧(无、低、中度、高),咳嗽(轻微、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音),肺炎与肺结合饿部分病例集见下表:
肺病实示例集
X.病
状
病例号
发烧
咳嗽
X光所见
血沉
听诊
肺
炎
1
高
剧烈
片状
正常
水泡音
2
中度
剧烈
片状
正常
水泡音
3
低
轻微
点状
正常
干鸣音
4
高
屮度
片状
:
述
水泡音
5
中度
轻微
片状
:
述
水泡音
肺
结
核
1
无
轻微
索条状
正常
正常
2
高
剧烈
快
干鸣音
3
低
轻微
索条状
正常
正常
4
无
轻微
点状
快
干鸣音
5
低
屮度
片状
快
正常
2、聚类方法概述
主要问题:
(1)如何左义两类之间得距离?
(2)如何进行类归并?
(3)如何表岀谱系图?
(4)聚类分析得应用?
聚类:
按照事物得某些属性,把事物聚集成类,使类间相似性尽量少,类内相似性尽量大。
问题引入:
(1)四个学生要分成两类,如何分?
(2)设想对优势股进行投资,问优势股如何选择?
一般地,按已知属性对样品或对元素进行归并,称为分类,未知属性(没有先验知识)按距离大小对样品或元素进行归并称为聚类。
常用聚类方法
1)、系统聚类法:
先将n个样本务自瞧成一类,规左样本之间与类与类之间得距离,选择距离最近得一对合并为一个新类,再将距离最近得两类合并,直至所有得样本都归为一类为止。
聚类既可对样品进行聚类,也可以对变量进行聚类。
若对样品得进行聚类,设第i样品表示为,则第A类与第B类得距离可以泄义为:
最常用得距离有:
1最小距离:
用两类中样品之间得距离最短者作为两类得距离。
2最大距离:
用两类中样品之间得距离最长者作为两类得距离。
3重心距离:
用两类得重心之间得距离作为两类得距离。
4类平均距离:
用两类中所有两两样品之间得平均距离作为两类得距离。
案例应用:
设有5个股票,每个股票有8个指标X1,X2,…X8,表示为股价波动率、股息率、资产负债率、资金周转率、流动负债率、经营杠杆系数、财务杠杆系数、投资报酬率),用禺t表示第i个股票得第t个指标得值,则可得到股票样品得数据矩阵:
X:
X2
…xs
1
xux12
…X13
2
X:
1X2:
…Xos
%
、%
、%
5
x51X52
…X58
将每一个样品作为一类,每个样品有8个变量,因此可以将每个样品视为8维空间中得一
个点,5个样品就就是8维空间中得5个点,然后用欧氏距离度量样品点得相似性:
两样品点间距离•越大,其相似性越小。
下而给出5个样品两两之间得欧氏距离阵D(o):
3
五个样品得最小距离得谱系图
5个股票样品得聚类顺序表
合并次序
离)
合并得类
合并后类得元素
合并水平(距
1
6={”J
1
2
5
7—{:
5}
3
3
6,7
3={1,2,4,4
43,39—{1>63,4,J5
最小距离法也可以对变量进行系统聚类,仍通过例子来说明
案例2:
对某地超基性岩得一批样品,测试六个与矿化有关得元素:
x’=银,丘二钻,x产铜,x,=^,x5=硫,xM并假设它们得相关系数如矩阵R⑹所示。
相关系数泄义:
设有n个个体,每个个体测量了p个变量,第i个变量加与第k个变量x丈得相关系数为:
rlk=]/
第A类与第B类得距离可以立义为:
0.84621
0、75790.98021
0、64310.2419
0.50390、7370
6,试用系统聚类得最大距离法对六个变量进行聚类(负相关系数采用绝只
值)。
由于采用得就逊乎系数矩阵,所以应找最大元素并类。
其中最大得元素为0、98此将与合并为。
计算它与其它剩下得类得相关系数,相应地得到Rs:
得得到R二:
0、5039-0.3075
厂]
0、3920
Rs中最大得元素为0、3920,因此将与合并为。
六个变量得并类顺序表
并次序
合并得舟
1合并后类得元素
合并得水平(相关系数)
1
S3
7={X2,XJ
0、9802
2
1,7
tXc,X3,X:
}
0、7579
3
5,6
9—{Xs,X6)
0、6802
4
S,9
10={X2,X3,X1,Xo»X6}
0、3930
□
10>1
11={X2,X3,X1,X5,X6,
xi)0、1811
10、80、60、40、20
横坐标就是并类得相关系数。
2)K均值聚类法
K均值聚类法就是一种已知类数得数据聚类与分类方法。
过程如下:
1选取聚类数K;
2从训练样本中任意选择K个向量C1,C2,・・・6作为聚类中心,Ci二(C“,C:
=-C:
a);
3将每个样本Xi二(XH,X15,…,XQ按距离:
P二1,2,3…k,归入距离最小得中心为Ci得类;
4设属于Ci类得样本为Xj(j二1,2,…q),计算新得聚类中心
Ci=((CinC'^-CJ
其中:
5若④中得聚类中心不再变化,就终I匕否则转③。
思考问题:
(1)如果分两类,谱系图如何?
(2)如果分三类,谱系图如何?
(3)如何确左适合得聚类数?
(4)分析客户购买手机得数据,通过聚类分析客户流失情况。
作业:
在城市医疗能力评价中,评价指标为五个,即X二(X1,X2,X3,X4,X5),每一指
标取值四个(v,g,a,b),则Xi取值得各种可能为",则可能有4’得评价指标情况,要求通过聚类,从中选岀15个有代表性得样本,比较聚类辅助建立神经网络与专家经验辅助建立神经网络得不同。
3、主成分分析
主成分分析就是一种多变量分析方法,通过变量变换把相关得变量变为不相关得、比原来少得若干个新变屋。
回輕1△:
为了找岀影响顾客购买手机得主要因素,抽查一部分人按性別与年龄分成10个小组,分别对100种手机类型进行打分评价,最受欢迎得手机给予9分,最不受欢迎得手机给1分。
设10组顾客对100类手机得评分数据为:
手机1
手机2…
…手机100
Xl(男20岁以下)
x(1
X2i……
XiO01
X2(男21—30岁)
X12
X32
X1002
X3(男31—40岁)X4(男41—50岁)X5(男50岁以上)
X6(女20岁以下)X7(女21—30岁)
X8(女31—40岁)X9(女41—50岁)X10(女50岁以上)
X*
X:
10
X]0010
Xij表示第j个顾客对第i款手机得偏好评分,记A二(Xij)。
设想通过主成分分析确左手机类型得主要影响因素。
主成分分析步骤:
1)求A得相关系数矩阵R,R=R(),得定义为:
一
2)求特征方程det(R-)二0得特征根i(i二1,2,…n);
3)通过非零向量B满足(R-)B=0,计算相应得特征向量Bi=(Bi”B込,-BiJ;
4)从大到小排列i,不妨设1>2>……>n,由累计贡献率295$确定m个特征根1>2>……九,对应得特征向量为Bi二(Bi“Bi2,-Bin),i=l,2,…m;
5)计算主分量zk,ZF(k二1,2,-m(mZx得应用:
门通过乙‘与Zj得对应取值变化,了解主要影响因素之间得关系与变化趋势;2)
可以通过Zk对X’,X2,-X.oo得贡献率,找出最大得指标Xi,视Xi为Zk影响最大得指标。
得左义:
令Xij与Zij得关系为:
组号\指标
XI,X2,……Xn
Z1,z
2Zm
1
XllX21
Xn1
ZllZ21
Zml
2
X12X22-
•…Xn2
Z12Z22
Z
m2
••••••
10
X110X210
……Xn
10Z110
Z210
ZmlO
i1,2,•…
••m,
j-1,2,n
案例分析:
l):
A(Xij)得相关系数矩阵R为:
XIX2X3
X
10X1
10.8710.516
0、
370、1720、9360.811
5
0、50、33
X2
10、7
1
0.
6