1、应用多元统计分析实验报告多元统计分析实验报告学院名称 理学院 专业班级 应用统计学14-2 学生姓名 张艳雪 学 号 2 第一章 多元正态分布1.1 从某企业全部职工中随机抽取一容量为6的样本,该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示:职工编号目前工资(美元)受教育年限(年)初始工资(美元)工作经验(月)12345657000420021450219004500028350151612815827000187501200013200021000120001443638119013826设职工总体的以上变量服从多元正态分布,根据样本资料利用SPSS软件求出均值向量和
2、协方差矩阵的最大似然估计。注1:最大似然估计公式为: ,;一SPSS操作步骤:第一步:利用spss建立数据集第二步:分析-描述统计-描述 计算样本均值向量第三步:分析-相关-双变量 计算样本协方差阵与样本相关系数二输出结果:描述性统计量均值标准差N目前工资29650.0018763.4756受教育年限12.333.6156初始工资37125.0046827.2766工作经验152.50129.2106相关性目前工资受教育年限初始工资工作经验目前工资Pearson 相关性1.184-.126.042显著性(双侧).727.812.937平方与叉积的和1760340000.00062500.0.0
3、00510000.000协方差352068000.00012500.0.000102000.000N6666受教育年限Pearson 相关性.1841-.510-.077显著性(双侧).727.302.885平方与叉积的和62500.00065.333-431250.000-179.000协方差12500.00013.067-86250.000-35.800N6666初始工资Pearson 相关性-.126-.5101.114显著性(双侧).812.302.829平方与叉积的和-553387500.000-431250.750.0003455625.000协方差-110677500.000-8
4、6250.50.000691125.000N6666工作经验Pearson 相关性.042-.077.1141显著性(双侧).937.885.829平方与叉积的和510000.000-179.0003455625.00083475.500协方差102000.000-35.800691125.00016695.100N6666三实验结果分析:样本均值为 样本的协方差 如此就可以按照极大似然估计方程: ,得出均值向量与协方差向量的最大似然估计结果。第三章 聚类分析3.1 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K均值法利用SPSS软件分别对这些公司进行聚类,并对结果进行比
5、较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02
6、100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.
7、160.7956.2697.84.81-533.89-27.74一、实验原理:1.系统聚类的基本思想是:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据。2.K-均值聚类法:K-均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,
8、离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。二SPSS操作步骤:(一)系统聚类基本操作步骤如下:1.点击分析分类系统聚类,进入系统聚类对话框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。输出框中保持默认选项,选中统计量和图。3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,其
9、他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。4.最后点击确定按钮,得系统聚类结果。(二)K-均值法基本操作步骤如下:1. 点击分析分类K-均值聚类,进入K-均值聚类对话框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。根据系统聚类的结果,聚类数改为3,其他部分保持默认选项。3.迭代部分保持默认选项,点击继续按钮;点击保存按钮,选中聚类成员、与聚类中心的距离,点击继续按钮;选项部分中保持默认选项,点击继续。 4.最后点击确定按钮,得K-均值聚类结果。三输出结
10、果:系统聚类法:表1 案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比12100.00.012100.0a. 平方 Euclidean 距离 已使用b. 平均联结(组之间)表2 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2169363.2800022261189.69701332121492.5322044243976.32830552107995.87440767149315.36000871213588.43405881728034.8797699111530499.98980101.32690111111391730894.8611000K均值法:表
11、3 初始聚类中心聚类123净资产收益率95.7911.1230.22每股净利润-5.20-1.69.16总资产周转率.50.12.40资产负债率252.34132.1487.36流动负债率99.34100.0094.88每股净资产-5.42-.66.53净利润增长率-9816.52-4454.39729.41总资产增长率-46.82-62.75-9.97表4 迭代历史记录a迭代聚类中心内的更改1231.000.000834.1342.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 5184.
12、300。表5最终聚类中心聚类123净资产收益率95.7911.126.48每股净利润-5.20-1.69.08总资产周转率.50.12.39资产负债率252.34132.1471.48流动负债率99.34100.0092.06每股净资产-5.42-.661.90净利润增长率-9816.52-4454.39-103.94总资产增长率-46.82-62.7511.91表6 每个聚类中的案例数聚类11.00021.000313.000有效15.000缺失.000四,实验结果分析:(一)系统聚类法:表2聚类表是对每一阶段聚类结果的反应。图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个
13、数得到分类情况。如果选择分为2类,分类结果为:13号公司单独一类,1-12号公司为一类;如果选择分为3类,分类结果为:13、1、14、2、3、4、5、6、7、8、9、10、11、12、15。由表中数据可以发现,13号公司资产负债率最高,净利润增长率最低,1号和14号公司的主要财务指标都比较好,可以认为系统聚类根据经营情况对公司进行分类的。(二)K均值法:表3出始聚类中心,表示最初种类的重心,也就是种子点。表5最终聚类中心,表示K-均值聚类之后各类的重心,可以看到,1类资产负债率高,净利润增长率低,3类各项指标值都比较好。由数据集输出结果知分类结果为:1类13、2类8、3类1、2、3、4、5、6
14、、7、9、10、11、12、14、15。与系统聚类的结果不完全相同,K-均值聚类将8号公司单独作为一类。由数据表可以发现8号公司资产负债率较高,净利润增长率较低,与其他公司之间有较大差别,单独分为一类也比较符合实际。3.2 下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDP(元)、人均工业产值(元)、客运总量(万人)、货运总量(万吨)、地方财政预算内收入(亿元)、固定资产投资总额(亿元)、在岗职工占总人口的比例()、在岗职工人均工资额(元)、城乡居民年底储蓄余额(亿元)。试利用SPSS软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。城市北京3520037.82
15、53126441天津2643343732353418.8186481825石家庄184310008494169.5123061044太原9752.812679660呼和浩特513.514116255沈阳23268154466612146368155714.8149611423大连290714.7175601310长春9991.513870831哈尔滨148257561645895187642317.7124511154上海46586771899227421.0273056055南京27547438531679415.4221901134杭州32667498232071711.824667146
16、6宁波32543479042493810.9236911060合肥1344641362458.313901359福州22281206737611.815053876厦门53590931264448.619024397南昌1422192121011.013913483济南234372263458113.516027758青岛247634.515335908郑州166741476637312.7135381048武汉2127817083162317.4137301286长沙154468873143410.016987705广州482228859275108925.1288053727深圳19875
17、69.6310532199南宁81763391708.313171451海口16442304129916.514819284重庆719245016211876.5124401897成都17914928972793287989078811.9152741494贵阳1115.812181345昆明162123386034214.614255709西安415.9135051211兰州14459172120318.013489468西宁7203787610.114629175银川1178711213421.913497193乌鲁木齐2256.116509420南宁3520037.8253126441海
18、口2643343732353418.8186481825资料来源:中国统计年鉴2004一、实验原理:系统聚类的基本思想:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据二SPSS操作步骤:1.点击分析分类系统聚类,进入系统聚类对话框。2.将x1、x2、x3、x4、x5、x6、x7、x8、x9,9个变量选入变量框中,将城市选入标注个案框中。输出框中保持默认选项,选中
19、统计量和图。3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,聚类方法中有7种方法可供选择,分别进行选择,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。4.最后点击确定按钮,得系统聚类结果。经过比较得类平均法的组间联接法的结果与人们观察到的实际情况较接近,输出结果见表1、表2,图1、图2。三输出结果: 表1 案例处理摘要a案例有效缺失合计N百分比N百分比N百分比37100.0%00.0%37100.0%a. 平方 Euclid
20、ean 距离 已使用表2 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21237.00000282136.000003231417.08100441425.11830115830.11900862031.1420097532.23400158815.26950139920.270061410621.2800021111433.3064022121213.311001913818.33980161439.409091815534.440702216822.49613018172629.53000241838.610141621191112.6570122920435.7
21、3900262136.76218102522514.79215112423719.9460028245261.06322172525351.41921242626341.9582520302727282.425003428272.59412329292114.48628193030236.284292631312169.911300343212310.71920333311019.305320353422720.888312735351242.47833343636124100.4223500图1 冰状图图2 树状图四实验结果分析:表2聚类表是对每一阶段聚类结果的反应。如第一行表示,第一阶段时
22、第二个样品(天津)与第37个样品(海口)聚为一类,其他以此类推。图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。如果选择分为2类,分类结果为:深圳单独一类,其他城市为一类;如果选择分为3类,分类结果为:1类深圳、2类北京、南宁、广州、上海、3类其他城市为一类。由表中数据可以发现,深圳各项经济指标都比较好,且人均GDP远高于其他各城市,所以单独聚为一类,北京、南宁、广州、上海各项经济指标在全国各省份地区的平均水平之上,故聚为一类。可以从经济发展水平来理解所做的分类,1类是经济最发达的地区,2类是经济比较发达的地区,3类是经济发展水平一般的地区。第四章 判别分析4
23、.1 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄()、受教育程度()、现在所从事工作的年数()、未变更住址的年数()、收入()、负债收入比例()、信用卡债务()、其它债务()等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据。 根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则; 某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。目前信用好坏客户序号已履行还贷责任123172316.600.341.712341173598.001.812.913422723414.600.94.9443911954813.101.934.36535191345.000.401.30未履行还贷责任6371132415.101.8
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1