ImageVerifierCode 换一换
格式:DOCX , 页数:20 ,大小:569.44KB ,
资源ID:24091277      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/24091277.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(多元统计分析论文.docx)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

多元统计分析论文.docx

1、多元统计分析论文关于各地区住宿业企业基本情况和经营情况的统计分析班级:统计一班姓名:学号:201010060106指导教师:高艳摘要:关键词:住宿业 营业额 频数分析 因子分析 聚类分析 判别分析正文:序言:正文:第一步、录入数据:图-1图-2第二步、进行频数分析:表-1统计量法人企业(个) 年末从业人数(人)营业额(亿元)客房收入餐费收入N有效3131313131缺失00000均值506.8768005.7790.25342.25036.899中值423.0056088.0054.66925.67624.175标准差370.25159799.09293.359543.500537.8579方

2、差137086.1163.576E98715.9881892.2951433.219偏度1.2962.2721.8921.8951.886偏度的标准误.421.421.421.421.421峰度1.6247.0403.4053.2193.578峰度的标准误.821.821.821.821.821百分位数25234.0026098.0030.93015.17812.91650423.0056088.0054.66925.67624.17575654.0087962.0098.73147.75844.373表-1为统计量表,从上表中可以看出各个变量的均值、中值、标准差、方差、偏度、峰度、以及它们的

3、标准误差,法人企业的营业额基本上是由客房收入和餐费收入平摊,但相对来说还是客房收入占得比例较大些。图-3图-3为带有正态曲线的直方图,描述的是法人企业个数的方面的问题,从图中可以看到各个城市的平均法人个数为506.87,标准误差为370.251,总共有31个城市,而且在这些城市中,法人企业个数在250个的城市居多,大约占到九个。根据标准正态曲线,可以看出该变量的变化情况可大致认为服从正态分布,但在后面的部分也还是存在一定的偏差。图-4图-5图-6图-7图-4、图-5、图-6、图-7分别表示的是年末从业人数、营业额、客房收入和餐费收入的频数直方图,分析方法和图-3相似,就不一一分析了,从上面几个

4、图中可以看出,这几个变量都大致服从正态分布,但我国住宿业方面的发展还是很不平衡,无论是从这五个方面的哪一方面来看,都是数值小的占的比例较大。说明只有少数地区的住宿业可以达到发达水平,还有大部分地区需要加大力度来提高自己的收入水平。第三步、对数据进行因子分析:表-2相关矩阵法人企业(个) 年末从业人数(人)营业额(亿元)客房收入餐费收入相关法人企业(个) 1.000.964.932.891.945年末从业人数(人).9641.000.956.919.968营业额(亿元).932.9561.000.988.968客房收入.891.919.9881.000.923餐费收入.945.968.968.9

5、231.000表-2为五个变量的相关矩阵,从表中的数据可以看出,各个变量同其他变量之间的相关性都很强。表-3解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %14.78295.64895.6484.78295.64895.6482.1402.79598.4433.049.98299.4264.027.55099.9755.001.025100.000提取方法:主成份分析。表-3为解释的总方差,可以看到只要第一个成分就可以解释95.648%的信息,而且在合计列中只有第一个因子的特征值大于1,所以我提取了第一个变量因子并对它做因子分析。图-8图-8为因子分析的碎石

6、图,从图中可以明显的看到第一段的斜率很大,而后面就变得平缓了,也说明只要一个因子就能很好地解释所有的变量,说明我们只提取一个因子的做法是合理的。但由于只有一个因子,所以无法得到因子载荷矩阵和旋转的因子载荷矩阵,但可以有成分得分系数矩阵,由此可以算出因子得分。表-4成份得分系数矩阵成份1法人企业(个) .202年末从业人数(人).206营业额(亿元).207客房收入.202餐费收入.205提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。表-4即为成分得分系数矩阵,从中可以得到因子在各变量上的系数,可以得到计算因子得分的函数:。图-9图-9为最后的因子得分

7、,由于在保存子对话框中点了保存为新变量,所以在原数据中多了一列,即为根据表-4得到的因子得分。第四步、对数据进行聚类分析(K-均值聚类,只选取了前三个变量):表-5初始聚类中心聚类123法人企业(个) 161840922年末从业人数(人)302021420294364营业额(亿元)398.03.998.7表-6迭代历史记录a迭代聚类中心内的更改1231.00019558.7239865.7872.0005424.8936723.8623.0006141.92811952.2144.0003137.2007758.3295.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。

8、任何中心的最大绝对坐标更改为 .000。当前迭代为 5。初始中心间的最小距离为 90166.364。表-7最终聚类中心聚类123法人企业(个) 1618307850年末从业人数(人)30202138464110936营业额(亿元)398.041.6169.5表-5、表-6、表-7分别为初始聚类中心、历史迭代记录和最终聚类中心。根据表-6可以看出第一类的聚类中心基本上没有什么改变。当初始聚类中心经过迭代,迭代到第五步的时候都已经变成了0.000,此时已经可以结束迭代,得到最终聚类中心,可以看出第一类的法人企业为1618个,年末从业人数为302021人,营业额为398.0亿元,第二类和第三类可以依

9、次看出。图-10由于在保存子对话框中点了保存为新变量,所以在原数据中多了两列,分别为案例的类别号和案例与其类别中心之间的距离,见图-10.可以看出广东为第一类,它的住宿业很发达,企业法人个数和营业额等都非常高;北京、上海、江苏、浙江、福建、山东、河南、湖南和四川为第三类,它们的住宿业相对比较发达;其他地区分为第二类,它们的住宿业比较落后,企业法人个数和营业额等都很低。表-8每个聚类中的案例数聚类11.000221.00039.000有效31.000缺失.000表-8为每个聚类的案例数,从中可以看出第一类中只有1个案例,第二类中有21个,第三类中有9个。第五步、对数据做一下判别分析(先把广东、河

10、北、上海挑出来不进行聚类,对其他的聚类之后再把这三个地区放进去判别):图-11表-9标准化的典型判别式函数系数函数12法人企业(个) -.462.536年末从业人数(人)1.321-2.325营业额(亿元).0812.070标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,通过表-9可以得到标准化的典型判别函数,要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。表-10典型判别式函数系数函数12法人企业(个) -.003.004年末从业人数(人).000.000营业额(亿元).003.074(常量)-3.7051.496非标准化系数表-10是未标准化的典型判别

11、函数系数,由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。由此表可知,两个Fisher判别函数分别为:,。表-11分类函数系数案例的类别号123法人企业(个) -.025.000-.015年末从业人数(人).001.000.001营业额(亿元)-.010-.058-.165(常量)-44.712-2.601-12.662Fisher 的线性判别式函数如表-11所示,案例的类别号栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中,各类的Bayes判别函数如下:,。将各地区的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个

12、函数值,哪个函数值比较大就可以判断该样品判入哪一类。表-12分类结果a案例的类别号预测组成员合计123初始计数1400420120123001212未分组的案例2013%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0未分组的案例66.7.033.3100.0a. 已对初始分组案例中的 100.0% 个进行了正确分类。表-12为分类结果表,从中可以看出未分类的地区有两个应该分入第一类,有一个应该分入第三类。图-12由于保存了变量,在原数据中多出了几列。其中,变量dis-1存放判别样品所属组别的值,变量dis1-1,dis2-1分别代表将地区各变量值代入

13、第一个,第二个判别函数所得的判别分数,变量dis1-2、dis2-2,dis3-2分别代表地区分别属于第1类、第2类,第3类的Bayes后验概率值。结果表明,广东、河北、上海应分别放入第一类、第三类和第一类。结论:参考文献:方开泰,潘恩沛 聚类分析 地质出版社M肯德尔【英】 多元分析 科学出版社于秀林,任雪松 多元统计分析 中国统计出版社中国统计年鉴 2010附录18-4 各地区限额以上住宿业企业基本情况和经营情况(2010年)地 区法人企业(个)年末从业人数营业额(人)(亿元)#客房收入#餐费收入 全 国1571321081792797.81309.81143.9 北 京1240162596

14、304.2149.791.2 天 津2222413333.315.812.1 河 北4756867964.925.732.7 山 西3885868652.822.424.3 内蒙古3333811840.919.118.6 辽 宁5235863785.440.236.7 吉 林2292335027.111.712.9 黑龙江2422609828.415.210.9 上 海57787962220.4126.565.6 江 苏906123186186.276.490.3 浙 江1158165091258.6107.6126.6 安 徽4285084254.723.725.0 福 建521766519

15、4.238.944.4 江 西3804187442.322.415.9 山 东997121488164.965.780.9 河 南9229436498.744.742.4 湖 北5276002263.733.024.2 湖 南67187989104.949.645.7 广 东1618302021398.0179.9163.1 广 西3894957647.223.018.8 海 南3115608876.747.722.9 重 庆2793987151.321.423.2 四 川6547909493.647.834.6 贵 州2342328920.511.77.4 云 南4235223350.627

16、.215.4 西 藏4042023.92.31.0 陕 西5046785469.531.631.4 甘 肃1932353319.29.87.6 青 海5667175.43.11.8 宁 夏5263515.72.72.3 新 疆2212758430.913.514.0主要统计指标解释:住宿业:指有偿为顾客提供临时住宿的服务活动。不包括提供长期住宿场所的活动,如出租房屋、公寓等(列入房地产开发经营)。营业额:指住宿和餐饮业法人企业(单位)在经营活动中因提供服务或销售商品等取得的收入。包括:客房收入、餐费收入、商品销售额和其他收入。其中,客房收入指住宿和餐饮业法人企业(单位)在经营活动中因提供住宿服务取得的收入。餐费收入指住宿和餐饮业法人企业(单位)因为顾客提供就餐服务取得的收入,包括经烹饪、调制加工后出售的各种食品,如主食、炒菜、凉拌菜等的收入。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1