数据挖掘与分析期中课程论文张翠.docx

上传人:b****5 文档编号:7714880 上传时间:2023-01-25 格式:DOCX 页数:14 大小:71.12KB
下载 相关 举报
数据挖掘与分析期中课程论文张翠.docx_第1页
第1页 / 共14页
数据挖掘与分析期中课程论文张翠.docx_第2页
第2页 / 共14页
数据挖掘与分析期中课程论文张翠.docx_第3页
第3页 / 共14页
数据挖掘与分析期中课程论文张翠.docx_第4页
第4页 / 共14页
数据挖掘与分析期中课程论文张翠.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

数据挖掘与分析期中课程论文张翠.docx

《数据挖掘与分析期中课程论文张翠.docx》由会员分享,可在线阅读,更多相关《数据挖掘与分析期中课程论文张翠.docx(14页珍藏版)》请在冰豆网上搜索。

数据挖掘与分析期中课程论文张翠.docx

数据挖掘与分析期中课程论文张翠

数据挖掘与分析期中课程论文

 

社会消费品零售总额与城镇居

民家庭人均可支配收入分析报告

学生姓名

张翠

学生学号

136********799

专业

经济统计学

班级

统本统计1301班

提交日期

二〇一六年五月

社会消费品零售总额与城镇居民家庭人均可支配收入分析报告

摘要:

本文运用了回归分析和因子分析对社会消费品零售总额与城镇居民家庭人均可支配收入进行了分析,通过回归分析得到社会消费品零售总额与城镇居民家庭人均可支配收入的回归方程,再利用因子分析对社会消费品零售总额与城镇居民家庭人均可支配收入检验变量间的关系。

关键词:

社会消费品零售总额、城镇居民家庭人均可支配收入、回归分析、因子分析

1.数据

年份

社会消费品零售总额(亿元)

城镇居民家庭人均可支配收入(元)

1995

23613.8

4283

1996

28360.2

4838.9

1997

31252.9

5160.3

1998

33378.1

5425.1

1999

35647.9

5854

2000

39105.7

6280

2001

43055.4

6859.6

2002

48135.9

7702.8

2003

52516.3

8472.2

2004

59501

9421.6

2005

68352.6

10493

2006

79145.2

11759.5

2007

93571.6

13785.8

2008

114830.1

15780.8

2009

132678.4

17174.7

2010

156998.4

19109.4

2011

183918.6

21809.8

2012

210307

24564.7

数据来源:

国家统计年鉴

2.回归分析

2.1回归分析概述

2.1.1定义

回归分析是应用极其广泛的数据分析方法之一。

它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。

方差齐性、线性关系、效应累加、变量无测量误差、变量服从多元正态分布、观察独立。

模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)

误差项独立且服从(0,1)正态分布。

现实数据常常不能完全符合上述假定。

因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。

研究一个或多个随机变量Y1,Y2,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法,又称多重回归分析。

通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。

回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。

最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ^2与X的值无关。

若进一步假定随机误差遵从正态分布,就叫做正态线性模型。

一般的情形,它有k个自变量和一个因变量,因变量的值可以分解为两部分:

一部分是由于自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。

当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。

当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

2.1.2回归分析的主要内容为:

①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。

估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验。

③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一生产过程进行预测或控制。

回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

在回归分析中,把变量分为两类。

一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。

回归分析研究的主要问题是:

(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;

(2)对求得的回归方程的可信度进行检验;

(3)判断自变量X对因变量Y有无影响;

(4)利用所求得的回归方程进行预测和控制。

2.1.3回归分析应用

相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。

而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。

比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。

一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

2.1.4步骤

(1)回归分析确定变量

明确预测的具体目标,也就确定了因变量。

如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。

通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

(2)回归分析建立预测模型

依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。

(3)回归分析进行相关分析

回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。

只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义。

因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。

进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。

(4)回归分析计算预测误差

回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。

回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。

(5)回归分析确定预测值

利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。

2.1.5回归分析注意问题

应用回归预测法时应首先确定变量之间是否存在相关关系。

如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。

正确应用回归分析预测时应注意:

①用定性分析判断现象之间的依存关系;

②避免回归预测的任意外推;

③应用合适的数据资料;

2.2运用R软件

>getwd()

[1]"C:

/Users/asus1/Desktop/张翠"

>zc<-read.table(file="2.txt",header=T)

>zc

年份社会消费品零售总额.亿元.城镇居民家庭人均可支配收入.元.

1199523613.84283.0

2199628360.24838.9

3199731252.95160.3

4199833378.15425.1

5199935647.95854.0

6200039105.76280.0

7200143055.46859.6

8200248135.97702.8

9200352516.38472.2

10200459501.09421.6

11200568352.610493.0

12200679145.211759.5

13200793571.613785.8

142008114830.115780.8

152009132678.417174.7

162010156998.419109.4

172011183918.621809.8

182012210307.024564.7

>zc<-na.omit(zc)

>(xgzc<-cor(zc[,c(2,3)],use="everything",method="pearson"))

社会消费品零售总额.亿元.

社会消费品零售总额.亿元.1.0000000

城镇居民家庭人均可支配收入.元.0.9949081

城镇居民家庭人均可支配收入.元.

社会消费品零售总额.亿元.0.9949081

城镇居民家庭人均可支配收入.元.1.0000000

>sdt<-plot(zc$社会消费品零售总额.亿元.~zc$城镇居民家庭人均可支配收入.元.)

>huigui<-lm(社会消费品零售总额.亿元.~城镇居民家庭人均可支配收入.元.,data=zc)

>huigui

Call:

lm(formula=社会消费品零售总额.亿元.~城镇居民家庭人均可支配收入.元.,

data=zc)

Coefficients:

(Intercept)城镇居民家庭人均可支配收入.元.

-20398.5019.063

>summary(huigui)

Call:

lm(formula=社会消费品零售总额.亿元.~城镇居民家庭人均可支配收入.元.,

data=zc)

Residuals:

Min1QMedian3QMax

-10974-5086193648148070

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-2.040e+042.896e+03-7.0442.77e-06***

城镇居民家庭人均可支配收入.元.9.063e+002.295e-0139.486<2e-16***

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

5942on16degreesoffreedom

MultipleR-squared:

0.9898,AdjustedR-squared:

0.9892

F-statistic:

1559on1and16DF,p-value:

<2.2e-16

>yc<-predict(huigui,zc)

>points(zc$城镇居民家庭人均可支配收入.元.,yc,pch=4,col=6)

>legend("bottomright",c("实际值","预测值"),pch=c(2,4),col=c(1,6))

>

2.2.1结果

,拟合优度较高。

P<0.05,拒绝原假设,接受备择假设,说明城镇居民家庭人均可支配收入对社会消费品零售总额有显著性影响。

3.因子分析

3.1因子分析概述

3.1.1概念

因子分析是指研究从变量群中提取共性因子的统计技术。

最早由英国心理学家C.E.斯皮尔曼提出。

他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。

因子分析可在许多变量中找出隐藏的具有代表性的因子。

将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

3.1.2主成分分析

主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用他来分析数据,让自己对数据有一个大致的了解,这是非常有必要的。

主成分分析一般很少单独使用:

a、了解数据。

(screeningthedata),b、和clusteranalysis(聚类分析)一起使用,c、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量简化(reducedimensionality),d、在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。

2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。

3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。

因子分析的假设包括:

各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。

4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。

5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。

在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。

和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。

大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。

而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。

当然,这种情况也可以使用因子得分做到。

所以这种区分不是绝对的。

在算法上,主成分分析和因子分析很类似,不过在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。

3.1.3模型

因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。

对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

因子分析模型描述如下:

⑴X=(x1,x2,…,xp)¢是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。

⑵F=(F1,F2,…,Fm)¢(m

⑶e=(e1,e2,…,ep)¢与F相互独立,且E(e)=0,e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:

x1=a11F1+a12F2+…+a1mFm+e1

x2=a21F1+a22F2+…+a2mFm+e2

………

xp=ap1F1+ap2F2+…+apmFm+ep

称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。

其矩阵形式为:

x=AF+e.

其中:

x=,A=,F=,e=

这里,

⑴m£p;

⑵Cov(F,e)=0,即F和e是不相关的;

⑶D(F)=Im,即F1,F2,…,Fm不相关且方差均为1;

D(e)=,即e1,e2,…,ep不相关,且方差不同。

我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。

A=(aij),aij为因子载荷。

数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。

3.1.4分析步骤

编辑

因子分析的核心问题有两个:

一是如何构造因子变量;二是如何对因子变量进行命名解释。

因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

(i)因子分析常常有以下四个基本步骤:

⑴确认待分析的原变量是否适合作因子分析。

⑵构造因子变量。

⑶利用旋转方法使因子变量更具有可解释性。

⑷计算因子变量得分。

(ii)因子分析的计算过程:

⑴将原始数据标准化,以消除变量间在数量级和量纲上的不同。

⑵求标准化数据的相关矩阵;

⑶求相关矩阵的特征值和特征向量;

⑷计算方差贡献率与累积方差贡献率;

⑸确定因子:

设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;

⑹因子旋转:

若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。

⑺用原指标的线性组合来求各因子得分:

采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。

⑻综合得分

以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。

F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)

此处wi为旋转前或旋转后因子的方差贡献率。

⑼得分排序:

利用综合得分可以得到得分名次。

在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:

·简化系统结构,探讨系统内核。

可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。

“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。

·构造预测模型,进行预报控制。

在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。

在多元分析中,用于预报控制的模型有两大类。

一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。

另一类是描述性模型,通常采用聚类分析的建模技术。

·进行数值分类,构造分类模式。

在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。

以便找出它们之间的联系和内在规律性。

过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。

进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。

如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。

对一个问题可以综合运用多种统计方法进行分析。

例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。

3.2运用R软件进行因子分析

getwd()

[1]"C:

/Users/asus1/Desktop/张翠"

>zc<-read.table(file="2.txt",header=T)

>zc

年份社会消费品零售总额.亿元.城镇居民家庭人均可支配收入.元.

1199523613.84283.0

2199628360.24838.9

3199731252.95160.3

4199833378.15425.1

5199935647.95854.0

6200039105.76280.0

7200143055.46859.6

8200248135.97702.8

9200352516.38472.2

10200459501.09421.6

11200568352.610493.0

12200679145.211759.5

13200793571.613785.8

142008114830.115780.8

152009132678.417174.7

162010156998.419109.4

172011183918.621809.8

182012210307.024564.7

>RMatrix<-cor(zc)

>RMatrix

年份社会消费品零售总额.亿元.

年份1.00000000.9224719

社会消费品零售总额.亿元.0.92247191.0000000

城镇居民家庭人均可支配收入.元.0.95267940.9949081

城镇居民家庭人均可支配收入.元.

年份0.9526794

社会消费品零售总额.亿元.0.9949081

城镇居民家庭人均可支配收入.元.1.0000000

>Result<-eigen(RMatrix)

>Result

$values

[1]2.9136817470.0851262870.001191965

$vectors

[,1][,2][,3]

[1,]-0.56954880.8023764-0.1783430

[2,]-0.5782467-0.5453343-0.6068289

[3,]-0.5841618-0.24249250.7745660

>plot(Result$values,type="b",ylab="特征值(主成分方差)",xlab="特征值编号(主成分编号)")

U<-as.matrix(Result$vectors[,1:

2])

>U

[,1][,2]

[1,]-0.56954880.8023764

[2,]-0.5782467-0.5453343

[3,]-0.5841618-0.2424925

>plot(Y,xlab="第一主成分",ylab="第二主成分",main="基于主成分的观测样本")

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 判决书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1