线性相关和回归Word文档下载推荐.docx

资源描述

线性相关和回归Word文档下载推荐.docx

《线性相关和回归Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《线性相关和回归Word文档下载推荐.docx（11页珍藏版）》请在冰豆网上搜索。

线性相关和回归Word文档下载推荐.docx

数据格式为

171.0

58.0

176.0

69.0

175.0

74.0

172.0

68.0

170.0

64.0

173.0

68.5

168.0

56.0

54.0

62.0

63.0

67.0

60.0

76.0

65.0

Stata命令pwcorr变量1变量2…变量m，sig

本例命令pwcorrxy,sig

pwcorrxy,sig

|xy

-------------+------------------

x|1.0000

y|0.59941.0000

|0.0182

Pearson相关系数=0.5994，P值=0.0182<

0.05，因此可以认为身高与体重呈正线性相关。

注意：

Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布，通常在检查中要求X服从正态分布并且Y服从正态分布。

如果不满足双正态分布时，可以计算Spearman相关系数又称为非参数相关系数。

Spearman相关系数的计算基本思想为：

用X和Y的秩代替它们的原始数据，然后代入Pearson相关系数的计算公式并且检验与Pearson相关系数类同。

Stata实现

spearmanxy

Numberofobs=15

Spearman'

srho=0.6552

TestofHo:

xandyareindependent

Prob>

|t|=0.0080

stata计算结果与手算的结果一致。

结论为身高与体重呈正相关，并且有统计学意义。

直线回归

例2为了研究3岁至8岁男孩身高与年龄的规律，在某地区在3岁至8岁男孩中随机抽样，共分6个年龄层抽样：

3岁，4岁，…，8岁，每个层抽10个男孩，共抽60个男孩。

资料如下：

60个男孩的身高资料如下

年龄

3岁

4岁

5岁

6岁

7岁

8岁

身

高

92.5

96.5

106.0

115.5

125.5

121.5

97.0

101.0

104.0

117.5

128.5

96.0

105.5

107.0

111.5

118.0

124.0

102.0

109.5

110.0

117.0

105.0

111.0

114.5

122.0

122.5

92.0

99.5

107.5

112.5

119.0

123.5

116.5

120.5

91.0

100.0

123.0

106.5

103.0

99.0

109.0

126.5

平均身高

95.4

101.8

107.6

113.1

120.6

由于男孩的身高与年龄有关系，不同的年龄组的平均身高是不同的，由平均身高与年龄作图可以发现：

年龄与平均身高的点在一条直线附近。

考虑到样本均数存在抽样误差，故有理由认为身高的总体均数与年龄的关系可能是一条直线关系，其中y表示身高，x表示年龄。

由于身高的总体均数与年龄有关，所以更正确地标记应为

表示在固定年龄情况下的身高总体均数。

上述公式称为直线回归方程。

其中为回归系数（regressioncoefficient），或称为斜率（slope）；

称为常数项（constant），或称为截距（intercept）。

回归系数表示x变化一个单位y平均变化个单位。

当x和y都是随机的，x、y间呈正相关时>

0，x、y间呈负相关时<

0，x、y间独立时=0。

一般情况而言，参数和是未知的。

对于本例而言，不同民族和不同地区，和往往是不同的，因此需要进行估计的。

由于不同年龄的身高实际观察值应在对应的身高总体均数附近（即：

实际观察值与总体均数之间仅存在个体变异的差异），故可以用年龄和实际身高观察值的资料对未知参数和进行估计。

得到样本估计的回归方程

二、直线回归方程的建立

直线回归分析的Stata实现：

数据结构：

101

102

105

100

106

104

107

111

103

109

110

118

117

122

119

124

123

多重线性回归命令为

regress因变量自变量1自变量2……自变量m

直线回归命令regress因变量自变量

本例为regressyx，得到下列结果：

Source|SSdfMSNumberofobs=60

-------------+------------------------------F（1,58）=777.41

Model|5997.7157115997.71571Prob>

F=0.0000

Residual|447.467619587.71495895R-squared=0.9306

-------------+------------------------------AdjR-squared=0.9294

Total|6445.1833359109.240395RootMSE=2.7776

------------------------------------------------------------------------------

y|Coef.Std.Err.tP>

|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

x|5.854286.209965427.880.0005.4339946.274577

_cons|78.184761.20920264.660.00075.7642880.60524

得到回归系数b=5.854286，常数项a=78.18746，回归系数的检验统计量tb=27.88，P值<

0.0001，可以认为Y与X呈直线回归关系。

来源

平方和SS

自由度df

均方MS

P值

回归

5997.71571

777.41

0.0001

残差

447.467619

7.71495895

合计

6445.18333

称为决定系数（本例Stata计算结果R-squared=0.9306），因此0R21，因此残差平方和SSE越小，决定系数R2就越接近1。

特别当所有的残差为0时，SSE=0，相应的决定系数R2=1。

决定系数R2表示y被x所解释的部分所占的百分比，R2越接近于1说明x对y的解释越充分。

残差=应变量观察值（y）-预测值（）

Stata的残差计算命令

在输入回归命令regressyx后，再

输入predicte,residual计算残差并用变量e表示残差

输入skteste残差的正态性检验

输入predictyy计算预测值。

残差正态性检验（H0:

残差正态分布,=0.05）

skteste

Skewness/KurtosistestsforNormality

-------joint------

Variable|Pr（Skewness）Pr（Kurtosis）adjchi2

（2）Prob>

chi2

-------------+-------------------------------------------------------

e|0.4590.4411.180.5534

P值=0.5534>

0.05，可以认为残差呈正态分布。

所建立的回归方程是否有意义，仅凭借假设检验的结论或R2的大小还不能充分说明问题。

残差的大小直接反应回归方程的优劣，经常采用图示的方法，以e做纵轴，为横轴作图来考察残差的变化，如果残差比较均匀地散布在e=0的周围，没有明显的散布趋势和明显的离群点，则说明所建回归方程比较理想，否则要借助统计软件做进一步诊断。

graph残差预测值

本例grapheyy

说明残差比较均匀地散布在e=0的周围，没有明显的散布趋势和明显的离群点，故说明所建回归方程比较理想。

展开阅读全文