回归分析理论Word文档下载推荐.docx
《回归分析理论Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《回归分析理论Word文档下载推荐.docx(7页珍藏版)》请在冰豆网上搜索。
与F对应的概率p<
α时拒绝H0
⑤alpha表示显著性水平(缺省时为0.05)
3、rcoplot(r,rint)画出残差及其置信区间
4、实例演示,函数使用说明
(1)输入数据
(2)回归分析及检验
运行结果解读如下
参数回归结果为
,对应的置信区间分别为[-33.7017,1.5612]和[0.6047,0.834]
r2=0.9282(越接近于1,回归效果越显著),F=180.9531,p=0.0000,由p<
0.05,可知回归模型y=-16.073+0.7194x成立
(3)残差分析作残差图
从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点。
(4)预测及作图
二、一元多项式回归
1、一元多项式回归函数
(1)[p,S]=polyfit(x,y,m)确定多项式系数的MATLAB命令
说明:
x=(x1,x2,…,xn),y=(y1,y2,…,yn);
p=(a1,a2,…,am+1)是多项式y=a1xm+a2xm-1+…+amx+am+1的系数;
S是一个矩阵,用来估计预测误差
(2)polytool(x,y,m)调用多项式回归GUI界面,参数意义同polyfit
2、预测和预测误差估计
(1)Y=polyval(p,x)求polyfit所得的回归多项式在x处的预测值Y
(2)[Y,DELTA]=polyconf(p,x,S,alpha)求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-alpha的置信区间Y±
DELTA,alpha缺省时为0.5
3、实例演示说明
观测物体降落的距离s与时间t的关系,得到数据如下表,求s的表达式(即回归方程s=a+bt+ct2)
t(s)1/302/303/304/305/306/307/30
s(cm)11.8615.6720.6026.6933.7141.9351.13
t(s)8/309/3010/3011/3012/3013/3014/30
s(cm)61.4972.9085.4499.08113.77129.54146.48
解法一:
直接作二次多项式回归
故回归模型为
解法二:
化为多元线性回归
故回归模型为:
预测及作图
三、多元二项式回归
1、多元二项式回归Matlab命令
rstool(x,y,'
model'
alpha)
输入参数说明:
x:
n*m矩阵;
Y:
n维列向量;
alpha:
显著性水平(缺省时为0.05);
mode:
由下列4个模型中选择1个(用字符串
2、实例演示说明
设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量
需求量10075807050659010011060
收入10006001200500300400130011001300300
价格5766875439
选择纯二次模型
在x1对应的文本框中输入1000,X2中输入6,敲回车键,此时图形和相关数据会自动更新
此时在GUI左边的“PredictedY1”下方的数据变为88.47981,表示平均收入为1000、价格为6时商品需求量为88.4791
点击左下角的Export按钮,将会导出回归的相关参数beta、rmse和residuals到工作空间(workspace)
在Export按钮下面可以选择回归类型
在Matlab命令窗口中输入
将得到如下结果
将上面饿模型转换为多元线性回归
1.1.2求数字特征
例2已知50个数据x=[451.4243.89527.185312.6912.863383.97683.1292.84235.338612.4608.5415.7616.355190.07586.9257.581367.57631.45717.63692.6784.079454.36441.83353.25153.61675.64699.21727.51478.38554.84121.05450.75715.88892.84273.1254.77865.6232.35804.87908.4231.89239.3149.75478.384640.82190.89843.87173.9170.79994.3],计算其数字特征。
输入数据,利用下列提供的函数可以求得各数字特征。
min(x):
向量x的元素的最小值
max(x):
向量x的元素的最大值
mean(x):
向量x的元素的算术平均值
geomean(x):
向量x的元素的几何平均值
(n个正数的连乘积的n次算术根叫做这n个数的几何平均数)
median(x):
向量x的元素的中位数
var(x):
向量x的元素的方差
std(x):
向量x的元素的标准差
diff(x):
向量x的相邻元素的差
sort(x):
对向量x的元素进行排序(Sorting)
length(x):
向量x的元素个数
sum(x):
向量x的元素总和
prod(x):
向量x的元素总乘积
原理
表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释.
相关系数(coefficientofcorrelation)的平方即为决定系数。
它与相关系数的区别在于除掉|R|=0和1情况,
由于R2<
R,可以防止对相关系数所表示的相关做夸张的解释。
决定系数:
在Y的总平方和中,由X引起的平方和所占的比例,记为R2(R的平方)
决定系数的大小决定了相关的密切程度。
当R2越接近1时,表示相关的方程式参考价值越高;
相反,越接近0时,表示参考价值越低。
这是在一元回归分析中的情况。
但从本质上说决定系数和回归系数没有关系,就像标准差和标准误差在本质上没有关系一样。
在多元回归分析中,决定系数是通径系数的平方。
表达式:
R^2=SSR/SST=1-SSE/SST
其中:
SST=SSR+SSE,SST(sumofsquaresfortotal)为总平方和,SSReg(sumofsquaresforregression为回归平方和,SSE(sumofsquaresforerror)为残差平方和。
注:
(不同书命名不同)
回归平方和:
SSR(SumofSquaresforregression)=ESS(explainedsumofsquares)
残差平方和:
SSE(SumofSquaresforError)=RSS(residualsumofsquares)
总离差平方和:
SST(SumofSquaresfortotal)=TSS(totalsumofsquares)
SSE+SSR=SSTRSS+ESS=TSS
意义:
拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。
观察点在回归直线附近越密集。
取值范围:
0-1.
作用
编辑
判定系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中单个解释变量的影响程度。
对时间序列数据,判定系数达到0.9以上是很平常的;
但是,对截面数据而言,能够有0.5就不错了。
用例
判定系数达到多少为宜?
没有一个统一的明确界限值;
若建模的目的是预测因变量值,一般需考虑有较高的判定系数。
若建模的目的是结构分析,就不能只追求高的判定系数,而是要得到总体回归系数的可信任的估计量。
判定系数高并不一定每个回归系数都可信任。