ImageVerifierCode 换一换
格式:DOCX , 页数:21 ,大小:168.84KB ,
资源ID:8158834      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8158834.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(回归分析在实际案例中的应用教材.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

回归分析在实际案例中的应用教材.docx

1、回归分析在实际案例中的应用教材重 庆 交 通 大 学现代测量数据学生课题论文课 题 名 称:回归分析在实际案例中的应用指 导 老 师:刘 国 栋学 院 :土木工程学院年级专业班 :2013级测绘工程一班学 生 姓 名:陈 涛学 生 学 号:631301040116课题学习时间:2015年11月目录1、引言 32、分类及要点说明 42.1、分类 42.2、要点说明 43、回归分析模型及步骤 53.1、回归模型 53.2、回归分析步骤 64、一元线性回归案例分析 64.1、案例叙述 64.2、数据输入与分析 64.3、解算方法 74.3.1、手动解算 74.3.2、矩阵的MATLAB解算 84.3

2、.3、多项式法解算 94.4、模型参数的显著性检验 104.5、模型检验 104.6、利用回归方程进行预测和预报控制 135、多元线性回归案例分析 145.1、案例叙述 145.2、数据输入与分析 155.3、解算方法 175.4、模型参数的显著性检验 185.5、模型检验 195.6、利用回归方程进行预测和预报控制 206、结论 20参 考 文 献 21回归分析在实际案例中的应用陈涛1(1. 重庆交通大学土木工程学院,重庆400074;)摘要数学是一门很重要的学科,许多的数学家研究出了各种定理、公式以及规律方法,并且都证明了它的正确性,应用这些定理公式及规律方法解决了许多疑难问题,回归分析就

3、是其中之一。回归分析是数学分析中的一个重要方法,这种方法可以从对大量数据的处理中得到函数规律从而建立数学模型,它在解决数据分析中的问题时应用广泛、灵活,是解决数据处理问题的一个强有力的工具;另外在解决一些大数据问题或者计算量较大的问题时,借助于一些辅助的数据处理软件会显得简单快捷的多,在这个大数据时代很多问题也必须借助于这些软件进行处理,这已经成为一种常态化,MATLAB就是这样的一种软件。MATLAB可以通过编程实现几乎所有的数据处理问题,他强大的数据处理能力使得一些人工不能解算的大数据处理问题得以实现;本文将结合实际的案例利用MATLAB软件向大家介绍如何运用回归分析解决实际的问题。关键词

4、:回归分析,一元回归,多元回归,MATLAB解算1、引言 回归分析就是指利用数据统计原理,对大量统计数据进行数学处理,“加以去粗取精、去伪存真、由此及彼、由表及里的改造制作工夫”,从而得出反映事物内部规律性的东西。并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的数理统计分析分析方法。现实世界中变量之间的关系可以分成两类,一类是确定关系,即我们常说的函数关系,这种关系可以使用函数来进行分析和描述;另一类是不确定关系,即我们常说的相关关系,如我们即将研究的大坝库水位和大坝沉陷量之间的关系和 中国税收收入与“国内生产总值(GDP

5、)”、“财政支出”、“商品零售物价指数”之间的关系。2、分类及要点说明2.1、分类1、根据因变量和自变量的个数来分类:一元回归分析;多元回归分析;2、根据因变量和自变量的函数表达式来分类:线性回归分析;非线性回归分析;2.2、要点说明1、 通常情况下,线性回归分析是回归分析法中最基本的方法,当遇到非线性回归分析时,可以借助数学手段将其化为线性回归;因此,主要研究线性回归问题,一点线性回归问题得到解决,非线性回归也就迎刃而解了,例如,取对数使得乘法变成加法等;当然,有些非线性回归也可以直接进行,如多项式回归等;2、在社会经济现象中,很难确定因变量和自变量之间的关系,它们大多是随机性的,只有通过大

6、量统计观察才能找出其中的规律。随机分析是利用统计学原理来描述随机变量相关关系的一种方法;3、由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。信息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。当然,还可以对回归方程进行有效控制;4、相关关系可以分为确定关系和不确定关系。但是不论是确定关系或者不确定关系,只要有相关关系,都可以选择一适当的数学关系式,用以说明一个或几个变量变动时,另一变量或几个变量平均变动的情况。3、回归分析模型及步骤3.1、回归模型1、确

7、定变量之间是否存在相关关系,若存在,则找出数学表达式;2、根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度。3.2、回归分析步骤1、根据自变量与因变量的现有数据以及关系,初步设定回归方程;2、求出合理的回归系数;3、进行相关性检验,确定相关系数;4、在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间;4、一元线性回归案例分析4.1、案例叙述 根据已知数据求出表示大坝库水位和大坝沉陷量之间的一元线性回归方程。已知数据:编号库水位(m)沉陷量(mm)编号)库水位(m)沉陷量(mm)1102.714

8、 -1.96 7135.046 -5.46 295.154 -1.88 8140.373 -5.69 3114.364 -3.96 9144.958 -3.94 4120.170 -3.31 10141.011 -5.82 5126.630 -4.94 11130.308 -4.18 6129.393 -5.69 12121.234 -2.90 4.2、数据输入与分析设库水位为x,沉陷量y,将以上数据输入MATLAB中进行分析,利用matlab软件可以得到y关于x的散点图如图1所示:由于提取的数据包含有其它各方面的影响因素,综合考虑其它因素的影响可以看y和x成线性相关关系,可以设库水位x与y为

9、一元回归线性模型:4.3、解算方法4.3.1、手动解算解:计算、的值: 故回归方程为:4.3.2、矩阵的MATLAB解算在matlab中输入编码如下:x=102.714 95.154 114.364 120.170 126.630 129.393 135.046 140.373 144.958 141.011;%输入x的数据y=-1.96 -1.88 -3.96 -3.31 -4.94 -5.69 -5.46 -5.69 -3.94 -5.82;%输入y的数据X=sum(x)/10;%求x数据的平均值 Y=sum(y)/10; %求y数据的平均值A=ones(1,10)*X; %构建一个1行1

10、0列值为X的矩阵B=ones(1,10)*Y; %构建一个1行10列值为Y的矩阵Sx=x-A; %矩阵减法Sy=y-B; %矩阵减法Sxx=sum(Sx.*Sx); %对矩阵Sx中的值先平方再求和Sxy=sum(Sx.*Sy); %矩阵Sx中的值与矩阵Sxy中的值先相乘再求和P1=Sxy/Sxx;P0=Y-X*P1;结果输出:P1=Sxy/SxxP1 = -0.0749P0=Y-X*P1P0 =5.0967故回归模型为: 4.3.3、多项式法解算在matlab中输入程序编码利用多项式解求参数:x=102.714 95.154 114.364 120.170 126.630 129.393 13

11、5.046 140.373 144.958 141.011; %输入x的数据y=-1.96 -1.88 -3.96 -3.31 -4.94 -5.69 -5.46 -5.69 -3.94 -5.82; %输入y的数据P,S=polyfit(x,y,1); % 确定多项式系数的MATLAB命令结果输出:P = -0.0749 5.0967故回归模型为: 4.4、模型参数的显著性检验在matlab中输入以下的编码:X=ones(10,1),x;%构建10行2列矩阵X,第一列值都为1,第二列为x的转置b,bint,r,rint,s=regress(y,X); % 计算y,X相关系数,分析其相关程度,

12、以0.05的显著性水平检验相关系数的显著性 s2=sum(r.2)/8; % r中值的平方求和除8 b,bint 结果输出:b = 5.0967 -0.0749bint = 0.0046 10.1887 -0.1153 -0.0345参数b1=5.0967、b2=-0.0749均在其置信区间0.0046,10.1887, -0.1153,-0.0345内,所以模型参数满足要求。4.5、模型检验同样在MATLAB中可以得到残差数据如图2所示:s = 0.6954 18.2659 0.0027 0.7795s2 = 0.7795由这些数据可知:=0.6954,F=18.2659,p=0.0027,

13、=0.7795;此处p=0.00270.05,基本符合要求,模型有效;同时在matlab中输入编码rcoplot(r,rint)得到模型的残差分布图1,由图知第九组数据存在问题:将第九组数据剔除,取一到八组和十、十一组数据重新计算得到以下模型和数据:bint = 3.6458 10.3979 -0.1187 -0.0644 模型参数满足要求;s = 0.8833 60.5277 0.0001 0.2973s2 = 0.2973=0.8833,F=60.5277,p=0.0001, =0.2973;p=0.00010.05满足要求,模型有效;去除异常点的残差分布如图3所示:此时残差图显示所有数据

14、都满足要求,模型比剔除异常点前的模型更好;此处我们将最后一组数据带入发现结果差别较大,因此最后一组数据应该也属于异常点。在剔除两个异常点后我们可以再画y关于x的散点图如图4所示:通过对比会发现剔除异常点后的散点图更能体现库水位和沉陷量之间的线性关系,所以最终的回归模型为:4.6、利用回归方程进行预测和预报控制 通过得到的回归模型可知,要使得大坝在理论上的沉陷量为零,大坝的库水位应该为x=7.0218/0.0916=76.66m,虽然在现实生活中不一定能够达到这样的要求,这个数据也不一定就是实际上使得大坝的沉陷为零的库水位值,但是至少也是理论上的一个与实际真值相差最小的值,能够为大坝管理人员提供

15、了一个用于评估和研究的理论数据。5、多元线性回归案例分析5.1、案例叙述 为了反映中国税收增长的全貌,选择包括中央和地方税收的国家财政收入中的“各项税收”(简称“税收收入”)作为被解释变量,以放映国家税收的增长;选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数”。从中国统计年鉴收集到以下数据:年份财政收入(亿元)国内生产总

16、值(亿元)财政支出(亿元)商品零售价格指数(%)YX1X2X31978519.283624.11122.09100.71979537.824038.21281.791021980571.74517.81228.831061981629.894862.41138.41102.41982700.025294.71229.98101.91983775.595934.51409.52101.51984947.3571711701.02102.819852040.798964.42004.25108.819862090.7310202.22204.9110619872140.3611962.52262.

17、18107.319882390.4714928.32491.21118.519892727.416909.22823.78117.819902821.8618547.93083.59102.119912990.1721617.83386.62102.919923296.9126638.13742.2105.419934255.334636.44642.3113.219945126.8846759.45792.62121.719956038.0458478.16823.72114.819966909.8267884.67937.55106.119978234.0474462.69233.5610

18、0.819989262.878345.210798.1897.4199910682.5882067.513187.6797200012581.5189468.115886.598.5200115301.3897314.818902.5899.2200217636.45104790.622053.1598.75.2、数据输入与分析按表中数据将y,x1,x2,x3输入MATLAB中进行分析,得到以下的散点图: 对图形分析可以设为多元回归模型: 5.3、解算方法在MATLAB中利用矩阵编写程序代码进行解算,程序编码如下:format long%设置浮点型的输出格式y=519.28537.82571.

19、7629.89700.02775.59947.352040.792090.732140.362390.472727.42821.862990.173296.914255.35126.886038.046909.828234.049262.810682.5812581.5115301.3817636.45;%y的数据X1=3624.14038.24517.84862.45294.75934.571718964.410202.211962.514928.316909.218547.921617.826638.134636.446759.458478.167884.674462.678345.282

20、067.589468.197314.8104790.6; %X1的数据X2=1122.091281.791228.831138.411229.981409.521701.022004.252204.912262.182491.212823.783083.593386.623742.24642.35792.626823.727937.559233.5610798.1813187.6715886.518902.5822053.15; %X2的数据X3=100.7102106102.4101.9101.5102.8108.8106107.3118.5117.8102.1102.9105.4113.2

21、121.7114.8106.1100.897.49798.599.298.7; %X3的数据n=25; ;m=3;X=ones(n,1),x1,x2,x3; %构造n行4列矩阵X,第一列为1,第二列为X1转置b,bint,r,rint,s=regress(y,X); %计算y,X相关系数,分析其相关程度,以0.05的显著性水平检验相关系数的显著性s2=sum(r.2)/(n-m-1); % r中值的平方求和除(n-m-1) b,bint,s,结果输出:b = 1.0e+03 * -2.582755482904195 0.000022067154277 0.000702104075794.023

22、*故所求模型为:5.4、模型参数的显著性检验 在解算的同时可以求出以下参数:bint = 1.0e+03 * -4.538864982100863 -0.626645983707528 0.000010468615698 0.000033665692856 0.000632985821410 0.000771222330178 0.005812781056010 0.042157343522140由于b = 1.0e+03 * -2.582755482904195 0.000022067154277 0.000702104075794.023*b1,,b2,b3,b4都在其置信区间-4538.

23、864982100863,-626.645983707528, .010*,0.033665692856, 0.632985821410,0.771222330178,5.812781056010,42.157343522140内,所以模型参数满足要求;5.5、模型检验同样在MATLAB中可以得到以下的残差数据: s = 1.0e+04 * 0.000099743048911 0.271725387862814 0.000000000000000 6.967443168409442s2 = 6.967443168409445e+04=0.99743,F=2717.2538786,p=0.000

24、,=69674.43168;此处p0.05;输入rcoplot(r,rint)代码可得残差分布如图8所示:由图可知残差在零点上下分布均匀且相隔不远、没有异常点,所以模型检验合格、有效。5.6、利用回归方程进行预测和预报控制根据求出来的回归模型可知,财政收入总体的趋势是处于上涨趋势,这是非常积极的;另一方面,影响财政收入的最主要原因是商品零售价格指数,政府应该在这方面引起重视,国内生产总值对财政收入的影响比较小,财政支出的影响也相对适中。6、结论从这两个案例我们知道回归分析能够通过给定的变量之间的对应数据求出变量之间的相关关系,并将这种相关关系通过函数模型表现出来,使研究者可以跳过繁杂的数据看到

25、变量间最本质的联系;通过案例二我们也应该得到一些启发:在多元模型中并不是线性相关性最大的自变量对因变量的影响最大,从最终的函数模型和开始的散点图对应来看是这样的;但同时我也产生了很多的疑问,比如在第一个案例中存在异常值,在取前十组数据时、通过残差图知道第九组数据是异常数据,在排除这个值后将最后一组数据代入得到的函数模型发现结果与实际的结果差别很大,在此我作出的决定是认为该组数据仍然是异常数据,而实际上真的就是如此吗?有没有可能删除的异常点才是真正能反应实际情况的数据,而留下的那十组中的更多的点才是异常点呢?我想如果将这些数据放在一百组中可能就有答案了吧,因为从大坝库水位和大坝沉陷量之间的散点图

26、来看实在是不能非常直观的看出如案例二中y与x2那样的线性关系。参 考 文 献1 胡晓东,董辰辉. MATLAB从入门到精通M.人民邮电出版社:2010 Xiao-dong hu, Dong Chen fai. MATLAB from entry to master M. Peoples posts and telecommunications publishing house, 2010 2 何晓群,刘文卿.应用回归分析(第三版)M.北京:中国人民大学出版社,2011Xiao-qun he, wen-ching liou. Application of regression analysis

27、(third edition) M. Beijing: China renmin university press, 2011 3 XX文库.网址:Baidu library. Web site: abstractmathematics is a very important subject, many mathematicians developed various theorem, formula and rule method, and prove its correctness, the theorem formula and rule method is applied to sol

28、ve many problems, regression analysis is one of them. Regression analysis is an important method in mathematical analysis, this method can be from of a mass of data processing function to establish mathematical model, it has been widely applied in solving problems in data analysis, flexible, is a powerful tool to solve the problem of data processing. To solve the problem of big data or a large amount of calculation, by means of some auxiliary data processing software is simple and fast, a lot of problems in this era of big data also must use the software for pr

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1