调整气象观测站问题论文.doc
《调整气象观测站问题论文.doc》由会员分享,可在线阅读,更多相关《调整气象观测站问题论文.doc(14页珍藏版)》请在冰豆网上搜索。
![调整气象观测站问题论文.doc](https://file1.bdocx.com/fileroot1/2022-10/3/53d136f3-07ec-4542-a8e7-79a29ce26849/53d136f3-07ec-4542-a8e7-79a29ce268491.gif)
数学建模承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B中选择一项填写):
B
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
电子科技大学中山学院
参赛队员(打印并签名):
1.
2.
3.
指导教师或指导教师组负责人(打印并签名):
日期:
2010年7月24日
赛区评阅编号(由赛区组委会评阅前进行编号):
全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
调整气象观测站问题
摘要
某市为了节省开支,想要适当减少气象观测站,使得既可以节省开支,又可以使得该市年降水量的信息损失最小。
我们根据30年来各观测站测得的年降水量数据,通过统计分析,得到最优结果。
问题一中,为了验证7、8号观测站只见是否具有相关关系,我们建立线性回归模型,然后用最小二乘法来估计回归系数、的值,求得7、8号观测站的线性回归方程,最后根据讨论结果得到7号观测站可以减少且其年降水量信息可以从8号观测站测到的数据中获取。
问题二中,我们用模糊聚类分析求解,对所有数据建立原始数据矩阵,并对它进行标准化处理,运用夹角余弦法求出相似系数得到相似矩阵,然后运用传递闭包法求得结果,最后在matlab上进行求解。
问题三中,在问题一、二的基础上我们选出在理论上可以减少的观测站,分别求出减少该观测站并用其他观测站的数据代替该观测站的数据,计算出在减少前后该市每年的年降水量的差值,然后建立正态分布模型运用matlab得出预测误差的绝对值小于10mm和大于20mm的概率。
关键字:
最小二乘法模糊聚类分析夹角余弦法正态分布F检验法
一、问题重述
某市有10个县,每个县有一个气象观测站(位置如图),每个气象观测站测得的年降水量即为该县的年降水量。
30年来各观测站测得的年降水量如下表。
为了节省开支,想要适当减少气象观测站,问题是减少哪些观测站既可以节省开支,又可以使得该市年降水量的信息量损失较小。
1.有人认为第7个观测站和第8个观测站观测到的数据之间有相关关系,第7个观测站可以减少,第7个观测站的年降水量信息可以从第8个观测站观测到的数据中获取,试讨论之。
2.还有哪些观测站可以减少,减少的观测站的年降水量信息如何获取。
3.如果以10个县年降水量的平均值为该市年平均降水量。
在减少观测站以前,每个县年降水量都是观测数据。
在减少观测站以后,被减少的观测站的年降水量只能从其它观测站观测到的数据中获取。
减少观测站以前和减少观测站以后是用两种不同测量计算方法得到该市年平均降水量。
两种不同测量计算方法得到的该结果会有误差,试预测误差的绝对值小于10mm的概率是多少?
误差的绝对值大于20mm的概率是多少?
二、模型假设
1、该市的气候特征较稳定,不出现较大的自然灾害,30年的统计数据能够全面地反映该市的气候特征;
2、该市的气候不会因环境的变化而发生较大的变化;
3、不考虑其他地区对该地区的影响;
三、符号说明
——回归函数——回归变量,
——回归系数——回归系数
——第i年的随机测量误差 ——偏离真实直线的偏差平方和
——总离差平方和——残差平方和
——和的相似系数U——回归平方和
——第i处的降雨量——第j年的降雨量
——经过平移标准差变换后的值
——经过平移极差变换后的值
——的估计值——的估计值
——横坐标的平均值——纵坐标的平均值
——总体平均数——总体标准差
——残差的方差——剩余标准差
——第m年n号观测站的年降水量数据
四、模型的假设与求解
4.1问题一
对于问题一,我们验证7、8号观测站是否具有相关关系,于是我们建立线性回归模型进行验证,若7号观测站30年测得的数据与8号观测站测得的数据具有相关关系,则说明7号观测站的数据可以由8号观测站取代。
我们建立模型如下:
y=+x+
E=0,D=
其中,固定的未知参数、为回归系数,自变量x为回归变量。
现在我们对一式的两边同时取期望得到y对x的回归直线方程:
y=+x
然后用最小二乘法来估计回归系数、的值。
在我问题所给的数据中,我们得到30组独立观测值,使得它们满足上式的关系,即:
y=+x+
E=0,D=
其中,、…相互独立。
记===;
为偏离真实直线的偏差平方和,而在本文中最小二乘法就是选择、的估计、,使得:
=
然后对将上式分别对、求偏导数,即:
=-2
=-2
令上式为零,得到一个关于、、、的表达式。
用、取代、,即:
=0
=0
于是有:
解得:
将化简得:
=
其中:
;
;
;
;
求导得回归方程为:
将数据代入,根据matlab运行结果(见下图)得到第9和19组数据属于奇异数据,应当剔除,于是我们得到线性回归方程为:
y=61.4777+1.0233*x
在该回归方程中,是拟合直线的斜率,是拟合直线在x=处的截距,30个点(,)得几何重心(,)总在拟合直线上,对于每组(,)可以求出拟合值,以及残差-。
刚才我们求出来了线性回归方程,这只是我们对该数据做出的粗略判断,但实际上这些数据是否具有线性关系或者是显著的线性关系,则需要我们接下来的检验。
现在我们将采用F检验法对我们所求的回归方程进行检验。
我们知道对于y=+x+当越大y随x的变化越明显;反之,当越小,y随x的变化越不明显,特别的,当=0时,则认为y与x之间不存在线性关系。
当0时认为具有线性关系,因此,问题转化为对假设:
=0进行线性验证。
假设=0被拒绝,则认为y与x存在线性关系,该方程有意义。
令
=+U;
其中,为总离差平方和,为残差平方和,U=(-)
Q与U是相互独立的,再由F的分布的定义知,当成立时有
F=~F(1,n-2)
代入数据,
此时F>F(1,n-2),
根据F检验法知,当F>F(1,n-2)时,应当拒绝,所以,原回归方程是合法的,即7、8号观测站之间具有相关关系,说明可以减少第7号观测站,其信息由8号观测站获取。
4.2问题二
(2)对于第二问,我们采用模糊聚类分析求解。
首先我们建立一个原始数据矩阵:
…
…
..….
…
其中,n=10,m=30,
然后,我们对这些数据进行标准化处理。
(1)平移—标准差变换:
其中是第j个指标的平均值,
(2)平移—极差变换:
其中1≤k≤m,i=1…m,j=1…n
(3)确立相似矩阵R:
与的相似关系和=此时R=()
利用夹角余弦法求相似系数
此时,它的相似矩阵R=()
接下来我们要求的是R的传递闭包tR.RR=R,RR=R,…当RR=R时,则有tR=R.根据闭包tR计算分类水平lamda,再利用MATLAB求出不同水平下的分类方案,并求出最合理的分类方案。
MATLAB程序如见附录。
根据matlab运行结果可以把分为四类:
{x2,x3}、{x6,x7}、{x6,x8}、{x7,x8}
然后我们运用方差,求得各个观测站的方差:
观测站
10
4
2
3
9
方差
5808.356
6245.262
8472.249
9448.107
12636.52
观测站
1
8
6
7
5
方差
14274.06
14737.42
16135.4
16972.52
19338.6
根据上表可知,为了使该市的年降水量的信息损失最小,减少3、6、7号观测站,再用2号观测站的数据代替3号观测站的数据,用8号观测站的数据代替6、7号观测站的数据
4.3问题三
根据问题二的求解结果可以得到减少观测站前、后该市年降水量的理论差值,即误差,然后我们根据这些差值建立正态分布模型:
、分别表示总体平均数和标准差。
根据所建立的模型,运用问题二所得结论,在excel上求出所得数据,通过减少前和减少后的数据的比较作差,然后求其正态分布再在matlab上运行可得到误差的绝对值小于10mm和大于20mm的概率,它们分别为0.0677和0.5636。
程序及图见附录。
五、模型评价及推广
5.1模型评价
1、本文中我们建立线性回归模型,并用最小二乘法求解,在问题三中使用正态分布模型使得所得结果更有说服力,更加准确。
2、在问题二中,我们运用模糊聚类分析法,在求解中请我们运用夹角余弦法、传递闭包法,使得最后结果满足既节省开支,又可以使得该市年降水量的信息损失最小。
3、我们在模型假设时,没有考虑地理空间距离差异对气候的影响,所得结果与实际的测量值会有一定的差值。
4、本题所用模型的求解步骤较多,过程较复杂。
5.2模型推广
1、对所得结果用曲线图表示出来,使得结果更直观。
2、本题所建模型可以运用到城市规划、资源开发等方面。
3、在求解第二问时,我们减少