数学建模复习资料学习.docx
《数学建模复习资料学习.docx》由会员分享,可在线阅读,更多相关《数学建模复习资料学习.docx(20页珍藏版)》请在冰豆网上搜索。
数学建模复习资料学习
关于2012数学建模的学习
1、数据收集
数据的间接来源:
如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据。
从搜集的范围看,这些数据可以取自系统外部,也可以取自系统内部。
数据取自系统外部的主要渠道有;统计部门和各级政府部门公布的有关资料,如定期发布的统计公报,定期出版各类统计年鉴;各类经济信息中心、信息咨询机构、专业调查机构、各行业协会和联合会提供的市场信息和行业发展的数据情报;各类专业期刊、报纸、书籍所提供的文献资料;各种会议,如博览会、展销会、交易会及专业性、学术研讨会上交流的有关资料;从互联网或图书馆查阅到的相关资料等等。
取自系统内部的资料,如果就经济活动而言,则主要包括业务资料,如与业务经营活动有关的各种单据、记录;经营活动过程中的各种统计报表,各种财务、会计核算和分析资料等。
数据的直接来源:
(1)通过调查方法获得数据
调查数据方法:
随机抽样调查、分层抽样调查、系统抽样调查
收集数据的方法:
问卷、面访、电话、
收集数据应考虑的几个问题:
1、抽样框中的有关信息2、目标总体的先后3、调查问题的内容4、有形辅助物的使用5、实施调查的资源6、管理与控制7、质量要求
(2)通过实验方法获利数据
实验方法获得数据要注意控制变量法的应用,实验过程中会遇到一些问题如人的意愿、心理问题、道德问题,实验获得数据还要考虑采用好的统计方法
2、数据分析
1、图表展示分析数据,根据图表可以直观地看出数据分布情况及走势。
(统计图:
表格、条形统计图、拆线统计图、扇形统计图、频数分析直方图、频率分布直方图)
2、数学参数分析数据
集中程度:
平均数、中位数、众数(即出现次数最多的,在一定程度上可以代表一组数据,异众比率(
)能够说明众数是否准确刻画整组数据,比率大则可以用众数代表整组数据)
离散程度:
异众比率、方差、标准差、极差
分布形状:
偏态SK(偏态是对数据分布对称性的测度:
,如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表明分布是非对称的。
若偏态系数大于1或小于-1,被称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低)、峰态K(峰态是刻画平峰或尖峰程度的测度峰态通常是与标准正态分布相比较而方的。
如果一组数据服从标准正态分布,则峰态系数的值等于0;若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布
)
数学期望
3、数据处理
数据处理有是优化处理的内容好坏,即如何有效有利用、选择数据常见方法有分组取组中的平均数进而减少数据量分析数据所反应的信息。
4、线性回归
一元线性回归模型;
在一元线性回归模型中,
是
的线性函数
加上误差项
,
反映了由于
的变化而引起的
的线性变化;
是被称为误差项的随机变量,反映了除
和
之间的线性关系之外的随机因素对
的影响,是不能由
和
之间的线性关系所解释的变异性。
式中
称为模型的参数
上述模型的前提是
(1)因变量与自变量有线性关系
(2)在重复抽样中,自变量的取值是固定的,即自变量不是随机的
(3)误差项
是一个期望值为0的随机变量,即
(4)对于所有的自变量,
的方差
都相同
(5)误差项
是一个服从正太分布的随机变量,且独立,即
描述因变量的期望值如何中依赖于自变量的方程称为回归方程
样本统计量
和
代替回归方程中的未知参数
,得到估计的回归方程
(该方程用最小二乘法来实现,即用MATLAB程序来实现PLOYFIT(X,Y,2))
利用回归方程进行预测
预测是指通过自变量的取值来预测因变量的取值
用Excel时行回归分析的操作步骤;
1、选择‘工具’下拉菜单,并选择‘数据分析’选项
2、在分析工具中选择‘回归’,然后单击‘确定’
3、当对话框出现时;在‘Y值输入区域’方框内输入数据区域($A$2:
$a$26),在‘X值输入区域’方框内输入数据区域($B$2:
$B$26),在‘置信度’选项中给出所需的数值,在‘输出选项’中选择输出区域($c$30),在‘残差’分析选项中选择所需的选项
相关系数(MultipleR)反映两个变量之间线性关系强度的统计量
不相关或相关程度极弱
低度相差
中度相关
高度相关
判定系数(RSquare)是对估计的回归方程拟合优度(回归直线与各观测点的接近程度)的度量,其取值范围【0,1】判定系数越接近于1则回归直线与各观测点越接近。
反之,越接近于0则回归直线的拟合程度越差。
调整的判定系数(AdjustedRSquare)
标准误差观测值的个数
显著性水平(SignificanceF)
五、时间序列分析和预测
第一部份、时间序列及其分解
时间序列是同一现象在不同时间上的相继观察值排列而成的序列。
它可以分平稳序列和非平稳序列两大类,平稳是基本上不存在趋势序列。
非平稳序列是包含趋势、季节性或周期性的序列,它可能只含有其中的一部份,也可能是几种成分的组合。
趋势是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动,也称为长期趋势。
时间序列中的趋势可以是线性也可以非线性的。
季节性也称为季节变动,它是时间序列在一年内重复出现的周期性波动
周期性也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。
时间序列中除去趋势、周期性和季节性之后的偶然性变动,称为随机性,也称为不规则波动
综合上述时间序列可分为;
传统时间序列分析的一一项主要内容就是把这些成分从时间序列中分离出来,并将它们之间的关系用数学关系予以表达,而后分别进行分析。
按4种成分时间序列的影响方式不同,时间序列可分解为加法模型、乘法模型等。
其中较为常用的是乘法模型,其表现形式
第二部份、时间序列的描述分析
1、图形描述
作图可以为选择预测模型提供基本依据
2、增长率分析
增长率是对现象在不同时间的变化状况所做的描述。
由于对比的基期不同,增长率有不同的计算方法。
增长率也称增长速度,它是时间序列中报告其观察值与基期观察值之比减1后的结果,用%表示。
由于对比基期不同,增长率可以分为环比增长率和定基增长率。
环比增长率是报告期观察值与前一时期观察值之比减1,说明现象逐期增长变化的程度;定基增长率是报告期观察值与某一固定时期观察值之比减1,说明现象在整个观察期内总的增长变化程度。
设增长率为G,则环比增长率和定基增长率可表示为;
平均增长率;也称平均增长速度,它是时间序列中逐期环比值的几何平均数减1后的结果,计算公式为;
关于增长率分析中应注意以下两个问题
1、当时间序列中有观察值出现0或负数时,不宜计算增长率
2、在有些情况下,不能单纯就增长率论增长率,要注意增长率与绝对水平的结合分析。
第三部份、时间序列预测的程序
对时间序列进行预测包括以下步骤;
1、确定时间序列所包含的成分,也就是确定时间序列的类型
第1、确定趋势成分
确定趋势成分是否存在,可以从绘制时间序列的线图入手。
观察是否存在趋势,以及所存在的趋势是线性的还是非线性的。
判断趋势成分是否存在的另一种方法是利用回归分析拟合一条趋势线,然后对回归系数进行检验。
如果回归系数显著,就可以得出线性趋势显著的结论。
第2、确定季节成分
确定季节成分至少需要两年的数据,而且数据需要按季度、月份、周或天等来记录。
确定季节成份也可以从绘制时间序列的线图入手,但这里需要一种特殊的时间序列图,即年度折叠时间序列图。
绘制该图时,需要将每年的数据分开画在图上,也就是横轴只有一年的长度,每年的数据分别对应纵轴。
如果时间序列只存在季节成分,年度折叠时间序列图中的折线将会有交叉;如果时间序列既含有季节成份又含有趋势,那么年度折叠时间序列图中的折线将不会交叉,而且如果趋势是上升的,后面年度的折线将会高于前面年度的折线,如果趋势是下降的,后面年度的折线将低于前面年度的折线。
2、找出适合此类时间序列的预测方法
关于平稳序列折预测
1、简单平均法
简单平均法适合对较为平稳的时间序列进行预测,即当时间序列没有趋势时,用该方法比较好。
但如果时间序列有趋势或季节成份,该方法预测不准确。
此外简单平均法将远期的数值和近期的数值看做对未来对等重要。
但从预测的角度看,近期的数值要比远期的数值对未来有更大的作用,因此简单平均法预测的结果不够准确。
简单平均是根据过去已有的t期观察值通过简单平均来预测下一期的数值。
设时间序列已有的t期观察值为
则t+1期的预测值;
2、移动平均法
移动平均法是通过对时间序列逐期递移求得平均数作为预测值的一种预测方法,其方法有简单移动平均法和加权移动平均法。
这里只说简单平均移动平均法。
移动平均法只使用最近k期的数据,在每次计算移动平均值时,移动的间隔都为k。
该方法也主要适合对较为平稳的时间序列预测。
应用时,关键是确定合理的移动间隔长度K。
对于同一个时间序列采用不同的移动步长预测的准确性是不同的。
确定移动步长时,可通过试验的方法,选择一个使均方误差达到最小的移动步长。
(3)指数平滑法
指数平滑法是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。
指数平滑法是加权平均的一种特殊形式,观察值时间越远,其权数也跟着呈现指数下降,因而称为指数平滑。
指数平滑法有一次指数平滑、二次指数平滑等
一次指数平滑法也称为单一指数平滑法,它只有一个平滑系数,而且当观察值离预测时期越久远时,权数变得越小。
一次指数平滑是以一段时期的预测值与观察值的线性组合作为t+1期的预测值。
其预测模型为
用Excel进行指数平滑预测的操作步骤;
1、选择‘工具’下拉菜单
2、选择‘数据分析’选项,并选择‘指数平滑’然后确定
3、当对话出现时;
在‘输入区域’中输入数据区域
在‘阻尼系数’中输入
的值(注:
阻尼系数=
)
在‘输出区域’中选择预测结果的输出位置(通常选择与第一期数值对应的单元格)
关于趋势型序列的预测
(1)线性趋势预测
线性趋势是指现象随着时间的推移而呈现出稳定增长或下降的线性变化趋势。
模型为;
(2)非线性趋势预测
序列中的趋势通常可以认为是由于某种固定的因素作用于同一方向所形成的。
若这些因素随着时间的推移按线性变化,可以对时间序列拟合趋势直线;若呈现某种非线性趋势,则需要拟合适当的趋势曲线。
1、指数曲线
指数曲线用于描述以几何级数递增或递减的现象,即时间序列的观察值
按指数规律变化,或者说时间序列的逐期观察值按一定的增长率增长或衰减。
指数曲线的趋势方程为;
2、修正指数曲线
在一般指数曲线的基础上增长一个常数K,即为修正指数曲线其趋势方程为;
3、Gompertz曲线
Gompertz曲线是以英国统计学家和数学家B.Gompertz命名的。
它的特点是:
初期增长缓慢,以后逐渐加快,当达到一定的程度后,增长率又逐渐下降,最后接近一条水平线。
该曲线的两端都有渐近线,其上渐近线为Y=K,下渐近线为Y=0。
Gompertz曲线通常用于描述事物的发展由萌芽、成长到饱和的周期过程。
其趋势方程为
4、多阶曲线
多阶曲线主要是对数据的拟合,即一阶多项式、二阶多项式、三阶多项式等的一个模拟。
它主要对多拐点的变化曲线的预测。
5、复合型序列的分解预测
复合型序列是指含有趋势、季节、周期和随机成分的序列。
对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后进行预测。
由于周期成分的分析需要有多年的数据,实际中很难得到多年的数据来发现周期成分,因此采用分解模型为
分解法的预测通常包括以下几个步骤:
1、确定并分离季节成分。
1.1计算季节指数,以确定时间序列中的季节成分。
然后将季节成分从时间序列中分离出去产,即用每一个时间序列观测值除以相应的季节指数,以消除季节性。
季节指数刻画了序列在一个年度内各季度的典型季节特征。
在乘法模型中,季节指数是以其平均数等于100%为条件而构成的,它反映了某一月份或季度的数值占全年平均数值的大小。
如果现象的发展没有季节变动,则各期的季节指数应等于100%;如果一月份或季度有明显的季节变动,则各期的季节指数应大于或小于100%。
因此,季节变动的程度是根据各季节指数与其平均数(100%)的偏差程度来测定的。
我们用平均趋势剔除法其实施步骤:
第1步;计算移动平均值,并将其结果进行中心化处理,也就是移动平均的结果再进行一次2项移动平均,即得到中心化移动平均值(CMA)
第2步;计算移动平均的比值,也称为季节比率,即将序列的各观察值除以相应的中心化移动平均值,然后再计算出各比值的季度平均值
第3步;季节指数调整。
由于各季节指数的平均数应等于1或100%,若根据第2步计算的季节比率的平均值不等于1,则需要进行调整。
具体方法是;将第2步计算的每个季节比率的平均值除以它们的总平均值。
1.2分离季节性成分。
计算出季节指数后,就可将各实际观察值分别除以相应的季节指数,将季节性成分从时间序列中分离出去。
用公式表示为
2、建立预测模型并进行预测。
对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。
由季节分离求出趋势线性方程,计算出各期的预测值。
3、计算最后的预测值。
用预测值乘以相应的季节指数,得到最终的预测值。
3、对可能的预测方法时行评估,以确定最佳预测方案
评价的方法就是找出预测值与实际值的差距,这个差值就是预测误差。
最优预测方法也不是预测误差达到最小的方法。
预测误差的计算方法有平均误差、平均绝对误差、均方误差、平均百分比误差和平均绝对百分比误差等。
(1)平均误差
(2)平均绝对误差
(3)均方误差
(4)平均百分比误差(MPE)和平均绝对百分比误差(MAPE)
ME、MAD和MSE的大小受时间序列数据的水平和计量单位的影响,有时并不能真正反映预测模型的好坏,它们只有在比较不同模型对同一数据预测时才有意义。
而平均百分比误差和平均百分比误差则不同,它们消除了时间序列数据的水平和计量单位的影响,是反映误差大小的相对值。
4、利用最佳预测方案进行预测
六、优化处理与分析
优化处理;线性规划、最值(最大值与最小值)
优选法与试验设计初步
优选法;根据生产和科学研究中的不同问题,利用数学原理,合理安排实验,以最小的试验次数迅速找到最佳点的科学实验方法。
选择优选法的目的在于减少试验的次数。
影响实验目标的量称为因数,在一个试验过程中只有一个因素在变化的问题称为单因数问题,另外,在试验中可以人为调控的因素叫做可控因数,反之,那些不能控制的因素称为不可控因素。
实验中表示目标与因素之间的对应关系的函数,称为目标函数。
当主要因素确定之后,接下的任务就是选择某种方法安排试验点(试点)通过试验找出最佳点,使得试验的结果目标最好。
在两个试验点中较好一个称为好点,较差的一个称为差点。
把因素范围分为两部份,并秒好点所在那个区域为存优范围。
单峰函数;类似于一元二次函数,在单峰函数中最佳点与好点必大差点的同侧。
黄金分割法——————0.618法
黄金分割史;
试验精度
黄金分割法的核心就在于使得每次划分的比例都等于0.618
案例;炼钢时通过加入含有特定化学元素的材料,使炼出钢满足一定的指标要求。
假设为了炼出特定用途的钢,每吨需要加入某元素的量在1000g到2000g之间,问如何通过试验法找到它的最优加入量?
用一张纸条标示1000g到2000g,以1000为起标点标出刻度,找出它的黄金分割点
作为第一试点,再对折纸条,找出
的对称点
作为第2试点,如图所示
这两点的材料加入量是
分数法;类似于黄金分割法,要先找到一个分数然后把区域分成分母的分数找第一个点即为分子位置而第二个点用‘加两头、减中间’的方法求得
连分数简史;
案例;在配置某清洗液时,需加入某种材料。
经验表明,加入量大于130ml肯定不好,用150ml的锥形量杯计量加放量,该量杯的量程分别为15格,每格代表10ml。
用试验法找出这种材料的最优加入量。
把试验范围定为0~130ml.我们把它分为13格。
对时
的渐进分数列,如果用
来代替0.618,那么我们有;
七、风险与决策
一般地,对于给定的行动方案D和状态H,用L(D,H)表示行动方案D在状态H下的损失大小,并称L(D,H)为损失函数
一般地,我们把各个状态出现的概率称为状态分布列
一般地,我们用R(D)表示行动方案D所对应损失函数的均值,并且称R(D)为行动方案D的风险(平均损失)
例1;某同学需要做一项实验,在该项实验过程中出现设备过热现象的概率为0.2,请专家指导实验,需支出50元指导费,并且出现设备过热现象时会损失10元;自己独立完成实验,出现过热现象时会损失100元,如果在实验过程中没有出现过热现象,则不会造成损失。
问该同学是否应该请专家指导实验。
状态分布列;
H
H1
H2
P(H)
0.8
0.2
E(L(D1,H))=L(D1,H1)xP(H1)+L(D1,H2)xP(H2)=50x0.8+60x0.2=52
E(L(D2,H))=L(D2,H1)xP(H1)+L(D2,H2)xP(H2)=0x0.8+100x0.2=20
R(D1)=52R(D2)=20
一般地,对于给定的行动方案D和状态H,方案D状态H下的收益的大小,这样函数称为收益函数用Q(D,H).损失函数和收益函数统称为损益函数
某位农民打算种植新品种蔬菜,或选择种植量有3种;大量、适量、少量。
他应当如何决策呢?
市场可能出现的情况有好中差三种情况概率分别为;0.3,0.5,0.2然后农民由经验得到一个收入表(单位:
千元)
状态分布列
H
H1
H2
H3
P(H)
0.3
0.5
0.2
收效函数
Q(D1)=Q(D1,H1)xP(H1)+Q(D1,H2)xP(H2)+Q(D1,H3)xP(H3)=8x0.3+5x0.5+(-4)x0.2=5.3
Q(D2)=5.2Q(D3)=2.8
风险型决策的敏感性分析;某一方案成功概率的变化过程中,成功概率降低时,是优决策不再最优时的概率即转折概率
参考文献;《统计学(第四版)》-贾俊平、何晓群、金勇进编著.中国人民大学版社.世纪统计学系列教材
《风险与决策》《优选法与试验设计初步》人民教育出版社课程教材研究所中学数学课程教材研究开发中心编著