1、1灰色模型Matlab源代码2充足数据Holt-winters模型的原始数据与预测数据以及参数1. 问题的提出与分析1.1问题的提出:产品质量是企业的生命线,售后服务是产品质量的观测点,如何用好售后服务的数据是现代企业管理的重要问题之一。现以某轿车生产厂家为例考虑这个问题。假设该厂的保修期是三年,即在售出后三年中对于非人为原因损坏的轿车免费维修。在全国各地的维修站通过网络将保修记录送到统一的数据库里面,原始数据主要包含哪个批次生产的轿车(即生产月份)、售出时间、维修时间、维修部位、损坏原因及程度、维修费用等等。通过这样的数据可以全面了解所有部件的质量情况,若从不同的需求角度出发科学整理数据库中
2、的数据,可得到不同用途的信息,从而实现不同的管理目的。整车或某个部件的“千车故障数”是一个很重要的指标,常用于描述轿车的质量。首先将轿车按生产批次划分成若干个不同的集合(下面表格的同一行数据就来自同一集合),再对每个集合中迄今已售出的全部轿车进行统计,由于每个集合中的轿车是陆续售出的,因此它们的统计时间的起点即售出时间是不同的。但在下面表格中,每一列数据的统计时间的长度却是相同的,在相同使用时间长度内的整车或某个部件的保修总次数乘以1000再除以迄今已售出的轿车数量,即为下面表格中的千车故障数。数据利用的时效性是很强的,厂方希望知道近期生产中的质量情况,但刚出厂的轿车还没有全售出去,已售出的轿
3、车也没使用几个月,因此数据显得滞后很多。当一个批次生产的轿车的三年保修期都到时,我们对这批轿车的质量情况有了最准确的信息,可惜时间是轿车出厂的四、五年后,这些信息已无法指导过去的生产,对现在的生产也没有什么作用。所以如何更科学地利用少量数据预测未来情况是售后服务数据利用的重要问题。现有2004年4月1日从数据库中整理出来的某个部件的千车故障数,见下页的表。其中的使用月数一栏是指售出轿车使用了的月份数,使用月数0的列中是已售出的全部轿车在用户没使用前统计的千车故障数,1的列中是某一批次已售出的每一辆轿车,在它被使用到第一个月结束时统计的,对于该批次售出的全部轿车累计的千车故障数(即没使用时和第一
4、个月中千车故障数的和),12的列中是每辆车使用到恰好一年结束时的累计千车故障数。生产月份是生产批次,如0201表示2002年1月份生产的。随着时间的推移,轿车不断地销售出去,已售出轿车使用一段时间后的千车故障数也能不断自动更新,再打印出的表中数据也将都有变化。轿车某部件千车故障数的数据表使用月数121110987654321生产月份制表时销售量020124574.884.484.073.662.441.220.41020216705.995.394.193.592.992.41.8020315804.433.83.162.531.270.630204370413.7712.1511.619.7
5、29.187.836.755.674.322.431.350.540205380636.7834.6831.5329.4327.0625.2223.1221.8118.1316.5513.48.933.940206291041.5839.1836.0832.9931.6228.8724.7423.0218.915.469.284.470207161472.4969.3962.5854.5247.7143.9940.2734.730.3626.6422.313.013.720208198575.5771.5469.0264.4856.9352.945.3428.2120.6513.67.561.
6、5102092671112.32110.45108.57104.0895.8484.6174.8865.8952.0442.3127.3311.231.8702102107121.97119.6116.28115.33107.7496.3584.4869.2954.1139.3922.7811.392.850211139995.7894.3592.2185.7882.272.1961.4747.1840.0325.7312.873.570212403101.7494.2991.8189.3384.3781.896752.1144.6732.267.4403016450122.79122.481
7、21.55119.84115.5108.0698.2982.6466.9844.9622.0203022522143.93141.95139.57135.21125.69106.6684.4662.2525.381.590303290060.346058.2855.8651.7246.2133.11.030304112718.6316.8615.9713.317.992.66030581814.6713.458.56030611995.841.670307183113.6513.1110.387.10.55030817545.74.561.71030921630.920.46031023890
8、3112434031211711.2问题的分析:本题要求我们对三批部件未来的故障情况做出预测,这三批部件分别代表了三种典型情况:充分数据预测、残缺数据预测和无数据预测。所谓充分数据下预测,是指已知某一批次部件在多个(大于10个)使用月数中的千车故障数,对其未来进行预测,预测0205批次使用月数18时的故障数就属此类;所谓残缺数据下预测,是指已知某一批次部件在少量(1-10个之间)使用月数中和千车故障数,对其未来进行预测,预测0306批次使用月数9时的故障数就属此类;所谓无数据预测,是指在没有任何有效的千车故障数据的情况下对某一批次部件进行预测,预测0310批次使用月数12时的故障数就属此类。2
9、. 模型假设H1、假设该部件只要发生故障,用户都会去厂家指定的维修站维修。H2、假设在统计的过程中没有因为新市场的开拓而对产品的销售量有较大的影响。H3、假设在0201-0312这些批次中,没有特别大的技术变革对汽车性能的影响,也就是每一批次的相同使用月数具有可比性。H4、假设不存在某些汽车由于维修站的技术原因而造成的屡次返修。3.数据分析3.1销售量数据分析对各批次销售量数据作线性回归,以时间作为自变量。上图对数据残差进行分析,定义学生化残差 (studentized residual),其中为标准差,为观测矩阵的投影阵的主对角线元素。这里所谓的“学生化”主要是针对普通残差不具方差齐性而进行
10、的一种标准化处理,使之期望为0,方差为1,从而便于比较。一般学生化残差大于2就可以认为与之对应的数据异常。从上面的图中可以看出,只有0301批次的销量其学生化残差值大于2,故该批次数据为异常数据,不能作为以后分析的依据。从实际情况来看,销售量的波动大致应该在一定的范围之内,而在0301批次的销售量数据附近,403(0212批次)6450(0301批次)和 6450(0301批次)2522(0302批次)变化过于剧烈,出现这种情况的可能性很低,所以我们将其排除在外。3.2故障数数据分析千车故障数的数据表从对数据表的观察可以发现,阴影部分的单月千车故障数为零。由假设H3可以得知,没有突然的技术革命
11、对汽车性能 的影响,所以这些数据存在这不可靠因素。另外我们经过推理可以得到: 当统计量较小时,偶然因素的扰动就会对数据的趋势有较大的影响,而且难以体现其规律性。所以表格中的灰色数据就不能够体现变化的趋势,我们就把该数据作故障处理。3.3数据总体简单分析根据统计学相关知识,我们可以得到:只有在大量的数据统计下才能降低由于偶然性因素对数据趋势造成的影响。所以每一批次的数据由于统计量的大小导致从左到右的数据的有效性的降低,也就是右边的数据受偶然性因素相对影响较大。4.模型建立4.1时间序列平滑预测模型4.1.1移动平均预测法移动平均法是根据时间序列资料,逐项推移,依次计算包含一定项数的序时平均数,以
12、反映长期趋势的方法。它将原来时间序列的时间跨度扩大,采用逐项推移的方法计算时间序列平均数,形成一个新的时间序列,以消除短期的、偶然因素引起的变动,从而使事物的发展趋势更加明显地表现出来。一次N元移动平均法的数学模型为:St+1 = ( Xt + Xt-1 + + Xt-N+1 ) / N式中,St t时间上的预测值; Xi t时间上的实际观测值; N 取平均的数据的个数(观测点数)。4.1.2指数平滑预测法指数平滑法是移动平均法的改进(1). 一次指数平滑:其中:为一次指数平滑值,为权系数,yt为时间数列各期数据, 为预测值。该方法适用于时间数列无上升或下降趋势的情况。(2). 二次指数平滑:
13、权系数与一次平滑法中的相同。预测模型:当时间序列具有直线趋势,可使用此法。(3). 三次指数平滑:预测公式:当时间序列具有二次曲线趋势时可用此法。4.1.3自适应过滤法自适应过滤法是根据一组给定的权数对时间数列的历史观察值进行加权平均计算一个预测值,然后根据预测误差调整权数以减少误差,这样反复进行直至找出一组“最佳”权数,使误差减少到最低限度,再利用最佳权数进行加权平均预测。权数调整公式:4.1.4 Holt-Winters预测法Holt-Winters法也是指数平滑中的一种,它适用于对具有季节影响的线性增长趋势的序列进行预测。这种方法计算截距(常数项)、趋势系数(斜率)和季节影响的各个递推值
14、。如果序列中不存在季节变动,可采用最简单的Holt-Winters模型法。这时,只估计两个平滑常数,一个用于平滑常数项,一个用于平滑趋势系数。可以自行设定其中的一个或者两个都设定。等级: 趋势:初始值: 式中: 等級平滑常数; 趋势平滑常數;Lt t时间上的估計值;Tt t时间上的趋势估计值;yt t时间上的观察值;Ft 到时间t为止之预测值。4.2灰色模型4.2.1灰色理论及模型简介1982年邓聚龙提出灰色系统后,就开始被广泛的运用在生命科学、地质、农业、环保、电力、IT等数十个领域。而灰色系统理论主要能在系统(System)模型不明确或资讯不完整性的情况下,进行关于系统的关联分析(Rela
15、tional analysis)、模型建构(Model construction),并藉预测(Prediction)及决策(Decision)的方法来探讨及了解系统。传统的预测方法需要较大量的观察值,才能进行各种方法的预测,所以不太适合运用在短期的预测上。但灰色预测法的特色便是使用少数据,例如只要有四个已知的观察值,即可顺利进行灰色预测。下表列出了传统预测方法与灰色预测方法的特点。传统预测方法与灰色预测方法的比较方法所需最少数据数据形态数据间隔准备时间数学需求简单指数平滑法5-10等间距短间隔短基本Holts指数平滑法10-15同趋势短或中间隔稍高Winters指数平滑法=5同趋势且具规律性中
16、等回归分析法=10或=20Causal回归法=10可各种形态相互混合短、中及长间隔长高等时间序压缩法2个峰值以上同趋势、具规律性且可自我调整短(稍长)Box Jenkins法=50灰色预测法等间距及非等间距灰色系统理论中,基于n个数据的序列:我们建立GM(1,1)模型,再利用此模型计算n点以后的值,称为灰色预测。称为预测步数。此过程可记为灰预测有下列几种:(1)数列灰预测(Sequence Grey prediction): 数列预测是灰预测的基本类型,它是根据给定的数据(数列),直接建立GM(1,1)模型进行预测。由于在指定的时刻,这种预测只能得到一个预测值,因此亦称为单值预测。(2)灾变灰
17、预测(Calamities Grey prediction):给定的数列中,若出现过大或过小的异常值,我们便称这些为灾变值,相应的点称为灾变点,原有数列称含灾变的数列。所谓灾变预测就是这些灰时间分布的预测,所建立的灰色预测模型,即灰数的时间分布预测模型。(3)季节灾变灰预测(Seasonal calamities Grey prediction): 若灾变发生在每年特写时区,人们对这些灾变事件的时间分布进行预测,称为季节灾变预测。(4)拓扑灰预测(Topological Grey prediction): 拓扑预测是季节灾变预测的延伸,它与季节灾变预测的区别在于后者是通过给定的水平线与灾图的交
18、点,获得时间分布序列。(5)系统灰预测(Systematic Grey prediction): 如果系统行为有多种表现,则其预测的难度必然大于一种表现的情况。当多种表现之间没有太多的关系,或者虽然有关系,但人们可以不注意或淡化,则可利用多个GM(1,1)模型对系统的行为进行预测。而本篇研究就是利用数列灰预测的技术,对于少数的短期预测提出适用性的探讨。因此我们针对数列灰预测做进一步说明,数列灰预测法进行的方式可以分为下列五个步骤:步骤1:首先列出观察数列,即原始数列:步骤2:进行累加生成AGO处理,定义为的一次AGO序列步骤3:平均值计算步骤4:再来求出发展系数a和灰作用b:令则步骤5:最后再进行预测值的运算:在生成及建模后,接着就可以对下一点做预测,但预测与实际值之间一定会有误差产生,灰色理论的误差分析及量化的方式利用下列基本公式来衡量:其中残差大小,原始数列之数据,预测的数列数据。4.2.2水平方向的灰色预测模型 对于问题的表中所给的千车故障数,其水平方向的演变趋势是故障数随着使用时间的变化而变化
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1