虹桥飞机场出租车大数据分析报告报告材料Word文件下载.docx
《虹桥飞机场出租车大数据分析报告报告材料Word文件下载.docx》由会员分享,可在线阅读,更多相关《虹桥飞机场出租车大数据分析报告报告材料Word文件下载.docx(9页珍藏版)》请在冰豆网上搜索。
labelyy2='
排队长度'
fi中非零数据个数
labelyy3='
服务时间'
做差fi-f(i-1)
labelyy4='
服务流量'
单位时间〔一小时〕内fi中非零数据个数
labelyy5='
顾客流量'
一天内fi中非零数据个数
下面对排队长度数据进展分析。
服务流量、顾客流量数据分析类似。
1.识别性分析:
识别原始数据
对原始数据进展原始识别处理,先画柱状图形〔直方图〕和饼状图形如下
从图形可以猜测,其图形是普松分布。
普松分布的一阶矩估计为
myyy=myy-minyy;
lambda1=myyy;
普松分布的二阶矩估计为
lambda2=ssyy**2;
普松分布的区间估计为〔见茆诗松和周纪芗,概率论与数理统计,中国统计,2007,p334-337〕
lambdaxx=mn*myyy;
arraykk[1000]kk1-kk1000;
dok=1to1000;
kk[k]=1-poisson(lambdaxx,k)-probchi(2*lambdaxx,2*(k+1));
ifk>
2andkk[k]<
0thengotook;
end;
ok:
lambdaxx=cinv(,2*k)/(2*mn);
lambdal=cinv(,2*k)/(2*mn);
lambdau=cinv(,(2*k+1))/(2*(mn));
lambdasx=cinv(,2*k)/(2*mn);
lambdazwqj=cinv(,2*k)/(2*mn);
2.稳健性分析:
比拟各种估计的差异
普松分布的一阶矩估计和普松分布的区间估计两种估计比拟接近,但普松分布的二阶矩估计与前两者差异很大。
用三种估计的平均值作为参数lambda的估计应是比拟稳健的
lambdaqz=(lambda1+lambda2+lambdazwqj)/3;
即使不考虑二阶矩估计,用其他两种估计的平均值作为参数lambd的估计也应是比拟稳健的
lambdaqz=(lambda1+lambdazwqj)/2;
3.协调性分析:
比拟估计分布与经验离散频率分布
3.2:
诊断估计分布与经验离散频率分布图形的协调性
以上述参数作为普松分布的估计与经验离散频率分布函数的比拟图形为
从图形看出拟合不好.
即使不考虑二阶矩估计,用其他两种估计的平均值作为参数lambd的估计,以此参数作为普松分布的估计与经验离散频率分布函数的比拟图形为
从图形看出拟合也不好.尽管它看起来比前一种好一点,即图形的接近程度高一些,但两种分布的差异还是较大。
估计分布与经验离散频率分布理论的协调性
用皮尔逊的Kf统计量进展拟合检验两种情况都没有通过.
N=238,l=1,Kf=728.110>
272.836(显著性水平0.05)
N=238,l=1,Kf=325.637>
其中n为数据个数,l为估计参数个数。
而Kf为经验离散频率分布函数和拟合分布的差的平方的加权和,近视为KF统计量,自由度为
〔n-l-1〕,是统计量临界值。
4.功能性分析:
变换原始数据
上述分布的各种参数为
mnmyycdssyymaxyyminyypzyyp50mumyyylambda1lambda2lambdaxxklambdal
lambdaulambdasxlambdazwqjlambdaqzxitazdddkkkpixitaLxitaUfun
3.544943.502963.305324.321594.32159130.8967881.321597.32159平时柏松分布
其中普松分布的一阶矩估计和普松分布的二阶矩估计不一致,这可能是估计不准确的原因。
为了消除这个原因,我们采用数据变换的方法解决。
对数据yy做变换:
myyy=myy-minyy;
c=(myyy)/(ssyy**2);
d=0;
yy=int((myyy+d)*c);
〔此时变换后的均值为变换前的c倍,而变换后的方差为变换前的c^2倍,令两者相等,得到上述的变换公式,由于取整数函数int(*)有低估现象,可以用d来做小的调整〕。
用这些数据进展上述同样的分析得到图形如下
从图形看出效果很好。
用皮尔逊的Kf统计量进展拟合检验通过.
N=238,l=3,Kf=13.8675<
270.684(显著性水平0.05)
得到的分布参数为
mnmyycdssyymaxyyminyypzyyp50mumyyylambda1
lambda2lambdaxxklambdallambdaulambdasxlambdazwqjlambdaqzxitaz
xita
dddkkkpiLxitaUfunCLUCLLCL
130.94735605.69714平时柏松分布2.632625.752770
其中普松分布的一阶矩估计(lambda1=1.35714)和普松分布的二阶矩估计(lambda2=1.43731)根本一致.这可能就是估计准确的原因。
数据变换方法使得两个估计接近相等。
5.经济性分析:
变换控制图
根据变换后的估计分布的控制图,变回到原来分布的控制图的控制限为
UCL=5.75277
CL=2.63262
LCL=0
要求每五个数据进展平均得到一个点〔低于五个数据平均时,由于随机性太强,控制图波动性太大,看不出规律性〕。
由此得到控制图为:
从图中看到:
排队长度分布具有顶峰期发生,顶峰期发生的条件可以判定为队长大于五。
用这个条件我们可以分析各种数据的顶峰现象。
对应的底峰期发生的条件也可以判定为队长不大于六,用这个条件我们也可以分析各种数据的低峰现象。