部队装备新旧状态的大数据分析Word文档下载推荐.docx
《部队装备新旧状态的大数据分析Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《部队装备新旧状态的大数据分析Word文档下载推荐.docx(12页珍藏版)》请在冰豆网上搜索。
如400009与400101属于同一级大单位,65020904与6502090203同属一个大单位,前者比后者高一级别。
表2中共有163178条装备状态数据,包含装备当前的新旧状况、购买日期、现有数量3类信息。
其中装备层次码3位为一个层次,用来反映装备的类属关系与层次关系。
如001001可能表示电脑配件大类中的液晶显示屏,1可能表示该大类下的鼠标。
装备新旧状况被划分为新、堪、待、废4种,分别对应内码01、02、03、04,用表3解释。
表1部队地理位置信息
序号部队层次码经度/(°
)纬度/(°
)高程/m140000999、1528、1607、2240010197、3229、36672…………………………3121、136、2650、4367971、0549、41177、6…………………………943999050102107、2835、161452
表2部队装备状态信息表
序号装备层次码部队层次码装备状况内码购买日期数量/个1140010522010/9/3542011/9/30192………………………………47257/10/183…………………………163177020012013/9/3022014/9/3010
表3装备内码
新旧状况装备状态内码说明新品01装备第一年为新品堪用02新品从第二年转为堪用待修03等待维修待报废04等待报废
2数据预处理
基于该数据,初步判断影响装备新旧状况的可能因素有5种:
部队所在的经度、纬度、高程、部队类型、装备类型。
2、1数据清洗
1)清除空间上无用的数据。
考虑到我国军事单位大部分位于国境范围内,所以可将境外的部队地理信息视为无效数据进行剔除。
中国国境范围为最北端漠河53°
33′N,最南端曾母暗沙03°
58′N,最东端黑瞎子岛135°
05′E,最西端帕米尔高原73°
49′E[3]以此作为筛选依据,从表1中去掉324条数据,剩下9115条部队地理位置信息。
2)清除时间上无用的数据。
表2中5年前数据量占比为0、15%,时间久远比重低,参考性不大。
剔除掉此类数据247条后剩下162931条装备状态信息。
3)清除信息不完整的数据。
通过比较发现,表2中有些部队层次码在表1中没有出现,即有些部队缺少地理位置信息,表1中有些部队层次码在表2中没出现,即有些部队缺少装备状态信息,这些数据对后续分析就是无效的,需要删除。
运用MATLAB软件进行两层循环遍历后,删除的不完整信息接近30%,缩减了后续数据分析的工作量。
2、2数据关联
用EXCEL中的VLOOKUP函数,将处理后的两个表以“部队层次码”为桥梁整合到一个表中,最终该表包含87741条信息7个标题栏:
部队层次码、装备层次码、装备状态内码、现有数量、经度、纬度、高程。
3统计描述
3、1装备状态的分类统计
装备的新旧状态为一个分类型变量,经统计4种新旧状态的可用装备总数比重依次为3、88%、94、73%、0、8%、0、52%,可见九成以上的装备均为堪用品,废品的比重最低。
3、2各影响因素与装备状态之间的关联分析
3、2、1地理位置与装备状态的关联分析
地理位置为一个三维连续型变量,首先对高程根据我国地貌特征划分为0~200m、200~2000m与2000~5800m3类[3],代表平原、丘陵、高原3种地貌。
然后在每个海拔段上对经度、纬度采用K均值法聚类[4],实现方位分区。
综合考虑分区后各区拥有的单位数量,最终将低海拔、中海拔、高海拔再细分为7个区、4个区、3个区,总共聚为14类。
图1低海拔7区划分
图2中海拔4区划分
图3高海拔3区划分
统计14个区域上各新旧状态的装备数量,可以通过折线图依次观察不同区域上的新品率、堪用率、待修率、报废率的波动情况。
为了节省篇幅,这里通过一张百分比堆积柱形图(图4)反映变量间的比重关系,可见不同地理位置上的新品率、堪用率波动不大,待修率、报废率差异明显。
图4不同区域下新旧装备数量比重
3、2、2装备类型与装备状态的关联分析
经EXCEL分类汇总,表2中共有275种装备,分为001与002两大类别,且98%为001型。
由于装备类型众多,选择数量最多的前5种装备为代表进行研究,这5种装备型号为1,2,4,6,1,简记为A~E型。
统计这5种装备各新旧状态可用数量,绘制百分比堆积柱形图(图5),发现5种装备堪用率基本相当,其她几种差异都比较大,其中B、E型装备的废品率比其她几种要高许多。
因此装备类型对装备状态存在影响。
图56类部队各新旧装备数量的比重关系
3、2、3部队类型与装备状态的关联分析
部队层次码的首位数从4~9一共6个整数,代表着部队隶属的最高类别,可按首位数字将部队类型划分为6类。
统计6类部队下各种新旧状态的装备数量,绘制百分比堆积柱形图(图6)发现,6类部队的堪用率基本均衡,4字头部队装备的待修率与废品率比其她部队高出许多。
因此部队类型对装备状态存在影响。
3、3小结
本节对研究对象(装备新旧状态)与影响因素进行了初步的描述性统计,一定程度上反映了总体内在的规律与关联,为后续工作提供了思路。
但要给出更具有统计学意义的结论,则需要利用模型与统计量做进一步的统计推断。
图6A-E型装备中新旧装备数量的比重关系
4建立模型及数据分析
4、1高程因子对装备状态的影响分析
由于高程因子与其她因素之间相对独立,因此采用单因素方差分析判别法。
此时将“高程”作为检验对象,不考虑其余因素产生的影响。
4、1、1单因素方差分析判别模型[5]
在单因素试验中,首先假定每个总体都服从正态分布,方差相同,观测值相互独立。
A表示影响因素,具有k个水平A1,A2,…,Ak,就是因素A的具体表现。
每个xij(i=1,2,…,k;
j=1,2,…,r)表示第i个水平下的第j个观测值,来自正态总体
)。
1)提出原假设与备择假设
H0:
μ1=μ2=…=μi=…=μk,自变量对因变量没有显著影响;
H1:
μi(i=1,2,…,k)不完全相等,自变量对因变量有显著影响。
2)构造检验统计量
定义总误差平方与
)2,水平项误差平方与
误差项平方与
其中SST=SSE+SSA。
组间均方
组内均方
则统计量
。
3)进行F检验
对给定的显著水平α计算统计量F,判定F>
Fα(k-1,n-k)就是否成立,若成立拒绝H0,即认为各水平均值间有显著差异,否则接受H0。
4、1、2建模与求解
通常情况下,新品与废品之间人们往往更关心废品快速报废的原因,因此本文列出以废品数为样本的分析过程,以新品数、堪用品数、待修品数为样本的分析只列出结果供比较。
1)划分因素水平。
根据上节对高程的聚类,将高程划分为3个海拔段,代表A1、A2、A3三种水平。
2)统计每个水平下的样本值。
以废品为样本,经筛选低海拔下有40种报废装备,中海拔下有72种,高海拔下有21种,每种装备的当前数量如表4所示。
表4各海拔下报废品数量统计
12…20212223…39404142…7172低海拔(A1)42…4493…22中海拔(A2)106…4332…265162…3618高海拔(A3)1218…43
3)计算F统计量,做显著性检验。
经计算F=4、492663>
Fα=3、065839,故拒绝原假设,表明不同海拔下的废品数量之间有显著差异。
4、1、3关系强度的度量
在单因素方差分析中,
称为相关系数,用来测量两个变量之间的关系强度[5-6]。
定义高程因子与4种装备新旧状态的相关系数为
由公式即可得到结果。
4、1、4结果分析
以新品数、堪用品数、待修品数为样本做方差分析的结果如表5所示。
表5高程对装备状态的影响情况统计
高程装备状态新(01)堪(02)待(03)废(04)有无显著影响没有没有没有有相关系数RGC0、05850、01610、06990、254165
可以瞧到,只有废品数受到高程的显著影响,其她3种受高程的影响并不显著;
相关系数显示
且
远大于后三者,表明高程与装备的报废之间有着较强关系。
出现这样的结果主要就是因为高海拔地区气象的特殊性。
高海拔地区大气气压低,空气密度小,会导致设备的散热能力下降;
高原地区昼夜温差大,使设备的密封结构容易破裂,外壳容易变形皲裂;
此外,海拔到达5000m以上时,太阳的辐射强度比低海拔时高1、25倍,热辐射会对设备起加热作用,降低有机绝缘材料的性能等等,这些原因都会加快设备报废[7]。
建议相关部门查找出设备快速报废的原因,有针对性的改进设备的设计,提高高海拔地区设备的使用寿命[8]。
4、2经度、纬度因子对装备状态的影响分析
由于经度、纬度两者联合起来能描述部队的方位,两因素又相互独立,因此采用无交互作用的双因素方差分析法进行数据挖掘更有价值。
4、2、1无交互作用的双因素方差分析法判定模型[5]
在该模型中,一个因素在行位置,有k个水平;
另一个在列位置,有r个水平,行列因素的每一个水平都搭配成一组。
若每个组合下对应着一个观察值xij(i=1,2,…,k;
j=1,2,…,r),则xij瞧作就是从行因素与列因素组合成的k×
r个总体中抽取的样本容量为1的独立随机样本,其中这k×
r个总体每一个都服从正态分布,且有相同的方差。
1)提出原假设及备择假设
对行因素的假设H0A:
μ1=μ2=…=μi=…=μk,H1A:
μi(i=1,2,…,k)不全相等;
对列因素的假设H0B:
μ1=μ2=…=μj=…=μr,H1B:
μj(j=1,2,…,r)不全相等。
2)构造行因素与列因素的统计量
由于需要做两因素检验,因此定义行因素均方
列因素均方
随机误差项均方
则构造行统计量
列统计量
3)对给定的显著水平α做F检验
若FR>
Fα,拒绝原假设H0,所检验行因素对观测值有显著影响;
若FC>
Fα,拒绝原假设H0,所检验列因素对观测值有显著影响。
4、2、2建模与求解
1)确定因素水平。
将中国境内73°
~135°
的经度范围以5°
为步长划分为12个水平,3°
~53°
的纬度范围以10°
为步长划分为5水平;
2)统计样本矩阵。
以废品为样本,依次筛选出落在第i(i=1,2,…,5)个行水平、第j(j=1,2,…,12)个列水平下的所有废品,统计它们的可用数总与作为xij,得到样本矩阵
例如矩阵中的x32表示纬度落在23°
~33°
、经度落在78°
~83°
的所有废品数量总与为136个。
3)计算FR,FC两个统计量,分别对行因素、列因素做检验。
4、2、3关系强度的度量
SSR、SSC两个指标可以分别度量纬度、经度对因变量产生的影响。
然而在双因素判别法中,人们更关心两个因素联合起来的影响效应。
定义
其平方根R就反映了双因子与因变量之间的关系强度,称为多重相关系数[5]。
4、2、4结果分析
1)经度对装备的4种新旧状态都有显著影响,而纬度只对新品有影响。
这就是因为我国地域呈雄鸡形状,经度跨越范围大,纬度变化范围小,因此经度带来的影响也应更大一些。
2)4个多重相关系数R均大于0、5,说明两因素产生了较强的联合影响效应,验证了将两因素联合考虑的合理性,也表明不论装备就是新还就是旧,与地理位置均存在很大联系。
表6经度、纬度对装备状态的影响情况统计
装备状态新(01)堪(02)待(03)废(04)行因素(纬度)有无显著影响有没有没有没有列因素(经度)有无显著影响有有有有多重相关系数R0、7670780、8001650、6473060、631286
4、3装备类型、部队类型对装备状态的影响程度分析
在日常生活中,根据长期的使用经验,人们对熟悉的产品存在着习惯性使用行为与习惯性购买行为,因此某种部队可能会对某型装备产生特殊“偏好”,这种偏好会对该型装备的磨损产生影响,即这两个因素并不就是独立的产生作用,而就是会对因变量产生新的附加效应,因此本节采用有交互作用的双因素方差分析法。
4、3、1有交互作用的双因素方差分析模型[6]
在该模型中,每个i、j组合水平下需要进行k(k≥2)次重复独立试验才能进行分析。
设xij为对应于行因素的第i个水平与列因素的第j个水平的第l(l≤k)行的观测值;
i·
为行因素的第i个水平的样本均值;
·
j为列因素的第j个水平的样本均值;
ij为对应于行因素的第i个水平与列因素的第j个水平组合的样本均值;
为全部n个观察值的总均值。
定义总平方与
)2,行变量平方与
)2,列变量平方与
交互作用平方与
、各项均方依次为
①对行因素提出假设;
②对列因素提出假设;
③对交互作用项提出假设:
H0AB:
μ1=μ2=…=μj=…=μr,
H1AB:
μj(j=1,2,…,r)不全相等
其中,对行列因素的假设与无交互作用方差分析法相同,这里不再陈述。
交互作用项若通过了假设检验,表明两因素的交互作用对样本产生了显著影响。
行因素统计量
列因素统计量
交互作用项的检验统计量
3)对给定的显著性水平α,分别计算统计量FA,FB,FA×
B,若大于Fα拒绝原假设,小于Fα则接受原假设。
4、3、2建模与求解
1)确定因素水平。
根据前文的分析,将部队类型按首位数划分为6个水平;
对于装备层次码,它以3位为一级来反映层次关系,经统计它的位数只有5种类型,因此按位数的长短将装备类型划分为5个水平。
2)统计样本矩阵。
以废品为样本,在每个i、j组合水平下(i=1,2,…,5;
j=1,2,…,12)都取定k=5,以等距抽样的方式统计出该组合水平下各种废品数量的总与作为样本值xij,得到样本如表7所示。
表7不同装备类型、部队类型下废品总数统计
废品数量/个部队类型4字头部队5字头部队6字头部队7字头部队8字头部队9字头部队装备类型0000006位码………………………………127311143位码………………………………287565198743692922015位码………………………………1919921915438位码………………………………11位码………………………………1507045166
3)依模型计算统计量,做假设检验。
4)计算交互作用相关系
4、3、3结果分析
可以瞧到,第一,部队类型、装备类型对于装备各新旧状态均有着显著影响。
这就是因为不同数字头的部队职责划分不同,对于装备的使用频率也不尽相同,自然磨损程度会存在差异。
而不同类型的装备在使用中的磨损程度也就是不一样的,比如液晶显示屏显然要比鼠标键盘这类低值易耗品耐用得多。
第二,交互作用均通过了显著性检验,且相关系数R交互均在0、4左右,说明两个因素对装备状态产生了较明显的附加效应,其中消费习惯可能就就是产生该效应的原因之一。
事实上,消费习惯现象就是客观普遍存在的,在做统计分析时不可忽视这种现象,简单地将各因素视作相互独立加以处理,会导致统计结果与客观事实产生偏差、甚至出现相违背的情况。
表8装备类型、部队类型对装备状态的影响情况统计
装备状态新(01)堪(02)待(03)废(04)行因素(装备层次)有无显著影响有有有有列因素(部队层次)有无显著影响有有有有交互作用有无显著影响有有有有相关系数R交互0、340、320、410、45
5结论
本文基于已获得的模拟大数据,用不同的方差分析模型分别研究了5种因素对装备新旧状况的影响。
建议相关部门若就是在各项数据均完备的情况下,先采用主成分分析、因子分析法提取出主要影响因子,再研究它们对装备状态的影响情况。