1、部队装备新旧状态的大数据分析部队装备新旧状态的大数据分析王玉琢,张建军(海军工程大学 理学院应用数学系, 武汉 430033)摘要:对已获得的模拟大数据进行了清洗与关联的预处理工作。以高程、经度、纬度、装备类型、部队种类5个方面作为影响因素,建立了3种方差分析模型,分别讨论了每种因素对装备新、堪、待、废4种状态的影响情况,以及各种因素联合起来产生的联合效应。通过计算相关系数,将每种因素与装备状态的关联程度进行量化比较。所得结论与提出的建议对部队的装备保障优化具有一定的意义。关键词:数据预处理;单因素方差分析;无交互作用双因素方差分析;有交互作用双因素方差分析近年来,随着互联网技术的飞速发展,军
2、队信息化也得到加快,各种军事资源数据的采集、储存与利用,为部队的现代化建设与科学化管理提供了有力的支持与理论依据。但就是面对海量信息,如何结合部队实际,真实高效地利用这些数据资源做好部队的装备保障与维护工作,就是当前亟待分析解决的一个重要问题1。装备的磨损消耗情况,就是保障维护工作中常关心的问题,它除了与装备本身的耐用性、维护保养情况、使用频率这些因素直接相关外,还受到如气候条件这类因素的间接影响2。然而,出于保密等原因有些数据无法获得,即使这些数据就是重要影响因子样本。为了便于研究,本研究基于已获得的模拟数据进行讨论,这些数据或许不就是重要影响因子样本,但所用方法具有可复制性,结论具有参考性
3、,可供有关管理部门借鉴。1 数据采集通过添加随机扰动项对原始数据实现模糊处理,本文获取了部分部队的地理位置及装备状态的模拟大数据。在大数据背景下,文中所用的检验统计量依大数定律仍可以反映出总体特征。部分数据如表1、表2所示。表1中包含9439支部队的经度、纬度、高程3种地理位置信息。其中部队层次码采用多层变长的数字结构,两位一个层次,前12位为大单位名称编码,第34位为下一级单位名称编码,用来体现单位之间的上下级关系。如400009与400101属于同一级大单位,65020904与6502090203同属一个大单位,前者比后者高一级别。表2中共有163178条装备状态数据,包含装备当前的新旧状
4、况、购买日期、现有数量3类信息。其中装备层次码3位为一个层次,用来反映装备的类属关系与层次关系。如001001可能表示电脑配件大类中的液晶显示屏,1可能表示该大类下的鼠标。装备新旧状况被划分为新、堪、待、废4种,分别对应内码01、02、03、04,用表3解释。表1 部队地理位置信息序号部队层次码经度/()纬度/()高程/m140000999、1528、1607、2240010197、3229、366723121、136、2650、4367971、0549、41177、6943999050102107、2835、161452表2 部队装备状态信息表序号装备层次码部队层次码装备状况内码购买日期数量
5、/个1140010522010/9/3542011/9/3019247257/10/183163177020012013/9/3022014/9/3010表3 装备内码新旧状况装备状态内码说明新品01装备第一年为新品堪用02新品从第二年转为堪用待修03等待维修待报废04等待报废2 数据预处理基于该数据,初步判断影响装备新旧状况的可能因素有5种:部队所在的经度、纬度、高程、部队类型、装备类型。2、1 数据清洗1) 清除空间上无用的数据。考虑到我国军事单位大部分位于国境范围内,所以可将境外的部队地理信息视为无效数据进行剔除。中国国境范围为最北端漠河5333N,最南端曾母暗沙0358N,最东端黑瞎子
6、岛13505E,最西端帕米尔高原7349E3以此作为筛选依据,从表1中去掉324条数据,剩下9115条部队地理位置信息。2) 清除时间上无用的数据。表2中5年前数据量占比为0、15%,时间久远比重低,参考性不大。剔除掉此类数据247条后剩下162931条装备状态信息。3) 清除信息不完整的数据。通过比较发现,表2中有些部队层次码在表1中没有出现,即有些部队缺少地理位置信息,表1中有些部队层次码在表2中没出现,即有些部队缺少装备状态信息,这些数据对后续分析就是无效的,需要删除。运用MATLAB软件进行两层循环遍历后,删除的不完整信息接近30%,缩减了后续数据分析的工作量。2、2 数据关联用EXC
7、EL中的VLOOKUP函数,将处理后的两个表以“部队层次码”为桥梁整合到一个表中,最终该表包含87741条信息7个标题栏:部队层次码、装备层次码、装备状态内码、现有数量、经度、纬度、高程。3 统计描述3、1 装备状态的分类统计装备的新旧状态为一个分类型变量,经统计4种新旧状态的可用装备总数比重依次为3、88%、94、73%、0、8%、0、52%,可见九成以上的装备均为堪用品,废品的比重最低。3、2 各影响因素与装备状态之间的关联分析3、2、1 地理位置与装备状态的关联分析地理位置为一个三维连续型变量,首先对高程根据我国地貌特征划分为0200 m、2002 000 m与2 0005 800 m
8、3类3,代表平原、丘陵、高原3种地貌。然后在每个海拔段上对经度、纬度采用K均值法聚类4,实现方位分区。综合考虑分区后各区拥有的单位数量,最终将低海拔、中海拔、高海拔再细分为7个区、4个区、3个区,总共聚为14类。图1 低海拔7区划分图2 中海拔4区划分图3 高海拔3区划分统计14个区域上各新旧状态的装备数量,可以通过折线图依次观察不同区域上的新品率、堪用率、待修率、报废率的波动情况。为了节省篇幅,这里通过一张百分比堆积柱形图(图4)反映变量间的比重关系,可见不同地理位置上的新品率、堪用率波动不大,待修率、报废率差异明显。图4 不同区域下新旧装备数量比重3、2、2 装备类型与装备状态的关联分析经
9、EXCEL分类汇总,表2中共有275种装备,分为001与002两大类别,且98%为001型。由于装备类型众多,选择数量最多的前5种装备为代表进行研究,这5种装备型号为1,2,4,6,1,简记为AE型。统计这5种装备各新旧状态可用数量,绘制百分比堆积柱形图(图5),发现5种装备堪用率基本相当,其她几种差异都比较大,其中B、E型装备的废品率比其她几种要高许多。因此装备类型对装备状态存在影响。图5 6类部队各新旧装备数量的比重关系3、2、3 部队类型与装备状态的关联分析部队层次码的首位数从49一共6个整数,代表着部队隶属的最高类别,可按首位数字将部队类型划分为6类。统计6类部队下各种新旧状态的装备数
10、量,绘制百分比堆积柱形图(图6)发现,6类部队的堪用率基本均衡,4字头部队装备的待修率与废品率比其她部队高出许多。因此部队类型对装备状态存在影响。3、3 小结本节对研究对象(装备新旧状态)与影响因素进行了初步的描述性统计,一定程度上反映了总体内在的规律与关联,为后续工作提供了思路。但要给出更具有统计学意义的结论,则需要利用模型与统计量做进一步的统计推断。图6 A-E型装备中新旧装备数量的比重关系4 建立模型及数据分析4、1 高程因子对装备状态的影响分析由于高程因子与其她因素之间相对独立,因此采用单因素方差分析判别法。此时将“高程”作为检验对象,不考虑其余因素产生的影响。4、1、1 单因素方差分
11、析判别模型5在单因素试验中,首先假定每个总体都服从正态分布,方差相同,观测值相互独立。A表示影响因素,具有k个水平A1,A2,Ak,就是因素A的具体表现。每个xij(i=1,2,k;j=1,2,r)表示第i个水平下的第j个观测值,来自正态总体)。1) 提出原假设与备择假设H0:1=2=i=k,自变量对因变量没有显著影响;H1:i(i=1,2,k)不完全相等,自变量对因变量有显著影响。2) 构造检验统计量定义总误差平方与)2,水平项误差平方与,误差项平方与,其中SST=SSE+SSA。组间均方,组内均方,则统计量。3) 进行F检验对给定的显著水平计算统计量F,判定FF(k-1,n-k)就是否成立
12、,若成立拒绝H0,即认为各水平均值间有显著差异,否则接受H0。4、1、2 建模与求解通常情况下,新品与废品之间人们往往更关心废品快速报废的原因,因此本文列出以废品数为样本的分析过程,以新品数、堪用品数、待修品数为样本的分析只列出结果供比较。1) 划分因素水平。根据上节对高程的聚类,将高程划分为3个海拔段,代表A1、A2、A3三种水平。2) 统计每个水平下的样本值。以废品为样本,经筛选低海拔下有40种报废装备,中海拔下有72种,高海拔下有21种,每种装备的当前数量如表4所示。表4 各海拔下报废品数量统计1220212223394041427172低海拔(A1)42449322中海拔(A2)106
13、43322651623618高海拔(A3)1218433) 计算F统计量,做显著性检验。经计算F=4、492 663F=3、065 839,故拒绝原假设,表明不同海拔下的废品数量之间有显著差异。4、1、3 关系强度的度量在单因素方差分析中,称为相关系数,用来测量两个变量之间的关系强度5-6。定义高程因子与4种装备新旧状态的相关系数为,由公式即可得到结果。4、1、4 结果分析以新品数、堪用品数、待修品数为样本做方差分析的结果如表5所示。表5 高程对装备状态的影响情况统计高程装备状态新(01)堪(02)待(03)废(04)有无显著影响没有没有没有有相关系数RGC0、05850、01610、0699
14、0、254165可以瞧到,只有废品数受到高程的显著影响,其她3种受高程的影响并不显著;相关系数显示,且远大于后三者,表明高程与装备的报废之间有着较强关系。出现这样的结果主要就是因为高海拔地区气象的特殊性。高海拔地区大气气压低,空气密度小,会导致设备的散热能力下降;高原地区昼夜温差大,使设备的密封结构容易破裂,外壳容易变形皲裂;此外,海拔到达5 000 m以上时,太阳的辐射强度比低海拔时高1、25倍,热辐射会对设备起加热作用,降低有机绝缘材料的性能等等,这些原因都会加快设备报废7。建议相关部门查找出设备快速报废的原因,有针对性的改进设备的设计,提高高海拔地区设备的使用寿命8。4、2 经度、纬度因
15、子对装备状态的影响分析由于经度、纬度两者联合起来能描述部队的方位,两因素又相互独立,因此采用无交互作用的双因素方差分析法进行数据挖掘更有价值。4、2、1 无交互作用的双因素方差分析法判定模型5在该模型中,一个因素在行位置,有k个水平;另一个在列位置,有r个水平,行列因素的每一个水平都搭配成一组。若每个组合下对应着一个观察值xij(i=1,2,k;j=1,2,r),则xij瞧作就是从行因素与列因素组合成的kr个总体中抽取的样本容量为1的独立随机样本,其中这kr个总体每一个都服从正态分布,且有相同的方差。1) 提出原假设及备择假设对行因素的假设H0A:1=2=i=k,H1A:i(i=1,2,k)不
16、全相等;对列因素的假设H0B:1=2=j=r,H1B:j(j=1,2,r)不全相等。2) 构造行因素与列因素的统计量由于需要做两因素检验,因此定义行因素均方,列因素均方,随机误差项均方。则构造行统计量,列统计量。3) 对给定的显著水平做F检验若FRF,拒绝原假设H0,所检验行因素对观测值有显著影响;若FCF,拒绝原假设H0,所检验列因素对观测值有显著影响。4、2、2 建模与求解1)确定因素水平。将中国境内73135的经度范围以5为步长划分为12个水平,353的纬度范围以10为步长划分为5水平;2)统计样本矩阵。以废品为样本,依次筛选出落在第i(i=1,2,5)个行水平、第j(j=1,2,12)
17、个列水平下的所有废品,统计它们的可用数总与作为xij,得到样本矩阵例如矩阵中的x32表示纬度落在2333、经度落在 7883的所有废品数量总与为136个。3) 计算FR,FC两个统计量,分别对行因素、列因素做检验。4、2、3 关系强度的度量SSR、SSC两个指标可以分别度量纬度、经度对因变量产生的影响。然而在双因素判别法中,人们更关心两个因素联合起来的影响效应。定义,其平方根R就反映了双因子与因变量之间的关系强度,称为多重相关系数5。4、2、4 结果分析1) 经度对装备的4种新旧状态都有显著影响,而纬度只对新品有影响。这就是因为我国地域呈雄鸡形状,经度跨越范围大,纬度变化范围小,因此经度带来的
18、影响也应更大一些。2) 4个多重相关系数R均大于0、5,说明两因素产生了较强的联合影响效应,验证了将两因素联合考虑的合理性,也表明不论装备就是新还就是旧,与地理位置均存在很大联系。表6 经度、纬度对装备状态的影响情况统计装备状态新(01)堪(02)待(03)废(04)行因素(纬度)有无显著影响有没有没有没有列因素(经度)有无显著影响有有有有多重相关系数R0、7670780、8001650、6473060、6312864、3 装备类型、部队类型对装备状态的影响程度分析在日常生活中,根据长期的使用经验,人们对熟悉的产品存在着习惯性使用行为与习惯性购买行为,因此某种部队可能会对某型装备产生特殊“偏好
19、”,这种偏好会对该型装备的磨损产生影响,即这两个因素并不就是独立的产生作用,而就是会对因变量产生新的附加效应,因此本节采用有交互作用的双因素方差分析法。4、3、1 有交互作用的双因素方差分析模型6在该模型中,每个i、j组合水平下需要进行k(k2)次重复独立试验才能进行分析。设xij为对应于行因素的第i个水平与列因素的第j个水平的第l(lk)行的观测值;i为行因素的第i个水平的样本均值;j为列因素的第j个水平的样本均值;ij为对应于行因素的第i个水平与列因素的第j个水平组合的样本均值;为全部n个观察值的总均值。定义总平方与)2,行变量平方与)2,列变量平方与,交互作用平方与,误差项平方与、各项均
20、方依次为。1) 提出原假设与备择假设 对行因素提出假设; 对列因素提出假设; 对交互作用项提出假设:H0AB:1=2=j=r,H1AB:j(j=1,2,r)不全相等其中,对行列因素的假设与无交互作用方差分析法相同,这里不再陈述。交互作用项若通过了假设检验,表明两因素的交互作用对样本产生了显著影响。2) 构造检验统计量行因素统计量列因素统计量交互作用项的检验统计量3) 对给定的显著性水平,分别计算统计量FA,FB,FAB,若大于F拒绝原假设,小于F则接受原假设。4、3、2 建模与求解1) 确定因素水平。根据前文的分析,将部队类型按首位数划分为6个水平;对于装备层次码,它以3位为一级来反映层次关系
21、,经统计它的位数只有5种类型,因此按位数的长短将装备类型划分为5个水平。2) 统计样本矩阵。以废品为样本,在每个i、j组合水平下(i=1,2,5;j=1,2,12)都取定k=5,以等距抽样的方式统计出该组合水平下各种废品数量的总与作为样本值xij,得到样本如表7所示。表7 不同装备类型、部队类型下废品总数统计废品数量/个部队类型4字头部队5字头部队6字头部队7字头部队8字头部队9字头部队装 备 类 型0000006位码127311143位码287565198743692922015位码1919921915438位码11位码15070451663) 依模型计算统计量,做假设检验。4) 计算交互作
22、用相关系。4、3、3 结果分析可以瞧到,第一,部队类型、装备类型对于装备各新旧状态均有着显著影响。这就是因为不同数字头的部队职责划分不同,对于装备的使用频率也不尽相同,自然磨损程度会存在差异。而不同类型的装备在使用中的磨损程度也就是不一样的,比如液晶显示屏显然要比鼠标键盘这类低值易耗品耐用得多。第二,交互作用均通过了显著性检验,且相关系数R交互均在0、4左右,说明两个因素对装备状态产生了较明显的附加效应,其中消费习惯可能就就是产生该效应的原因之一。事实上,消费习惯现象就是客观普遍存在的,在做统计分析时不可忽视这种现象,简单地将各因素视作相互独立加以处理,会导致统计结果与客观事实产生偏差、甚至出现相违背的情况。表8 装备类型、部队类型对装备状态的影响情况统计装备状态新(01)堪(02)待(03)废(04)行因素(装备层次)有无显著影响有有有有列因素(部队层次)有无显著影响有有有有交互作用有无显著影响有有有有相关系数R交互0、340、320、410、455 结论本文基于已获得的模拟大数据,用不同的方差分析模型分别研究了5种因素对装备新旧状况的影响。建议相关部门若就是在各项数据均完备的情况下,先采用主成分分析、因子分析法提取出主要影响因子,再研究它们对装备状态的影响情况。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1