ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:225.83KB ,
资源ID:9758101      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9758101.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(部队装备新旧状态的大数据分析.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

部队装备新旧状态的大数据分析.docx

1、部队装备新旧状态的大数据分析部队装备新旧状态的大数据分析王玉琢,建军(海军工程大学理学院应用数学系, 430033)摘要:对已获得的模拟大数据进行了清洗和关联的预处理工作。以高程、经度、纬度、装备类型、部队种类5个方面作为影响因素,建立了3种方差分析模型,分别讨论了每种因素对装备新、堪、待、废4种状态的影响情况,以及各种因素联合起来产生的联合效应。通过计算相关系数,将每种因素与装备状态的关联程度进行量化比较。所得结论和提出的建议对部队的装备保障优化具有一定的意义。关键词:数据预处理;单因素方差分析;无交互作用双因素方差分析;有交互作用双因素方差分析近年来,随着互联网技术的飞速发展,军队信息化也

2、得到加快,各种军事资源数据的采集、储存与利用,为部队的现代化建设和科学化管理提供了有力的支持与理论依据。但是面对海量信息,如何结合部队实际,真实高效地利用这些数据资源做好部队的装备保障与维护工作,是当前亟待分析解决的一个重要问题1。装备的磨损消耗情况,是保障维护工作中常关心的问题,它除了与装备本身的耐用性、维护保养情况、使用频率这些因素直接相关外,还受到如气候条件这类因素的间接影响2。然而,出于等原因有些数据无法获得,即使这些数据是重要影响因子样本。为了便于研究,本研究基于已获得的模拟数据进行讨论,这些数据或许不是重要影响因子样本,但所用方法具有可复制性,结论具有参考性,可供有关管理部门借鉴。

3、1 数据采集通过添加随机扰动项对原始数据实现模糊处理,本文获取了部分部队的地理位置及装备状态的模拟大数据。在大数据背景下,文中所用的检验统计量依大数定律仍可以反映出总体特征。部分数据如表1、表2所示。表1中包含9439支部队的经度、纬度、高程3种地理位置信息。其中部队层次码采用多层变长的数字结构,两位一个层次,前12位为大单位名称编码,第34位为下一级单位名称编码,用来体现单位之间的上下级关系。如400009与400101属于同一级大单位,65020904与6502090203同属一个大单位,前者比后者高一级别。表2中共有163178条装备状态数据,包含装备当前的新旧状况、购买日期、现有数量3

4、类信息。其中装备层次码3位为一个层次,用来反映装备的类属关系和层次关系。如001001可能表示电脑配件大类中的液晶显示屏,1可能表示该大类下的鼠标。装备新旧状况被划分为新、堪、待、废4种,分别对应码01、02、03、04,用表3解释。表1部队地理位置信息序号部队层次码经度/()纬度/()高程/m140000999.1528.1607.2240010197.3229.36672307865020904121.136.2650.436797103000003119.0549.41177.6943999050102107.2835.161452表2 部队装备状态信息表序号装备层次码部队层次码装备状况

5、内码购买日期数量/个100100100100140010522010/9/30243200100100100140010542011/9/30192472500020030035704010432014/10/1831631770010050000000000009905020012013/9/3091631780010050000000000009905020022014/9/3010表3 装备码新旧状况装备状态内码说明新品01装备第一年为新品堪用02新品从第二年转为堪用待修03等待维修待报废04等待报废2 数据预处理基于该数据,初步判断影响装备新旧状况的可能因素有5种:部队所在的经度、纬度

6、、高程、部队类型、装备类型。2.1 数据清洗1) 清除空间上无用的数据。考虑到我国军事单位大部分位于国境围,所以可将境外的部队地理信息视为无效数据进行剔除。中国国境围为最北端漠河5333N,最南端曾母暗沙0358N,最东端黑瞎子岛13505E,最西端帕米尔高原7349E3以此作为筛选依据,从表1中去掉324条数据,剩下9115条部队地理位置信息。2) 清除时间上无用的数据。表2中5年前数据量占比为0.15%,时间久远比重低,参考性不大。剔除掉此类数据247条后剩下162931条装备状态信息。3) 清除信息不完整的数据。通过比较发现,表2中有些部队层次码在表1中没有出现,即有些部队缺少地理位置信

7、息,表1中有些部队层次码在表2中没出现,即有些部队缺少装备状态信息,这些数据对后续分析是无效的,需要删除。运用MATLAB软件进行两层循环遍历后,删除的不完整信息接近30%,缩减了后续数据分析的工作量。2.2 数据关联用EXCEL中的VLOOKUP函数,将处理后的两个表以“部队层次码”为桥梁整合到一个表中,最终该表包含87741条信息7个标题栏:部队层次码、装备层次码、装备状态码、现有数量、经度、纬度、高程。3 统计描述3.1 装备状态的分类统计装备的新旧状态为一个分类型变量,经统计4种新旧状态的可用装备总数比重依次为3.88%、94.73%、0.8%、0.52%,可见九成以上的装备均为堪用品

8、,废品的比重最低。3.2 各影响因素与装备状态之间的关联分析3.2.1 地理位置与装备状态的关联分析地理位置为一个三维连续型变量,首先对高程根据我国地貌特征划分为0200 m、2002 000 m和2 0005 800 m 3类3,代表平原、丘陵、高原3种地貌。然后在每个海拔段上对经度、纬度采用K均值法聚类4,实现方位分区。综合考虑分区后各区拥有的单位数量,最终将低海拔、中海拔、高海拔再细分为7个区、4个区、3个区,总共聚为14类。图1 低海拔7区划分图2 中海拔4区划分图3 高海拔3区划分统计14个区域上各新旧状态的装备数量,可以通过折线图依次观察不同区域上的新品率、堪用率、待修率、报废率的

9、波动情况。为了节省篇幅,这里通过一百分比堆积柱形图(图4)反映变量间的比重关系,可见不同地理位置上的新品率、堪用率波动不大,待修率、报废率差异明显。图4 不同区域下新旧装备数量比重3.2.2 装备类型与装备状态的关联分析经EXCEL分类汇总,表2中共有275种装备,分为001与002两大类别,且98%为001型。由于装备类型众多,选择数量最多的前5种装备为代表进行研究,这5种装备型号为1,2,4,6,1,简记为AE型。统计这5种装备各新旧状态可用数量,绘制百分比堆积柱形图(图5),发现5种装备堪用率基本相当,其他几种差异都比较大,其中B、E型装备的废品率比其他几种要高许多。因此装备类型对装备状

10、态存在影响。图5 6类部队各新旧装备数量的比重关系3.2.3 部队类型与装备状态的关联分析部队层次码的首位数从49一共6个整数,代表着部队隶属的最高类别,可按首位数字将部队类型划分为6类。统计6类部队下各种新旧状态的装备数量,绘制百分比堆积柱形图(图6)发现,6类部队的堪用率基本均衡,4字头部队装备的待修率和废品率比其他部队高出许多。因此部队类型对装备状态存在影响。3.3 小结本节对研究对象(装备新旧状态)和影响因素进行了初步的描述性统计,一定程度上反映了总体在的规律和关联,为后续工作提供了思路。但要给出更具有统计学意义的结论,则需要利用模型和统计量做进一步的统计推断。图6 A-E型装备中新旧

11、装备数量的比重关系4 建立模型及数据分析4.1 高程因子对装备状态的影响分析由于高程因子与其他因素之间相对独立,因此采用单因素方差分析判别法。此时将“高程”作为检验对象,不考虑其余因素产生的影响。4.1.1 单因素方差分析判别模型5在单因素试验中,首先假定每个总体都服从正态分布,方差相同,观测值相互独立。A表示影响因素,具有k个水平A1,A2,Ak,是因素A的具体表现。每个xij(i=1,2,k;j=1,2,r)表示第i个水平下的第j个观测值,来自正态总体)。1) 提出原假设与备择假设H0:1=2=i=k,自变量对因变量没有显著影响;H1:i(i=1,2,k)不完全相等,自变量对因变量有显著影

12、响。2) 构造检验统计量定义总误差平方和)2,水平项误差平方和,误差项平方和,其中SST=SSE+SSA。组间均方,组均方,则统计量。3) 进行F检验对给定的显著水平计算统计量F,判定FF(k-1,n-k)是否成立,若成立拒绝H0,即认为各水平均值间有显著差异,否则接受H0。4.1.2 建模与求解通常情况下,新品与废品之间人们往往更关心废品快速报废的原因,因此本文列出以废品数为样本的分析过程,以新品数、堪用品数、待修品数为样本的分析只列出结果供比较。1) 划分因素水平。根据上节对高程的聚类,将高程划分为3个海拔段,代表A1、A2、A3三种水平。2) 统计每个水平下的样本值。以废品为样本,经筛选

13、低海拔下有40种报废装备,中海拔下有72种,高海拔下有21种,每种装备的当前数量如表4所示。表4 各海拔下报废品数量统计1220212223394041427172低海拔(A1)42449322中海拔(A2)10643322651623618高海拔(A3)1218433) 计算F统计量,做显著性检验。经计算F=4.492 663F=3.065 839,故拒绝原假设,表明不同海拔下的废品数量之间有显著差异。4.1.3 关系强度的度量在单因素方差分析中,称为相关系数,用来测量两个变量之间的关系强度5-6。定义高程因子与4种装备新旧状态的相关系数为,由公式即可得到结果。4.1.4 结果分析以新品数、

14、堪用品数、待修品数为样本做方差分析的结果如表5所示。表5 高程对装备状态的影响情况统计高程装备状态新(01)堪(02)待(03)废(04)有无显著影响没有没有没有有相关系数RGC0.05850.01610.06990.254165可以看到,只有废品数受到高程的显著影响,其他3种受高程的影响并不显著;相关系数显示,且远大于后三者,表明高程与装备的报废之间有着较强关系。出现这样的结果主要是因为高海拔地区气象的特殊性。高海拔地区大气气压低,空气密度小,会导致设备的散热能力下降;高原地区昼夜温差大,使设备的密封结构容易破裂,外壳容易变形皲裂;此外,海拔到达5 000 m以上时,太阳的辐射强度比低海拔时

15、高1.25倍,热辐射会对设备起加热作用,降低有机绝缘材料的性能等等,这些原因都会加快设备报废7。建议相关部门查找出设备快速报废的原因,有针对性的改进设备的设计,提高高海拔地区设备的使用寿命8。4.2 经度、纬度因子对装备状态的影响分析由于经度、纬度两者联合起来能描述部队的方位,两因素又相互独立,因此采用无交互作用的双因素方差分析法进行数据挖掘更有价值。4.2.1 无交互作用的双因素方差分析法判定模型5在该模型中,一个因素在行位置,有k个水平;另一个在列位置,有r个水平,行列因素的每一个水平都搭配成一组。若每个组合下对应着一个观察值xij(i=1,2,k;j=1,2,r),则xij看作是从行因素

16、和列因素组合成的kr个总体中抽取的样本容量为1的独立随机样本,其中这kr个总体每一个都服从正态分布,且有相同的方差。1) 提出原假设及备择假设对行因素的假设H0A:1=2=i=k,H1A:i(i=1,2,k)不全相等;对列因素的假设H0B:1=2=j=r,H1B:j(j=1,2,r)不全相等。2) 构造行因素和列因素的统计量由于需要做两因素检验,因此定义行因素均方,列因素均方,随机误差项均方。则构造行统计量,列统计量。3) 对给定的显著水平做F检验若FRF,拒绝原假设H0,所检验行因素对观测值有显著影响;若FCF,拒绝原假设H0,所检验列因素对观测值有显著影响。4.2.2 建模与求解1)确定因

17、素水平。将中国境73135的经度围以5为步长划分为12个水平,353的纬度围以10为步长划分为5水平;2)统计样本矩阵。以废品为样本,依次筛选出落在第i(i=1,2,5)个行水平、第j(j=1,2,12)个列水平下的所有废品,统计它们的可用数总和作为xij,得到样本矩阵例如矩阵中的x32表示纬度落在2333、经度落在 7883的所有废品数量总和为136个。3) 计算FR,FC两个统计量,分别对行因素、列因素做检验。4.2.3 关系强度的度量SSR、SSC两个指标可以分别度量纬度、经度对因变量产生的影响。然而在双因素判别法中,人们更关心两个因素联合起来的影响效应。定义,其平方根R就反映了双因子与

18、因变量之间的关系强度,称为多重相关系数5。4.2.4 结果分析1) 经度对装备的4种新旧状态都有显著影响,而纬度只对新品有影响。这是因为我国地域呈雄鸡形状,经度跨越围大,纬度变化围小,因此经度带来的影响也应更大一些。2) 4个多重相关系数R均大于0.5,说明两因素产生了较强的联合影响效应,验证了将两因素联合考虑的合理性,也表明不论装备是新还是旧,与地理位置均存在很大联系。表6 经度、纬度对装备状态的影响情况统计装备状态新(01)堪(02)待(03)废(04)行因素(纬度)有无显著影响有没有没有没有列因素(经度)有无显著影响有有有有多重相关系数R0.7670780.8001650.6473060

19、.6312864.3 装备类型、部队类型对装备状态的影响程度分析在日常生活中,根据长期的使用经验,人们对熟悉的产品存在着习惯性使用行为和习惯性购买行为,因此某种部队可能会对某型装备产生特殊“偏好”,这种偏好会对该型装备的磨损产生影响,即这两个因素并不是独立的产生作用,而是会对因变量产生新的附加效应,因此本节采用有交互作用的双因素方差分析法。4.3.1 有交互作用的双因素方差分析模型6在该模型中,每个i、j组合水平下需要进行k(k2)次重复独立试验才能进行分析。设xij为对应于行因素的第i个水平和列因素的第j个水平的第l(lk)行的观测值;i为行因素的第i个水平的样本均值;j为列因素的第j个水平

20、的样本均值;ij为对应于行因素的第i个水平和列因素的第j个水平组合的样本均值;为全部n个观察值的总均值。定义总平方和)2,行变量平方和)2,列变量平方和,交互作用平方和,误差项平方和.各项均方依次为。1) 提出原假设与备择假设对行因素提出假设;对列因素提出假设;对交互作用项提出假设:H0AB:1=2=j=r,H1AB:j(j=1,2,r)不全相等其中,对行列因素的假设与无交互作用方差分析法相同,这里不再述。交互作用项若通过了假设检验,表明两因素的交互作用对样本产生了显著影响。2) 构造检验统计量行因素统计量列因素统计量交互作用项的检验统计量3) 对给定的显著性水平,分别计算统计量FA,FB,F

21、AB,若大于F拒绝原假设,小于F则接受原假设。4.3.2 建模与求解1) 确定因素水平。根据前文的分析,将部队类型按首位数划分为6个水平;对于装备层次码,它以3位为一级来反映层次关系,经统计它的位数只有5种类型,因此按位数的长短将装备类型划分为5个水平。2) 统计样本矩阵。以废品为样本,在每个i、j组合水平下(i=1,2,5;j=1,2,12)都取定k=5,以等距抽样的方式统计出该组合水平下各种废品数量的总和作为样本值xij,得到样本如表7所示。表7 不同装备类型、部队类型下废品总数统计废品数量/个部队类型4字头部队5字头部队6字头部队7字头部队8字头部队9字头部队装备类型0000006位码0

22、000003949212731114315870835412位码2875651904036955893874318611134977692922015位码131*191992191543130304774718位码1101504323208150703219921位码15070451663) 依模型计算统计量,做假设检验。4) 计算交互作用相关系。4.3.3 结果分析可以看到,第一,部队类型、装备类型对于装备各新旧状态均有着显著影响。这是因为不同数字头的部队职责划分不同,对于装备的使用频率也不尽相同,自然磨损程度会存在差异。而不同类型的装备在使用中的磨损程度也是不一样的,比如液晶显示屏显然要比

23、鼠标键盘这类低值易耗品耐用得多。第二,交互作用均通过了显著性检验,且相关系数R交互均在0.4左右,说明两个因素对装备状态产生了较明显的附加效应,其中消费习惯可能就是产生该效应的原因之一。事实上,消费习惯现象是客观普遍存在的,在做统计分析时不可忽视这种现象,简单地将各因素视作相互独立加以处理,会导致统计结果与客观事实产生偏差、甚至出现相违背的情况。表8 装备类型、部队类型对装备状态的影响情况统计装备状态新(01)堪(02)待(03)废(04)行因素(装备层次)有无显著影响有有有有列因素(部队层次)有无显著影响有有有有交互作用有无显著影响有有有有相关系数R交互0.340.320.410.455 结论本文基于已获得的模拟大数据,用不同的方差分析模型分别研究了5种因素对装备新旧状况的影响。建议相关部门若是在各项数据均完备的情况下,先采用主成分分析、因子分析法提取出主要影响因子,再研究它们对装备状态的影响情况。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1