制造业生产过程中多源异构数据处理方法综述.docx-资源下载

制造业生产过程中多源异构数据处理方法综述.docx

1、制造业生产过程中多源异构数据处理方法综述摘要：随着现代制造业向着自动化、信息化、智能化方向快速发展，生产过程中会产生大量的多源异构数据。对多源异构数据的有效处理和深度挖掘可为生产制造者提供更有效的生产调度、设备管理等策略，从而提高生产质量和效率。针对制造业生产过程中多源异构数据的处理方法与技术等进行系统性的综述，首先明确了制造业生产过程多源异构数据内容及分类；其次，阐述了多源异构数据处理中数据采集、数据集成及数据分析各个阶段应用的数据处理方法和技术，并分析了各种方法与技术的优缺点以及应用；最后，对生产过程中多源异构数据处理方法和技术进行总结，指出了现阶段多源异构数据处理方法及技术面临的挑战和发

2、展趋势。关键词：数据处理;多源异构数据;生产制造1 引言在全球信息技术快速发展的背景下，随着科学技术的迅猛发展和社会信息化程度的不断提高，人类社会共享的数据的数量大大增加，共享的数据的形式大大丰富。据希捷公司与国际数据公司（IDC）共同发布的数字化世界从边缘到核心白皮书，全球数据圈规模将从2018年的33 ZB增至2025年的175 ZB。其中，白皮书中指出，在全球数据圈中，制造业数据所占份额最大，远远超过其他行业。同时，伴随着中国“智能制造 2025”国家战略的实施，工业制造业面临重大的变革转型，大数据成为提升制造业生产力、创造力的关键。随着智能制造的发展，自动化、信息化、智能化等技术渗透到

3、制造业生产过程的各个环节，从工业现场的传感器、设备到制造生产过程中的各个信息系统（如制造执行管理系统、生产监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统等），均会产生大量不同结构类型的数据。以一个典型的纺织制造车间为例，其一天的数据量将达到84 GB，而一台半导体生产机器一天的数据量甚至可以达到TB级别，这些数据包括二进制、文本、视频、音频等数据。而海量的数据中蕴含着大量有价值的信息，对这些信息的提取有利于指导人们在生产制造、设备管理和生产调度等过程中做出正确的决策，达到优化制造流程、提高效能的目的，促进制造业生产过程的全面智能化，从而提高生产质量和效率。如图1所示，产品的制造流程

4、包括研发设计、物料采购、生产制造、产品销售及产品售后5个阶段，每个阶段的数据都具有数据来源多样、数据质量低、数据蕴含信息复杂、数据实时性高等特点，而从海量数据中发掘指导制造业研发设计、生产制造、销售售后和经营管理等过程的知识和规则，需要大量的模型算法等数据处理方法的支撑。尤其是在产品生产制造过程中产生的数据，其不仅数据量十分庞大，来源丰富、类型多样、结构复杂，而且由于制造业不同的部门和系统之间数据的来源、存储形式等各不相同，数据源之间存在异构性、分布性和自治性，数据类型既包括数字、关系型数据等结构化数据，也包括图像、音频等非结构化数据。因此，这对制造业生产制造过程中海量数据的处理方法和技术提出

5、了更高的要求。为了充分发挥制造业多源异构数据信息的潜力，更加高效地进行数据处理，必须在明确多源异构数据概念的基础上，对多源异构数据的处理方法和技术展开深入且系统性的研究。本文首先明确了制造业生产过程中多源异构数据的概念和类型；其次对生产过程中多源异构数据处理的过程进行了划分，同时对各个阶段的数据处理方法和技术及其在制造业生产过程中的应用进行了深入分析与讨论；最后，对生产过程中多源异构数据处理方法及技术进行了总结，并对现阶段面临的挑战及未来的发展趋势进行了分析与讨论。2 制造业生产过程中的多源异构数据大数据：下一个创新、竞争和生产力的前沿针对社会对大数据的关注及应用需求，对海量数据的处理技术进行

6、了介绍和总结。基于对不同来源、多种结构数据的综合研究的迫切需要，多源异构数据这一概念随之产生，其主要包括两个特征：一是数据来源具有多源性；二是数据种类及形态具有复杂性，即异构性。图1制造流程的5个阶段多源异构数据来自多个数据源，包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同，数据的存储模式和逻辑结构不同，数据的产生时间、使用场所、代码协议等也不同，这造成了数据“多源”的特征。另外，多源异构数据包括多种类型的结构化数据、半结构化数据和非结构化数据。结构化数据指关系模型数据，即以关系数据库表形式管理的数据；半结构化数据指非关系模型的、有基本固定结构模式

7、的数据，例如日志文件、XML文档、JSON文档、E-mail等；非结构化数据指没有固定模式的数据，如WORD、PDF、PPT、EXL及各种格式的图片、视频等。不同类型的数据在形成过程中没有统一的标准，因此造成了数据“异构”的特征。随着自动化、信息化、智能化等技术在制造业中的广泛应用，在生产过程中必然会产生大量的多源异构数据。从数据的来源来说，制造业的制造执行管理系统、生产监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统中的各种机器设施、工业传感器等在运行和维护过程中都会产生大量的数据。从数据结构类型来看，这些海量多源异构数据既包括设备监测数据、产品质量检测数据、能耗数据等结构化数据，

8、还包括生产监控系统产生的大量图片、视频等非结构化数据。本文综合其他学者的研究基础，针对制造业生产过程中产生的数据，按照数据来源和类型，将其做如下划分，见表1。对于制造业生产过程中的多源异构数据来说，由于生产过程存在复杂的变化条件，因此对数据的全面性、实时性的要求较高。3 制造业生产过程中多源异构数据处理在制造业生产过程中，从前期的数据广泛采集，到最后数据的价值提取，多源异构数据处理的一般流程包括数据采集、数据集成及数据分析。数据采集主要实现大量原始数据准确、实时的采集，为数据集成阶段提供原始数据源。数据集成主要实现数据的数据库存储，数据清洗、转换、降维等预处理以及构建海量关联数据库，为数据分析

9、阶段提供预处理的数据源。数据分析主要利用关联分析、分类聚类及深度学习等技术实现数据的价值挖掘。多源异构数据处理的一般流程如图2所示。图2多源异构数据处理的一般流程3.1 数据采集数据采集是多源异构数据处理的基础，只有实现对生产过程中产生的大量原始数据准确、实时的采集，并将其传输到数据存储管理平台，才能对生产设备、产品质量、工作调度等进行监控与管理，从而帮助生产管理部门做出更高效、精准的决策。针对不同类型生产制造业生产过程中的多源异构数据，需要采用不同的数据采集方法和工具。首先，对于离散制造业中的生产过程数据，主要使用射频识别（radio frequency identification，RFI

10、D）技术对生产车间中的原材料、设备、产品信息等进行数据采集。针对生产流水线上的产品信息，曹伟等人提出了一种无线射频识别数据采集单元模型，可获取零件的状态、时间等实时信息，并在此基础上建立了针对加工工序、工序流、批次与批量的无线射频识别监控模型，从而实现了对离散制造车间生产过程的可视化监控。而对于流程生产制造业中的生产过程数据，主要依靠传感器及上位机对数据进行采集。陈开胜提出了采用分布式控制系统（distributed control system，DCS）和可编程逻辑控制器（programmable logic controller，PLC）等辅助控制系统和控制装置进行数据采集的方法，该方法

11、是对计算机、网络和数据库的综合运用。此外，在流程生产中，以计算机为基础的数据采集系统还有数据采集与监视控制（supervisory control and data acquisition，SCADA）系统。其中，PLC主要应用于生产现场的温度测控；DCS主要应用在对测控精度及速度要求较高的生产现场的数据采集；SCADA则融合了PLC的现场测控功能和DCS的组网通信能力，可以对分散点进行控制，从而实现对分布范围较广的生产现场的覆盖。西门子公司在PLC的基础上加入了网络以及软件等，开发了SIMATIC PCS7西门子SCADA系统、SIMATIC WinCC西门子SCADA系统等控制系统，而DC

12、S厂商霍尼韦尔公司也在其系统中融入了PLC，以增强其逻辑控制，开发了过程知识系统（process knowledge system，PKS）。对于在离散制造业及流程制造业中均广泛存在的日志数据及多媒体数据等，同样根据其各自的特点采用不同的数据采集方法。对于制造生产过程产生的日志数据文件，可以采用Flume这一分布式、高可靠、高可用的日志采集传输系统。陈飞等人提出了一种基于Flume并结合Elasticsearch及Kibana的新型分布式采集系统，该系统适用于海量日志数据的采集。针对生产过程对音频、视频等多媒体数据的监控，有利用多媒体流处理引擎直接抓取或利用厂商提供的软件开发工具包（softw

13、are development kit，SDK）开发数据导入程序的数据采集方法。李凤娇在海康威视的8100系列网络硬盘录像机的基础上，通过调用海康威视提供的SDK中的相关接口函数读取实时视频流。另外，浙江宇视科技有限公司的IP流媒体解决方案可以通过安装流媒体服务器软件来对多媒体数据进行实时访问及存储。对于这几种典型的数据采集方法，本文根据其面向的数据类型及在生产过程中的应用进行了总结，见表2。另外，针对数据采集的新需求，相关研究也提出了许多与网络技术相结合的创新型数据采集方法。马吉军等人提出了一种基于边缘计算的生产数据采集方法，利用蜂窝网络对生产设备进行网络化改造，并利用边缘网关对采集到的生产

14、数据进行本地处理。许瀚之和杨小健提出了一种基于虚拟专用网（virtual private network，VPN）的远程工业数据采集系统，在已建好的VPN环境下通过用于过程控制的OLE（OLE for process control， OPC）客户端进行数据采集。对于目前几种典型的数据采集场景，实际应用中根据其采集的数据类型及要求等，采用Flume、RFID、传感器等不同的采集方法，这些方法具有不同的优势。而面对目前数据量迅速增长以及数据类型日益复杂化的问题，传统数据采集方法难以满足更具实时性、更精确的采集要求，因此，与物联网等前沿技术相结合成为数据采集的发展趋势。3.2 数据集成多源异构数据

15、集成是整合来自多个数据源的数据，屏蔽数据之间类型和结构上的差异，解决多源异构数据的来源复杂、结构异构问题，从而实现对数据的统一存储、管理和分析，实现用户无差别访问，充分发挥数据的价值。数据集成的关键技术包括数据存储管理、数据清洗与转换及数据降维。3.2.1 数据存储管理数据的存储管理是多源异构数据处理过程中非常重要的一个环节，选择合理的数据库可以减少数据检索的时间，提高数据查询的准确度，是后续数据处理的基础。目前常见的数据库技术包括：以MySQL、Oracle、DB2、SQL Server等为代表的SQL数据库，以Redis、HBase、MongoDB、Neo4j等为代表的NoSQL数据库，以

16、及NewSQL数据库。美国甲骨文公司研发的Oracle是一种高效、适应高吞吐量的关系型数据库系统，在数据量大、对系统性能稳定要求高的钢铁、煤炭、汽车制造行业应用广泛。美国IBM公司开发的DB2具有伸缩性能良好、查询性能良好以及向下兼容性好的特点，适用于海量数据的存储管理，在政府、银行等广泛应用，另外在宝钢、本钢等钢铁企业也有应用。制造业生产制造过程中产生的海量多源异构数据包含结构化、半结构化和非结构化多种数据。由于面向结构化数据的传统关系型数据库在伸缩性、容错性、可扩展性等方面存在的固有局限性，单独使用难以满足对海量多源异构数据进行存储管理的要求，因此NoSQL数据库成为目前研究与应用的热点。

17、根据数据存储模型和特点，NoSQL数据库可分为4种典型类型：以Redis、Memcached为代表的键值存储数据模型，以Bigtable、HBase为代表的列式存储数据模型，以MongoDB为代表的文档存储数据模型，以及以Neo4j为代表的图形存储数据模型。Redis常被应用在社交领域，用来存储用户关系和计数。由于生产过程中多源异构数据对实时性要求较高，因此Redis在制造业数据存储中常被用作缓存系统，以保障数据存储的低时延性。在电力计量采集系统中，基于Redis的分布式写缓存子系统用于缓存采集的计量数据，再批量写入关系数据库。在大型机械设备的数据采集与存储中，熊肖磊等人在数据层基于Redis

18、实现了实时数据的解析缓存，使系统具有高效缓存数据的能力。Google Bigtable开源实现的HBase具有扩展性好、备份机制完善的特征，当制造业生产过程涉及多源异构数据的统计分析时，可使用HBase对来自各个子系统的数据进行同步整合存储。例如，在分布式电源控制系统中，可以实现各个分布式电源系统的运行状态数据至HBase数据库的同步。查询语言功能强大的文档存储数据库MongoDB适合数据量大、数据模型无法确认、需要对接多个数据源等的场景，数据来源复杂是制造业生产过程多源异构数据的主要特点之一，因此MongoDB常被用于多个数据源或子系统的对接。在工业生产中，MongoDB可用于对过程的连续监

19、控；在混凝土行业中，MongoDB用来存储海量的混凝土生产消耗数据，并实现多个系统之间的数据对接；在电力行业， MongoDB可以实现电网图形的多时态、多级分布式存储。针对工业制造业过程数据产生速率快，实时性要求高，对事务的原子性（atomicity）、一致性（consistency）、隔离性（isolation）、持久性（durability）（即ACID）要求低的特点，冯德伦提出了NoSQL数据库合理组合的工业历史数据存储方案。针对制造业生产过程多源异构数据的来源更加多样化的发展趋势， NoSQL数据库与其他技术相结合的大数据平台或解决方案近年来也有不少案例。赵德基等人提出了基于Dubb

20、o与NoSQL的工业领域大数据平台，针对工业多源异构数据的接收、存储、计算、分析及展示，根据不同场景的业务需求提供了相应的解决方案。文棒棒和曾献辉提出了一种基于传统数据库多表架构与NoSQL大数据库相结合的新型数据存储方案实现实时数据的分布式存储。除此之外，451 Group的分析师Aslett M提出了NewSQL技术，其具有NoSQL对海量数据的存储管理能力，同时还保持了传统数据库支持ACID和SQL的特性，但目前应用范围大多为专有软件或特定场景。对于上述几种典型的数据库技术，笔者对数据库模型、支持的数据类型和应用场景等进行了对比，结果见表3。以上几种典型的数据库技术均有其特定的优势及应用

21、场景，而在特定复杂的应用场景中，单一的数据库往往难以满足人们对数据存储管理等多方面的要求，李东奎和鄂海红提出了关系型数据库不能完全被NoSQL数据库替代的观点，并基于Hibernate OGM建立了统一的SQL和NoSQL数据库访问模型，使得两类数据库能够在同一个框架下按照统一的规则进行读写。因此，根据具体的应用场景，选择不同类型的数据库进行混合部署，使数据库之间形成互补，是目前多源异构数据存储管理的发展趋势。3.2.2 数据清洗与转换准确可靠的数据是进行有效数据分析、数据挖掘的前提。在实际的生产过程中，由于多源异构数据来源众多的特征，采集到的数据的质量难以保证，缺失的、错误的、不一致的等不符

22、合规范的“脏数据”普遍存在，同时来自不同系统的数据的格式也并不统一，这些都会给数据的有效分析带来困难。数据清洗的目的就是检测数据中存在的“脏数据”，通过数据筛选、数据修复等手段提高数据的质量。而数据转换主要是将多源异构数据转换成统一的目标数据格式，并完成对不同数据指标进行转换的计算。针对生产过程中不同的问题数据，可以给出不同的数据清洗方法。由于制造业生产过程中的多源异构数据往往来自多个数据源，各数据源通常具有不同的数据库系统、接口服务等，因此数据具有结构类型多样、表达形式不统一等特点，这就导致采集的数据中会存在数据缺失、数据错误、数据不一致等问题。对于缺失的数据，大多数情况下需要手工进行填入，

23、某些情况下可以通过统计学习的方法对缺失值进行处理。曹林针对具有聚类特征的数据集，提出了一种回归插补的缺失值清洗框架。对于错误数据，首先利用统计分析的方法对可能出现的错误值进行识别，然后才能对错误数据进行清除，达到数据清洗的目的。对于不一致的数据，可以基于关联数据之间的一致性来检测数据潜在的错误，并进行修复，以完成对多数据源数据的清理。对于制造业生产过程中的多源异构数据来说，单一的数据清洗方法难以满足实际需求，这就需要一个系统的数据清洗方案。ETL（extract、transform、load）工具是一类常用的大数据预处理工具，应用广泛的有国外开源的Kettle工具、IBM公司的Datastag

24、e以及Informatica，其在数据清洗环节发挥着十分重要的作用。也有许多研究人员按照不同的需求对ETL技术进行了改进与完善。周瀚章等人设计了一种基于区域划分算法的ETL高效数据清洗方案，解决应用ETL时产生的大量错误属性数据的问题。ETL工具不仅在数据清洗方面具有广泛的应用，同时也是数据转换的主要工具。孙安健等人设计了一种可以屏蔽异构数据源访问差异的通用ETL工具，提供了大量转换组件来灵活处理复杂的应用场景。陈玉东和姚青提出了一种应用于业务流程数据的转换规则，通过设计流程数据转换算法来将流程日志中的数据快速准确地转换成评估系统需要的标准数据。除此之外，针对不同的制造业门类及数据采集方法，有

25、不同的数据清洗方案。针对RFID采集数据实时性强、数据量大的特点，余杰和王睿提出了基于时间和基于时间间隔的布鲁姆滤波模型，可以在低内存的情况下保证数据应用的实时性。针对生产车间制造物联环境下采集到的数据连续性、冗余性强的特点，蓝波等人提出了一种基于卡尔曼滤波模型的滑动窗口技术，该技术更加适用于RFID标签移动的生产场景。这些研究针对不同的生产制造场景、不同的采集数据类型和特点，对数据清洗方法进行了改进和完善，使其更加适应实际应用的需要。目前，深度学习和众包技术开始在数据清洗环节得到应用。郝爽等人提出了利用深度学习模型解决复杂数据清洗任务的方法。针对参与者水平参差不齐造成数据清洗质量较低的情况，

26、万耀璘等人提出了在决策阶段利用成熟计算机算法来提高众包可靠性的方案。深度学习可以减轻用户制定数据清洗规则的负担，众包技术将数据清洗任务发送到互联网，利用公众的参与来提高数据清洗的效率，二者与传统数据清洗技术的结合是数据清洗技术在未来一段时间的发展趋势。对于数据转换来说，ETL工具仍然是提高数据质量、屏蔽数据差异的首选工具。因此，对ETL工具自身现有的扩展性差、调试不便利等局限性进行改进和完善是下一步研究与开发的重点。3.2.3 数据降维多源异构数据具有种类繁多、结构复杂的特点，为了从原始数据中提取更加可靠、有效的数据信息，需要消除无关、冗余的特征，生成新的特征数据，从而实现对高维数据的降维。在

27、现代制造技术的发展中，制造业生产过程中海量的多源异构数据往往维数较高且大量数据之间存在较高的相关性，这给数据降维带来了更高的难度。一般来说，可以通过对数据进行特征选择或者特征提取来实现数据降维。特征选择的方法通过对原始特征集合中的元素进行选择来得到原始特征集合的子集，从而实现降维；而特征提取的方法则通过对不同特征进行组合来得到新的特征集合，从而达到数据降维的目的。特征选择不改变特征的含义，从原始特征数据集中选择具有代表性和统计意义的特征，以实现降维的目的。特征选择方法包括基于全局搜索、随机搜索以及启发式搜索策略的特征选择方式和基于Filter、Wrapper的特征选择算法。全局搜索策略遍历原始

28、特征集，通过评价准则选择满足特定条件的特征子集，其优点是可以得到最优特征子集。但制造业生产过程中的多源异构数据往往是具有多个独立或相关属性的高维数据，因此运算成本较高，在实际中难以应用。随机搜索策略首先随机选择特征，然后用模拟退火算法进行顺序搜索，或用遗传算法进行无规则搜索，再根据分类的有效性对特征赋予权重，选择权重大于定义阈值的特征。由于随机搜索易受随机因素的影响，不确定性较高，不同的参数设置对随机搜索结果也有较大的影响。启发式搜索策略又被称为序贯优选法，可以实现最优特征子集与计算复杂度之间的平衡。相比于前两种方法，其复杂度较低、效率更高。陈建华针对设备故障中对数据集降维的问题，提出了一种基

29、于关联关系与启发式搜索组合的特征选择方法，特征子集通过双向搜索算法产生，并通过计算属性之间的关联关系来剔除冗余属性，提高了效率和准确性。基于Filter的特征选择直接根据评价准则对数据的统计特征进行评价，去除重要程度低的特征，选出的特征子集一般规模较大，适合作为特征预筛选器。基于Wrapper的特征选择依赖后续分类算法，将子集的选择看作搜索寻优问题，根据分类器的准确率来对特征子集进行评价，其分类效率与精度都较高。制造过程中的多源异构数据往往特征众多且关系复杂，田文荫提出了针对高维制造过程的结合偏最小二乘回归与Wrapper特征选择的混合特征选择方法，同时针对制造业生产数据常出现的类别间不平衡问

30、题，提出了一种基于G-Mean的新的混合特征选择方法，在降维能力和分类性能方面均取得了良好的结果。特征提取通过将原始特征变换成具有具体物理意义或统计意义的特征，将高维的特征向量变换为低维的特征向量。由于制造业生产过程中的多源异构数据来源于制造生产各个环节中的设备、产品信息等，具有较强的专业性及关联性，因此在进行数据特征提取时会更加注重特征背后的物理意义以及特征之间的关联性。传统的特征提取方法包括线性主成分分析（principal component analysis，PCA）、线性判别分析（linear discriminant analysis，LDA）、独立成分分析（independen

31、t component analysis，ICA）、非线性的核主成分分析（kernel principal component analysis， KPCA）、核独立成分分析法（kernel independent component analysis， KICA）。主成分分析法主要通过观测变量内部的相互关系来整理信息，将可能相关的原始数据集转换成线性不相关的新特征集合，实现高维数据向低维数据的压缩。在纺织业中，刘海军等人利用本色布纹理的自相关性特征，采用主成分分析法去除其相关性，得到了纹理的主成分，将在主成分方向上样本图像的压缩结果作为特征变量，进行分类检测，得到了较高的分类准确度。在煤矿井

32、下供电系统故障检测中，郭凤仪等人通过对时频域变换的回路电流特征矩阵的奇异值进行主成分分析，得到了故障识别的特征，进一步采用遗传算法优化的支持向量机对故障电弧特征的有效性进行测试，可以有效识别电机及变频器负载回路的串联故障电弧。针对机械装备制造业生产过程对加工设备依赖程度高的问题，姚菲提出了一种对备件预测理论的创新性探索，利用基于主成分分析和支持向量机的综合算法进行需求预测，从而实现对设备备件需求的预测。主成分分析法适合处理呈高斯分布的原始数据，但实际生产过程中多源异构数据分布的复杂程度远超高斯分布，这限制了主成分分析法的应用。线性判别分析法是有监督的特征提取方法，降维后在新的子空间中使同类特征

33、尽可能接近、不同类特征尽可能分散，与主成分分析法一样，也适合用于处理高斯分布数据。针对模拟电路故障诊断中故障数据的特征提取方法，肖迎群等人对模拟故障数据在主元变换空间进行线性判别分析，并将最优判别特征模式应用于模式分类器，在充分简化模式分类器模型及降低系统运行成本的基础上获得了较好的诊断结果。另外，在图像识别数据分析中，线性判别分析法也是一个十分具有优势的工具。在对铅酸蓄电池X射线图像的特征提取中，杨金堂等人分别采用主成分分析法、线性判别分析法以及二次线性判别分析法，最终得出二次线性判别分析法在该图像识别中具有较高识别率的结论。独立成分分析法将原始数据分解为若干独立分量的线性组合，更适合用于处理非高斯分布的情况。杨冲等人采用独立成分分析

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？