大数据在制造领域的应用文档格式.docx

资源描述

大数据在制造领域的应用文档格式.docx

《大数据在制造领域的应用文档格式.docx》由会员分享，可在线阅读，更多相关《大数据在制造领域的应用文档格式.docx（9页珍藏版）》请在冰豆网上搜索。

大数据在制造领域的应用文档格式.docx

一是数据总量大，目前大数据最小单位一般被认为是10-20TB的量级；

二是数据类型多，包括了结构化、非结构化和半结构化数据；

三是数据的价值密度（单位重量物品的价值）很低；

四是数据产生和处理的速度非常快。

这四个特点又被称为大数据的4V理念，即：

Volume,Variety,Value,Velocity。

2大数据面临的挑战

大数据的数据集大小以难以想象的速度增长,给数据处理带来了极大的挑战。

首先,信息技术的发展使得数据的生成和消费变得更容易。

例如,每分钟有72小时长度的视频被上传到Youtube服务器，大数据的这种大容量特性使得数据难以可伸缩地从分布式的地点收集并集成；

第二,数据采集后,如何以最小的硬件和软件代价存储和管理这些海量异构数据是非常具有挑战性的问题；

第三,由于大数据的异构性、规模性、实时性、复杂性和隐私性等特点,大数据分析必须在不同层次（建模、可视化、预测和优化）高效地挖掘数据以提高决策效率；

这些挑战迫切地需要对整个数据管理系统的各个层次（从体系架构到具体机制）进行变革。

但是如果能有效地管理大数据,就能够给许多领域,如科学和环境建模、健康医护和能源保护带来巨大的变革。

3大数据的技术

依据大数据生命周期的不同阶段，可以将与大数据处理相关的技术分为相应的三个方面：

3.1大数据存储

从海量数据时代开始，大规模数据的长期保存、数据迁移一直都是研究的重点。

从20世纪90年代末至今，数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。

其中主要有：

DAS（DirectAttachedStorage），直接外挂存储；

NAS（NetworkAttachedStorage），网络附加存储；

SAN（StorageAreaNetwork），存储域网络和SANIP等存储方式。

这几种存储方式虽然是不同时代的产物，但各自的优缺点都十分鲜明。

数据中心往往是根据自身服务器数量和要处理的数据对象进行选择。

此外，这两年数据存储的虚拟化从研究走向现实。

所谓虚拟化，就是将原有的服务器进行软件虚拟化，将其划分为若干个独立的服务空间，如此可以在一台服务器上提供多种存储服务，大大提高了存储效率，节约存储成本，是异构数据平台的最佳选择。

从技术角度讲，虚拟化可以分为存储虚拟化和网络虚拟化，网络虚拟化是存储虚拟化的辅助，能够大幅度提升数据中心的网络利用率和传输速率。

可以预见虚拟化会成为未来大数据存储的一个主流技术。

3.2大数据挖掘

在大数据的处理技术中，超大规模的数据挖掘一直是难点，也是重点。

面对上百TB，甚至PB级别的异构数据，常规的处理工具往往难以担当重任。

需要考虑的是大数据是个不断生长的有机体，因此在挖掘过程中还需要考虑到未来数据继续增长所带来的影响。

因此，大数据的挖掘需要采用分布式挖掘和云计算技术。

Google公司一直是分布式挖掘技术的领导者，它研发了MapReduce分布式挖掘工具，英特尔公司在此基础上开发了Hadoop分布式挖掘工具。

这两个工具都具有高效、高扩展、高可靠性和高容储率的特点，并提供免费版本，适用于各种类型的大数据挖掘。

3.2.1MapReduce模型

MapReduce模型是一种云计算中的并行计算模型的主要研究对象。

它通过基于云平台中的大数据进行挖掘，从而获取网页相关数据对其研究得出结果。

MapReduce模型有两个函数：

Map函数和Reduce函数。

MapReduce模型首先获取用户需处理的数据进行splite，然后分别传送到Mapworker进行处理。

Mapworker从输入中获取<

key.value>

对集合，然后Map函数执行该集合获取中间结果存入本地磁盘。

Reduceworker先从本地磁盘上获取数据，然后对<

中的key值进行排序。

排序之后Reduce函数对这些排序好的对集合进行处理并输出最终结果。

MapReduce模型的不足说到底就是MapReduce模型的性能问题，Map/Reduce的程序效率问题。

Google公司的Hadoop系统采用了Combiner来提高Map/Reduce程序效率。

Combiner主要削减了Map阶段的输出以减少中间结果数据，进而为网络带宽和Reduce阶段减负。

3.2.2Hadoop模型

Hadoop是一个开源的分布式存储和计算框架，用户可以轻松地基于Hadhoop开发和运行处理海量数据的应用程序。

Hadoop的主要特点如下：

（1）可靠性：

HDFS作为Hadoop的文件系统，能够自动维护数据的多份副本。

MapReduce可以在任务失败后根据其他副本来自动重新部署计算任务。

（2）可扩展性：

Hadoop可以在不停止集群运动过程中进行集群横向扩展，并能方便地扩展到数以千计节点的超大集群规模。

通过balance机制Hadoop能够将数据平均分布到各节点中。

通过集群的扩展，可以存储更多的数据文件，处理更大的数据集。

（3）高效性：

由于HadoopMapReduce采用移动计算的方式而不是移动数据的方式进行分布式计算，其在面对海量数据时也能高效处理。

另外HadoopMapReduce的数据本地化（datelocality）特性，使计算节点就近处理数据，加快了任务的执行。

数据在节点之间动态的移动，保证各个节点的动态平衡，因此处理速度非常快。

（4）低成本：

Hadoop集群的高效处理能力不在于使用造价昂贵的机器。

Hadoop可以在一般的商用软件上搭建运行，且Hadoop是Apache开源项目之一，基于Hadoop完成项目时，软硬件成本因此会大大降低。

3.3大数据分析

从内容来说，大数据的分析分为技术和方法的两种类型。

从技术上讲，主要是分布式的数据分析和非结构化数据处理等。

从方法上讲，主要是利用常用的数理统计方法来进行数据分析，例如使用可视化的数据分析工具。

但两者是一个有机的整体。

大数据处理的最终目的是为了将数据之间的关系以可视化的方式呈现在用户面前，包括了处理的全部过程和展现的过程。

在数据的分析过程中，不仅仅是需要计算机进行自动化的分析，更需要人工进行数据选择和参数的设定，两个是辩证的关系。

3.3.1常用的大数据分析方法

尽管目标和应用领域不同，一些常用的方法几乎对于所有的数据处理都有用，下面将讨论三种常用的数据分析方法：

（1）数据可视化：

与信息图学和信息可视化相关。

数据可视化的目标是以图形方式清晰有效的展示信息。

（2）统计分析：

基于统计理论，是应用数学的一个分支。

在统计理论中，随机性和不确定性由概率理论建模。

统计分析技术可以分为描述性统计分析和推断性统计分析。

描述性统计是对数据集进行摘要和描述，而推断性统计是对过程进行推断。

（3）数据挖掘：

是发现大数据集中数据模式的计算过程。

许多数据挖掘算法已经在人工智能、机器学习、模式识别、统计和数据库领域得到了应用。

4“大数据”助力制造流程工艺规划

在过去的20年时间里，制造商已经可以通过实施精益生产和六西格玛项目（六西格玛是一种改善企业质量流程管理的技术，以“零缺陷”的完美商业追求，带动质量成本的大幅度降低，最终实现财务成效的提升与企业竞争力的突破），减少生产工艺流程中的浪费和变化问题，并大大提高产品的质量和产量。

然而，在医药、化工和矿业等特定的加工环境中，极端波动的变化已经成为常态，甚至运用精益技术也无法解决。

在上述产业及其他产业，影响产出的因素纷繁复杂，因此，制造商需要一种更加细化的方法来诊断和纠正工艺流程缺陷，高级分析就是这样一种方法。

高级分析是运用统计和其他数学工具对业务数据进行分析，进而评估和改进当前操作工艺流程的一种方法。

在制造业，运营经理可以使用高级分析，深入了解历史工艺流程数据，找出离散工艺步骤和投入之间的模式和关系，找出对产量影响最大的可靠因素，对其进行优化。

现在，各个行业和地区的诸多全球制造商都收集了大量的实时车间数据，也有能力开展这种先进的统计评估。

他们对过去彼此孤立的各类数据进行汇总和分析，从中得出深刻见解。

对于希望使用大数据分析方法来改善加工工艺流程，提高产量的制造商来说，第一个关键步骤就是对现有可用数据进行整理。

很多制造商都收集了大量的工艺流程的数据，但这些数据只用于跟踪，并没有成为改善运营操作的基础（我的解释：

制造商利用平时收集到的工艺数据主要是跟踪后续加工过程是否存在加工误差，而没有对大量的工艺流程的数据进行系统分析，比如：

切削速度对于工件加工精度的影响，通过大数据的分析方法我们可以在保证高加工精度情况下适当的提高切削速度，提高效率；

工艺流程中的各个工序的先后顺序对于工件质量和加工效率的影响，通过大数据的分析方法对工艺流程的数据进行分析，适当的调整加工工序，从而改善加工质量）。

大数据时代才刚刚出现，但是在数学研究和科学应用领域，高级分析的应用已有多年的历史。

高级分析法是提高产出的一个重要工具，对于工艺流程复杂度高、变化大和存在容量限制的制造业来说尤其如此。

事实上，如果可以成功进行定量评估，公司就可以在众多竞争者中脱颖而出。

4.1加工工艺优化中大数据的分析方法的应用

工艺优化是合理安排产品制造工艺、优化和节约制造资源、缩短产品制造周期、降低制造成本、提高产品质量，是推动企业技术进步的重要手段，是计算机辅助工艺设计（CAPP）、特别是定量化CAPP一个尚未得到很好解决的重要课题，面对军工、航天航空、船舶、汽车等行业中的复杂零件，进行工艺优化尤其显得重要。

工艺优化一般分为三个层次：

加工方法优化、加工序列优化及切削参数优化。

通过提取加工特征的几何与制造信息，在资源环境的约束下进行加工方法的推理（加工特征类别、制造资源加工能力、加工链长度），得到具有一定可行性的加工方法，然后根据加工方法进行加工单元的设计，并进行工艺路线（变换装夹、变换机床、聚类程度）和加工参数（加工质量、切削时间、切削成本、加工效益）的优化。

虽然不同的层次有不同的算法，但最后利用综合目标对三个层次的优化结果进行综合优化与评价，得到最优的工艺。

在加工方法推理阶段，主要以加工特征的类别、可用的制造资源及能达到的指标作为方法的约束，并以加工链的长短和加工能力作为选择最优方法的标准；

加工序列和加工参数以遗传算法（遗传算法（Genetic

Algorithm）是一类借鉴生物界的进化规律演化而来的随机化搜索方法。

其主要特点是直接对结构对象进行操作，不存在求导和函数连续性的限定；

具有内在的隐并行性和更好的全局寻优能力；

采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则）为主，其中工艺路线的优化主要以几何拓扑结构和相关的工艺准则进行约束，以聚类程度、变换机床和变换装夹来作为选择的标准；

加工参数则在保证切削质量的情况下选择最小切削成本和最短加工时间的参数。

其中工艺路线的优化是优化的重点之一，根据加工方法优化的结果（不同加工方法构成的加工过程中获得的机械加工大数据，利用大数据的分析方

展开阅读全文