物联网工程自考12577智能数据处理复习资料.docx
《物联网工程自考12577智能数据处理复习资料.docx》由会员分享,可在线阅读,更多相关《物联网工程自考12577智能数据处理复习资料.docx(57页珍藏版)》请在冰豆网上搜索。
物联网工程自考12577智能数据处理复习资料
高纲1728
江苏省高等教育自学考试大纲
12577智能数据处理
南京信息工程大学编(2018年)
Ⅲ课程内容与考核要求
第一章物联网与产业发展
一、学习目的与要求
通过本章学习,要求了解物联网产业的发展历史,理解传感器与智能硬件的概念,了解物联网服务平台,了解工业4.0与CPS;理解物联网与大数据的概念及关系;理解物联网产业面临的挑战,理解物联网操作系统与数据库,理解物联网大数据处理与应用。
二、课程内容(考试内容)
三、考核知识点与考核要求
1.物联网产业的发展
领会:
传感器与智能硬件的概念。
传感器通常由敏感元件和转换元件组成,能够检测感受到的信息按一定规律转换成电信号输出,以满足对信息的传输、处理、显示、记录和控制等要求
智能硬件:
家庭安防、空气净化器、智能路由器、智能插座、智能灯泡等等……
简单应用:
物联网服务平台,工业4.0与CPS
2014年8月苹果WWDC(国际消费电子展)大会上发布了HomeKit平台主要为智能硬件开发者提供IOS上的数据、控制接口,实现利用苹果设备作为智能家居的控制中心
工业4.0的概念由德国在2011年的汉诺威工业博览会上第一次提出。
信息物理系统(cyberphysicalsystems,简称CPS)作为计算进程和物理进程的统一体,是集成计算、通信与控制于一体的下一代智能系统。
信息物理系统通过人机交互接口实现和物理进程的交互,使用网络化空间以远程的、可靠的、实时的、安全的、协作的方式操控一个物理实体。
“工业4.0”与“CPS”在本质上是异曲同工的,其战略核心是制造智能化。
它们的目标在于通过物联网、信息通信技术和大数据分析,把不同设备通过数据交互连接到一起,让工厂内部,甚至工厂之间都能成为一个整体,在自动化之上形成制造的智能化。
2.物联网与大数据
领会:
物联网与大数据的概念、关系、作用意义。
近年来随着互联网的飞速发展,特别是随着电子商务、社交网络、移动互联网及多种传感器的广泛应用,以数量庞大、种类众多、时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显。
传统的数据存储、分析技术难以实时处理这些大量的非结构化信息,大数据的概念应运而生。
对于“大数据”,IT研究机构Gantner给出了这样的定义:
“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”
3.物联网产业的机遇与挑战
挑战:
1.多数的受访者表示他们对数据隐私和个人敏感信息安全等事务相当担忧数据安全和个人隐私泄露的危险将大大增加。
2.物联网缺乏一套通用标准,也没有保障兼容性和易用性的相关技术。
3.大数据处理的难度不仅仅在于数据量大,因为计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战。
而大数据真正难以对付的挑战来自数据类型多样、要求及时响应和数据的不确定性
机遇:
物联网技术的发展将和大数据技术紧密结合起来,将成万上亿计的传感器嵌入到现实世界的各种设备中,获取来自传感器的数据,对其进行智能化的处理、分析、挖掘出物联网大数据在单个物联网设备及传感器条件下完全不同的价值,从而提供更加深化、智能、贴近于用户的产品及服务,这将是物联网产业发展面临的一大机遇。
领会:
物联网产业面临的挑战,物联网操作系统与数据库,物联网大数据处理与应用
1.微软推出了Windows物联网开发者计划,目的是为小物件装上Windows操作系统
2.ARM推出了专门针对物联网领域的mBed物联网设备平台,包括三个方面:
mBedOS、mBed设备系统管理、mBed社区。
其中OS在设备端落地、DeviceServer做管理端操纵、社区提供技术支援。
3.谷歌推出了基于安卓开发的针对物联网智能家居平台的操作系统,名为“Brillo”新的操作系统属于物联网的底层操作系统,旨在对硬件需求最低化,能够实现端到端的设备连接,以安卓为核心,保留最基本的内核功能,可与任何安卓设备轻松对接。
4.2015年华为网络大会上发布的LiteOS,是全球最轻量级的开源物联网操作系统,只有10KB,具有零配置、自发现、自组网、跨平台的功能
四、本章关键问题
物联网与大数据,物联网操作系统与数据库,物联网大数据处理与应用。
第二章大数据处理技术的发展
一、学习目的与要求
通过本章学习,掌握大数据的基本概念及其剖析过程,理解大数据的若干关键技术,并进行适当的总结,理解大数据技术对整个产业链的调整和重构,对经济转型的推动作用。
理解大数据技术为发展物联网等新兴产业和促进传统产业升级提供的基础作用。
了解大数据面临的挑战,尤其是其规模效应给数据存储、管理及分析所带来的巨大压力,了解大数据技术的发展趋势。
本章要求从三个方面学习大数据处理技术的发展,包括大数据存储和管理技术,大数据计算技术和大数据分析技术。
二、课程内容(考试内容)
三、考核知识点与考核要求
1.大数据存储和管理技术
Sun公司开发了网络文件系统(NetWorkFileSystem,NFS),这就是最初的分布式文件系统。
分布式文件系统搭建在传统文件系统之上,它必须允许用户在企业内部网上的任一计算机上访问自己的文件,程序可以像对待本地文件一样存储和访问远程文件。
分布式文件系统必须解决的一些基本问题(教材P13页段落中)
SAN(StorageAreaNetwork)存储区域网
识记:
三类面向大数据的数据库系统。
1.并行数据库
并行数据库是指那些无共享的体系结构中进行数据操作的数据库系统。
这些系统大部分采用了关系数据模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:
关系表的水平划分和SQL查询的分区执行。
++
2.NoSQL数据管理系统
传统关系数据库发展已有四十多年的历史,出现了很多的成熟应用和应用广泛的的关系数据库管理系统,如Oracle(甲骨文)、MSSQLServer和MySQL等
NoSQL是NotOnlySQL的缩写,NoSQL数据存储和管理系统是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统,并分为key-value存储、文档数据库和图数据库这三类。
3.NewSQL数据管理系统
NewSQL是对各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。
领会:
面向大数据的文件系统,面向大数据的数据库系统的基本思想和应用。
Sun公司开发了网络文件系统(NetWorkFileSystem,NFS)→SAN(StorageAreaNetwork)存储区域网→Google文件系统(GFS)→雅虎工程师根据Google公开论文开发的HDFS→加州大学SantaCruz分校的SageWeil设计的Ceph
2.大数据计算技术
识记:
大数据的两类处理模式;流处理计算模式的概念和两种典型的处理方式。
大数据的应用类型有很多,主要的处理模式可分为两种:
批处理计算模式和流处理计算模式。
批处理是先存储后处理,流处理是直接处理
流处理的计算模式将要处理的数据作为流数据来对待,当新数据到来时立刻处理并返回需要的结果。
流数据具有持续到达、规模大且速度快等特点。
流处理计算模式有两种典型的处理方式。
一种是真正的流处理方式,其计算是针对一条新的纪录进行一次,如Storm,其响应时间可以达到毫秒级。
另一种是“微批处理”方式,是将流数据分为很多小的片段,针对每个片段进行一次处理,如SparkStreaming,响应时间难以达到毫秒级
领会:
批量数据的3个特征。
1.数据体量巨大。
数据量级别从TB跃升到PB级别及以上,数据是以静态的形式存储在硬盘中,很少进行更新,存储时间长,可以重复利用。
2.数据精确度高。
批量数据往往是从应用中沉淀下来的数据,因此精度比较高,是企业的一部分宝贵财富。
3.数据价值密度低。
以视频批量数据为例,在连续不断的监控过程中,有用的数据可能仅仅只有一两秒。
因此合理利用算法才能从批量数据中抽取有价值的数据。
简单应用:
MapReduce编程模型,理解其技术优势和局限性
MapReduce编程模型:
批处理计算模式主要采用MapReduce编程模型。
MapReduce编程模型可以很容易的将多个通用批处理文件和操作在大规模集群上并行化并具有自动化的故障转移功能。
技术优势:
1.采用无共享大规模集群系统,集群系统具有良好的性价比和可伸缩性
2.模型简单、易于理解、易于使用在处理大规模数据时可以将很多的繁琐细节隐藏起来(如自动并行化、负载均衡和灾备管理)极大地简化了程序员的开发工作。
3.在海量数据环境、需要保证可伸缩性的前提下,通过使用合适的查询优化和索引技术,MapReduce仍能够提供很好的数据处理性能。
MapReduce的局限性知识点在教材P20页
【交互式数据处理的代表系统Spark系统、Dremel系统;流式数据处理的典型应用Storm系统、Samza系统、SparkStreaming系统;大数据实时处理的框架:
Lambda架构。
】
Lambda架构是有Strom的作者提出的一个实时大数据处理框架
(其它看教材吧P20-P24)(不做重点)
3.大数据分析技术
识记:
针对不同数据类型,所采用的大数据分析技术;文本分析技术中的信息提取
主题建模、摘要、分类、聚类、问答系统和观点挖掘技术。
信息提取技术是指从文本中自动提取具有特定类型的结构化数据
1.主题建模建立在文件包含多个主题的情况。
主题是一个基于概率分布的词语,主题模型对文档而言是一个通用的模型,许多主题模型被用于分析文档内容和词语含义。
2.文本摘要技术从单个或多个输入的文本文档中产生一个缩减的摘要,分为提取式摘要和概括式摘要两种提取式摘要从原始文档中选择重要的语句或段落并将它们连接在一起,而概括式摘要则需要理解原文并基于语言学方法以较少的语句复述。
3.文本分类技术用于识别文档主题,并将之归类到预先定义的主题或主题集合中。
机遇图表示和图挖掘的技术在近年来的得到了关注。
4.文本聚类技术用于将类似的文档聚合,和文本分类不同的是,文本聚类不是按照预先定义的主题将文档归类的。
5.问答系统主要用于如何为给定问题找到最佳答案,涉及问题分析、源检索、答案提取和答案表示等技术。
领会:
大数据分析技术的必要性
1.大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要。
2.新的大数据分析和查询工具可以使业务人员也能轻松上手实现自助自主分析即时获取商业洞察
传统结构化数据分析;文本数据分析;多媒体数据分析;社交网络数据分析;物联网传感数据分析
1.传统结构化数据分析:
在传统工业、电子商务、政务及科学研究领域所产生的大量的结构化数据
2.文本数据分析:
文本数据包括电子邮件、文档、网页和社交媒体内容。
文本数据分析是指从无结构的文本中提取有用信息或知识的过程
3.多媒体数据分析:
多媒体数据分析是指从图像、语音等多媒体数据中提取知识。
4.社交网络分析:
社交网络包含大量的联系数据和内容数据,其中联系数据通常用一个图拓扑表表示实体之间的联系,内容数据则包含文本、图像和其他多媒体数据社交网络中的联系数据是一类典型的“图数据”
四、本章关键问题
面向大数据的数据库系统、批处理计算模式、大数据实时处理的架构Lambda架构、大数据分析技术。
第2篇技术解析篇
第三章物联网大数据技术体系
一、学习目的与要求
本章包括物联网中的大数据挑战和技术体系。
通过本章学习,对物联网中产生的感知数据发展有较为深入的理解,了解从工业企业自动化生产线及设备上的运行数据,以及随着工业4.0推进而带来的数据爆炸,感知数据呈现几何级数增长的数量对物联网大数据的获取、传输、存储、分析、挖掘及应用面临的各种挑战。
理解互联网大数据和物联网大数据的异同,掌握物联网大数据的特征5HV。
了解物联网大数据应用面临的技术需求及价值目标,及在此基础上进一步提出的面向物联网大数据进行处理分析的技术体系。
掌握感知数据的概念,掌握物联网应用中的两种数据即结构化数据和半结构化数据。
掌握物联网中感知数据处理的三个层次,感知数据的采集与传输、感知数据管理与实时计算、物联网平台与大数据中心。
二、课程内容(考试内容)
三、考核知识点与考核要求
1.物联网中的大数据挑战
识记:
互联网大数据的特征5V。
大量化Volume非结构数据的超大规模和增长,总数据的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。
价值密度低Value大量的不相关信息,数据规模大但价值不高。
数据类型繁多Variety大数据的异构和多样化,很多不同的形式(文本、音频、图片、视频、模拟信号),无模式或者模式不明显,不连贯的语法或句义
处理速度快Velocity数据增长速度快,处理速度也快,时效性要求高,这是大数据区分于传统数据挖掘的显著特征。
真实性Veracity大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。
识记:
物联网大数据的特征5HV。
数据体量更大High-Volume:
物联网的主要特征之一是传感器节点的海量性;同时,物联网节点数据生成频率高并且全时工作,数据流源源不断,会快速积累更大体量的数据。
传感器类型多,数据类型更多High-Variety:
&&&&&&&&&
数据真实性要求更高High-Veracity:
物联网是真实物理世界与虚拟信息世界的结合,其对数据的处理及基于此进行的决策将直接影响物理世界,甚至一些反馈信息关乎设备的运行安全及周边环境与生命安全。
数据量与数据价值成正比High-Value:
积累越多的传感器数据越能发现数据变化的规律;有些情况下,甚至需要非常完整的数据集才能分析出所需的结果所以说数据量与数据价值成正比。
数据产生速率更高,处理的及时性要求很高High-Velocity:
领会:
数据的可视化
可视化是大数据分析与应用的重要途径,能够更加直观的展现大数据的完整视图,并充分挖掘大数据的价值。
大数据是大容量、高速度并且数据之间差异很大的数据集,因此需要新的处理方法来优化决策的流程。
可视化方法可以通过表格、图标、图像等直观的表示数据。
领会:
工业大数据分析技术所需解决的”3B”问题
&&&&感觉没用不想记&&&&&&
(2)避免数据的断续,保证连续且时态一致性的数据集
领会:
物联网大数据的管理与处理分析需要解决的问题与挑战
1.如何构建分布的、多层次数据处理技术是首先要面对的问题
2.如何满足和保证物联网数据处理的实时性
3.如何构建物联网服务平台及建立物联网大数据中心
领会:
感知数据管理与实时计算。
2.技术体系
识记:
感知数据采集与传输所实现的功能
主要实现传感器、智能硬件、工厂及设备的数据采集,并对数据进行必要的转换、过滤等预处理,之后实时上传到数据管理层或大数据中心;这些功能一般通过物联网网关实现(会出填空?
)
物联网网关的分类
1.工业型网关:
主要用于工厂或工业现场的数据采集、协议转换及数据采集上传,要求具有较高的数据吞吐能力。
2.传感型网关:
主要用于广域监测监控领域部署传感器网络,大部分情况下用于采集低频传感数据,但是需要针对特殊的高频传感器本地处理能力
3.混合型网关:
在工业现场需要采集生产线或设备数据,同时需要补充部分传感器。
物联网网关需要具备的能力。
(具体详解为P39-P41页)
物联网网关主要用于实现传感器网络与通信网络,以及不同类型传感网络、智能设备之间的双向协议转换。
为了实现协议转换及跨网通信,物联网网关需要具备广泛的接入能力、可管理能力、协议转换能力以及数据质量标识能力。
领会:
感知数据处理的三层体系结构。
物联网中感知数据的处理分为三个层次,包括数据的采集与传输、感知数据管理与实时计算、物联网平台与大数据中心。
简单应用:
物联网大数据处理平台的部署;物联网平台。
大纲没有的内容:
无线传感器网络与Zigbee
无线传感器网络(WirelessSensorNetwork)是物联网接入的另一种主要系统,是一种分布式传感网络,它的末梢是可以感知和检查外部世界的传感器,WSN中的传感器采用无线方式通信由大量的静止或移动的传感器以自组织和多跳的方式构成的无线网络
常用的Zigbee协议是基于802.15.4之上重点制定网络层、安全层、应用层之外的标准规2014年11月Zigbee联盟将其无线标准统一成名为Zigbee3.0的单一标准。
四、本章关键问题
互联网大数据与物联网大数据的特征、异同点(5V和5HV),感知数据采集与传输,物联网平台与大数据中心各自的作用。
从技术上来说,云计算为物联网产生的海量数据提供存储和分析处理业务,是物联网发展的基石。
物联网平台是基于云计算的服务平台而大数据是支撑并提升服务的关键。
第四章感知数据特性与模型
一、学习目的与要求
通过本章学习,理解感知数据的特性,掌握感知数据的表示,理解感知数据模型。
掌握感知数据库的定义,能够对感知数据库与传统数据库及NoSQL的异同进行简要的分析,掌握感知数据库系统与传统的流数据处理系统共同点和差异之处。
二、课程内容(考试内容)
三、考核知识点与考核要求
1.感知数据的特性分析
识记:
常用的感知数据类型,感知数据的主要特征。
从应用角度划分主要有七种类型
1.标识数据:
物体或对象的唯一ID用于分辨不同的对象
2.状态数据:
感知数据中最普遍最基础的数据类型(设备的启动或者停止)
3.运行数据或测量数据:
(例如电动机的转速)
4.波形数据或图像数据5.位置数据(定位)6.指令数据(重要,由人或系统自动发出)
7.反馈数据
感知数据的主要特征:
时态属性、位置属性、序列属性、海量属性、实时属性和事件触发(详细看教材P47-P48页)
领会:
时态属性带来数据时态一致性要求所包括的两个方面
1.绝对一致性:
存在于传感器感知的状态环境预期在系统的数据映像是否足够一致。
2.相对一致性:
存在于推导计算其它数据所反映的环境状态是否足够接近。
事件触发中的两类事件。
事件分为外部触发事件和自定义事件;外部触发事件是来自传感器或者设备状态变化而触发的,例如温度的变化或者系统的启动/停止
自定义事件分为基于时间的事件和基于条件的事件;基于时间的事件由系统时钟触发
报警属于基于条件的的事件,一般采用规则来定义。
常用的报警事件有越限报警(高限报警、低限报警)、状态报警(开报警、关报警)及变化率报警(某个传感器参数在很短时间内有很大的变化)
2.感知数据的表示与组织
识记:
感知对象的属性。
领会:
物联网数据模型,时态对象数据模型。
简单应用:
OPC对象模型。
3.感知数据库的定位
识记:
感知数据库的定位。
感知数据库定位于区域性的传感网络数据、工厂车间以及重要环节的设备或者装备的数据采集、管理与处理,通过系统的多级部署可扩展到整个工厂、行业物联网及在线实时监控服务平台,进一步实现向大数据平台的集成。
领会:
感知数据库的功能定位,感知数据库的基本特征。
(教材P52-P53页)(重点记忆一下)
功能定位:
1.全面地采集并存储管理规定区域内的感知数据,构造统一的基础数据环境,一方面满足本地实时计算的需求,另一方面为后端的大数据处理提供最有价值的数据资源。
2.保证感知数据的时态致性,控制数据质量。
数据质量包括两个方面:
一是数据的时态一致性保证,二是数据本身的质量,如传感器误差等。
3.满足本地事务的实时处理要求,通过实时事务调度处理技术满足本地事务的执行,结合流处理及机器学习算法,满足状态判定、态势分析及预测的需求。
4.提供质量保证的数据同步、数据迁移能力,感知数据库向其他数据库或大数据中心提供高质量的数据集是整个物联网大数据处理的关键环节。
感知数据库的基本特征:
1.感知能力:
系统提供主动数据采集机制,能够通过单个或一组传感器数据提供用户所需数据的能力。
2.数据的多元特性:
类型多样,支持时态、关系、位置、块数据等
3.数据及事务的实时性:
具有保证数据时态一致性的能力:
从事务处理角度来讲,具有按照事务的实时处理需求进行事务调度及并发控制的能力。
内量数据处理规则及件触发机制
4.多级分布式部署:
由于物联网本身的广域特性,使得感知数据库系统必须随需而变地进行部署
5.数据的追溯性:
系统能够实现对所有感知数据的存储管理,并提供高效的检索分析能力,系统实现上必须采用数据在线压缩、基于时间的索引机制,以及提供高效的数据查询算法与挖掘分析方法等。
4.感知数据库与传统数据库
识记:
流数据的概念以及应用需求的例子。
流数据是指一组数据项的序列,按照固定的序列,以连续、快速、随时间变化的,可能是不可预测和无限的方式到达。
应用需求:
通信领域的电话记录数据流、各类传感器的数据流、金融领域的证券数据流、卫星传回的图像数据流。
领会:
关系数据库和感知数据库的对比,(P54页表4-1)
感知数据库与实时数据库系统(主要体现在区别方面)
实时数据库同感知数据库一样从外部环境获取数据,同时对数据或者事务的处理具有时间特性。
感知数据库系统与实时数据库系统的区别在于更加面向互联网应用体系,而在技术实现上是在实时数据库基础上,融合工厂数据库系统及流数据处理系统的延续发展。
感知数据库与工厂数据库系统
针对工业自动化的过程数据管理需求,工业实时数据库主要提供工厂生产过程中的设备运行状态,以及相关数据采集、存储管理需求。
工业上提到的实时数据库系统主要是面向工业过程监控与管理需求的过程数据管理系统。
从实时数据库系统采用的数据模型来说,有关系数据模型、层次数据模型、网络数据模型、对象数据模型和混合型数据模型。
目前工厂历史数据库大多采用层次化的固定数据结构:
感知数据库系统需要具有工厂“历史数据库数据管理能力,但不局限于工厂应用
流数据处理系统的需求来源(为什么需要流数据处理系统)
主要来自于两个方面:
1.持续自动产生大的细节数据,如:
银行和股票交易、网络流量监控、传感器网络等
2.需要以近实时的方式对更所教据流进行复杂分析,如:
检测互联网上的极端事件、欺诈、入侵、异常等。
感知数据库系统与传统的流数据处理系统共同点和差异处。
共同点:
1.数据持续、联机到达2.数据是无限的,数据规模大3.数据需要快速处理以便快速响应
差异之处:
(不同点)
1.对感知数据库系统来说,数据的到达是可预测的,并且必要时可主动采集获得。
2.历史数据的价值与读取次数需求:
流数据处理系统中数据流是“只能被读取一次或少数几次的点的有序序列”,甚至只有在数据最初到达时有机会对其进行一次处理,其他时候很难再取到这些数据
3.感知数据库系统具有历史数据的存储需求与挖掘分析需求。
四、本章关键问题
感知数据的特性分析,物联网数据模型,时态对象数据模型,感知数据库的功能定位和基本特征,感知数据库系统与传统的流数据处理系统共同点和差异之处。
第五章感知数据库管理系统
一、学习目的与要求
基于感知数据的特征需求,本章阐述感知数据库系统的设计、架构及其中的关键技术。
通过本章学习,掌握感知数据库系统的设计原则和设计框架。
掌握感知数据库的分布部署在系统分级、分区管理的需求,以及在高性能与高可用性上的需求,理解系统高可用性的分布部署模式是整个系统分布部署的基础环节。
理解感知数据库所面临的数据多元性及处理需求的特殊性,掌握感知数据库系统设计中多方面的关键技术,从数据采集到数据存储管理,以及数据处理、查询访问的多个方面。
在概念掌握之外,要求对各种模型、体系结构、算法等有较多的理解。