面向智能电网应用的电力大数据关键技术概要.docx
《面向智能电网应用的电力大数据关键技术概要.docx》由会员分享,可在线阅读,更多相关《面向智能电网应用的电力大数据关键技术概要.docx(21页珍藏版)》请在冰豆网上搜索。
面向智能电网应用的电力大数据关键技术概要
第35卷第3期中国电机工程学报Vol.35No.3Feb.5,2015
2015年2月5日ProceedingsoftheCSEE©2015Chin.Soc.forElec.Eng.503DOI:
10.13334/j.0258-8013.pcsee.2015.03.001文章编号:
0258-8013(201503-0503-09中图分类号:
TM711
面向智能电网应用的电力大数据关键技术彭小圣1,邓迪元1,程时杰1,文劲宇1,李朝晖1,牛林2
(1.华中科技大学电气与电子工程学院,湖北省武汉市430074;2.国网技术学院,山东省济南市250002
KeyTechnologiesofElectricPowerBigDataandItsApplicationProspectsinSmartGridPENGXiaosheng1,DENGDiyuan1,CHENGShijie1,WENJinyu1,LIZhaohui1,NIULin2
(1.SchoolofElectricalandElectronicEngineering,HuazhongUniversityofScienceandTechnology,Wuhan430074,Hubei
Province,China;2.StateGridofChinaTechnologyCollege,Jinan250002,ShandongProvince,China
ABSTRACT:
Applicationofbigdatatechniquesinpowersystemwillcontributetothesustainabledevelopmentofpowerindustrycompaniesandtheestablishmentofstrongsmartgrid.Thispaperintroducedauniversalframeworkofelectricpowerbigdataplatform,basedontheanalysisoftherelationshipsamongthebigdata,cloudcomputingandsmartgrid.Thenkeytechniquesofelectricpowerbigdatawerediscussedinfouraspects,includingbigdatamanagementtechniques,bigdataanalyzingtechniques,bigdataprocessingtechniquesandbigdatavisualizationtechniques.Finally,thepaperpresentedthreetypicalapplicationexamplesofelectricpowerbigdatatechniqueswhichwerenewandrenewableenergyintegration,windturbineconditionmonitoringandassessment,powersystemcatastrophicfailureprediction.Theapplicationofbigdatatechnologiesinsmartgridwillbringdeepchangeandbrilliantfuturetopowersystem,andwillpromotethedevelopmentofpowerindustrytoanewgeneration.
KEYWORDS:
bigdata;cloudcomputing;smartgrid;dataintegration;dataanalysis;dataprocessing;datavisualization
摘要:
大数据为智能电网的发展注入新的活力,掌握电力大数据的关键技术对电力行业的可持续发展和坚强智能电网的建立具有重要意义。
在分析大数据、云计算、智能电网三者关系的基础上,给出具有通用性的电力大数据平台总体架构,并从电力大数据的集成管理技术、数据分析技术、数据处理技术、数据展现技术4个方面深入探讨符合电力企业发展需求的大数据关键技术的选择。
最后通过3个典型案例,分析了电力大数据关键技术在新能源并网、风电机组安全评估、电网灾难预警上的应用。
大数据关键技术在电力行业的广泛应用必将带来行业的变革,将智能电网的发展推向新的阶段。
基金项目:
国家自然科学基金项目(51228701。
ProjectSupportedbyNationalNaturalScienceFoundationofChina(51228701.关键词:
大数据;云计算;智能电网;数据集成;数据分析;数据处理;数据展现
0引言
大数据这个术语最早期的引用可追溯到Apache软件基金会的开源项目Nutch。
当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集[1]。
早在2008年Nature就出版了专刊“BigData”,从网络经济学、超级计算、互联网技术、生物医药、环境科学等多个方面介绍了海量数据带来的挑战;2011年Science推出数据处理的专刊“DealingWithData”,深入讨论了数据洪流(datadeluge,DD所带来的挑战,并指出如果能够更有效地组织和利用这些海量数据,人们将得到更多的机会发挥科学技术对推动社会发展的巨大作用;2012年奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划”,将大数据比喻为“未来的新石油”,将对大数据的研究上升为国家意志,掀起了世界各国大数据的研究热潮[2-7]。
大数据的定义,业界虽然有一些共识,但是并未有统一的定义。
麦肯锡认为“大数据是指其大小超出典型数据软件抓取、储存、管理和分析范围的数据集合”;Gartner认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”[1]。
在对大数据的定义中,比较有代表性的定义是3V定义,即规模性(Volume,多样性(Variety和高速性(Velocity,规模性是指数据量庞大,数据洪流已经从GB、TB级上升到PB、EB、ZB级;多样性是指数据类型繁多,并且包含结构化、半结构化和非结构化的数据;高速性则是指数据以数据流的形态
504中国电机工程学报第35卷
快速、动态的产生,数据处理的速度也必须达到高速实时处理[7-12]。
另外大数据第4V的讨论并没有取得一致的结论,国际数据公司(internationaldatacorporation,IDC认为大数据应该具有价值性(Value,且价值密度稀疏;IBM则认为大数据的第4V特性是真实性(Veracity[8]。
大数据的这些特点决定了在大数据时代,传统的数据处理技术必需有革命性的提升。
电力系统作为经济发展和人类生活依赖的能量供给系统,也具有大数据的典型特征。
电力系统是最复杂的人造系统之一,其具有地理位置分布广泛、发电用电实时平衡、传输能量数量庞大、电能传输光速可达、通讯调度高度可靠、实时运行从不停止、重大故障瞬间扩大等特点,这些特点决定了电力系统运行时产生的数据数量庞大、增长快速、类型丰富,完全符合大数据的所有特征,是典型的大数据。
在智能电网深入推进的形势下,电力系统的数字化、信息化、智能化不断发展,带来了更多的数据源,例如智能电表从数以亿计的家庭和企业终端带来的数据,电力设备状态监测系统从数以万计的发电机、变压器、开关设备、架空线路、高压电缆等设备中获取的高速增长的监测数据,光伏和风电功率预测所需的大量的历史运行数据、气象观测数据等。
因此在电力系统数据爆炸式增长的新形势下,传统的数据处理技术遇到瓶颈,不能满足电力行业从海量数据中快速获取知识与信息的分析需求,电力大数据技术的应用是电力行业信息化、智能化发展的必然要求。
中国电机工程学会信息化专委会在2013年3月发布了《中国电力大数据发展白皮书》,将2013年定为“中国大数据元年”,掀起了电力大数据的研究热潮[10]。
根据白皮书描述,电力大数据的特征可概括为3V和3E。
3V为体量大(Volume、速度快(Velocity和类型多(Variety;3E为数据即能量(Energy、数据即交互(Exchange和数据即共情(Empathy[10]。
其3V的描述和其他行业的描述比较接近,3E的描述具有典型的电力行业特征,体现了大数据在电力系统应用中的巨大价值。
数据即能量简而言之,就是指通过大数据分析达到节能的目的,电力大数据应用的过程,就是电力数据能量释放的过程;数据即交互是指电力大数据与国民经济其他领域数据进行交互融合,才能发挥其更大价值;数据即共情是指电力大数据紧密联系千家万户、厂矿企业,只有情系用电客户,满足客户需求,电力企业方能以数据取胜[5]。
电力大数据贯穿发、输、变、配、用等电力生产及管理的各个环节,是能源变革中电力工业技术革新的必然过程,不仅是技术上的进步,更是涉及电力系统管理体制、发展理念和技术路线等方面的重大变革,是下一代电力系统在大数据时代下价值形态的跃升[10]。
对建设坚强智能电网而言,亟需开展大数据相关技术的研究,为电力大数据时代的到来奠定理论基础和技术积累。
1智能电网、云计算和大数据的关系
1.1智能电网与大数据的关系
智能电网就是将信息技术、计算机技术、通信技术和原有输、配电基础设施高度集成而形成的新型电网,具有提高能源效率、提高供电安全性、减少环境影响、提高供电可靠性、减少输电网电能损耗等优点[11]。
智能电网的理念是通过获取更多的用户如何用电、怎样用电的信息,来优化电的生产、分配及消耗,利用现代网络、通信和信息技术进行信息海量交互,来实现电网设备间信息交换,并自动完成信息采集、测量、控制、保护、计量和监测等基本功能,可根据需要支持电网实时自动化控制、智能调节、在线分析决策和协同互动等高级功能,因此相关研究者指出:
可以抽象的认为,智能电网就是大数据这个概念在电力行业中的应用[12]。
1.2大数据与云计算的关系
根据美国国家标准与技术研究院的定义,云计算是一种利用互联网实现随时、随地、按需、便捷地访问共享资源池(如计算设施、应用程序、存储设备等的计算模式[13]。
从技术上看,大数据根植于云计算,云计算的数据存储、管理与分析方面的技术是大数据技术的基础。
利用云计算强大的计算能力,可以更加迅速地处理大数据,并更方便地提供服务;通过大数据的业务需求,可以为云计算的发展找到更多更好的实际应用[14]。
云计算使大数据应用成为可能,但是没有大数据的信息沉淀,云计算的功能将得不到完全发挥,所以从整体上看,大数据与云计算是相辅相成的[15]。
云计算和大数据的侧重点不同,因此也有较大的差别。
大数据关注重心在于数据背后的信息沉淀与业务分析,因此其推动力量来源于拥有大数据的企业和软件厂商;云计算关注重心在于计算能力,偏重于技术解决方案,因此其推动力量来自于计算
第3期彭小圣等:
面向智能电网应用的电力大数据关键技术505
资源和存储资源的生产厂商[13-15]。
云计算技术的发展早于大数据技术的发展,但是大数据的业务需求又为云计算技术的发展带来新的机遇,一方面促进了云计算技术向更加贴近用户需求的方向发展,另一方面带来了更高处理速度、更大存储容量的要求。
1.3智能电网、云计算、大数据的相互关系
图1简要描述了智能电网、云计算、大数据三者之间的相互关系。
图1大数据技术,云计算,智能电网三者的相互关系Fig.1Relationshipsamongsmartgrid,
bigdataandcloudcomputingtechnologies云计算能够整合智能电网系统内部计算处理和存储资源,提高电网处理和交互能力,成为电网强有力的技术组成[16];大数据技术立足于业务服务需求,根植于云计算,以云计算技术为基础;智能电网可以抽象的认为是大数据这个概念在电力中的应用[12],所以三者是彼此交互的关系。
智能电网、云计算、大数据三者之间的关系,从更加深层次来讲,是电力系统发展到不同阶段的产物,具有代纪传承的特点。
图2从代纪传承的角度描述了三者之间的相互关系。
智能电网是信息技术、计算机技术、人工智能技术等在传统电网上应用沉淀的结果,满足电网信息化、智能化、清洁化等高层次的运营和管理需求,既是对传统电网的继承,也是对传统电网的发扬,所以其发展必然与新技术同步。
来自于计算机和信息技术领域最前沿的云计算技术和大数据技术,正是其发展阶段技术层面和应用层面两个具有划时代意义的新技术。
云计算技术中的分布式存储技术和并行计算技术,满足了电网海量数据的存储和计算需求,因此云计算技术推出不久,电力云的概念就提出来,云计算技术在电力系统中的应用也逐渐
图2大数据技术,云计算,
智能电网三者的代纪传承关系
Fig.2Evolutionrelationshipsamongbigdata,
cloudcomputingandsmartgrid
呈现出百花齐放的态势,推动了智能电网的发展。
大数据技术既是传统数据分析与挖掘技术的延续,也是数据量级增长到一定阶段时知识挖掘与业务应用需求的必然产物,因此大数据技术的大部分应用都以云计算的关键技术或者与云计算类似的分布式存储和处理技术为基础。
电力大数据技术的发展从某种意义上讲,可以看成是云计算技术在智能电网中,高级业务需求的实现过程。
2电力大数据平台的总体架构
Apache基金会开源技术通用的大数据平台整体架构如图3所示[17]。
该架构具有较好的通用性,适用于电力企业大数据的规划,其主要思想是利用基于Hadoop文件系统(Hadoopdistributedfilesystem,HDFS的分布式文件处理系统作为大数据
图3电力大数据平台的总体架构
Fig.3Universalframeworkofbigdataplatform
506中国电机工程学报第35卷
的存储框架,利用基于MapReduce的分布式计算技术作为大数据的处理框架。
以分布式文件处理技术为基础,使PB、ZB级的数据存储成为可能;以分布式计算技术为基础,使得PB、ZB级数据的查询分析成为可能。
另外该框架中还包含商业智能应用、传统的数据仓库、大数据访问框架、大数据调度框架、网络层、操作系统、服务器、备份和恢复、数据管理等模块。
大数据存储框架和大数据处理框架通常构建在通用的服务器、操作系统或者虚拟机上,使得该架构所需的硬件具有低成本和高扩展性的特点,标准的普通服务器或者PC机即可成为基于该架构的终端构成单元。
大数据存储框架和大数据处理框架之上是通过网络层连接的大数据访问框架,该访问框架包含并行计算机编程语言Pig、数据仓库工具Hive、开源数据传递工具Sqoop等子模块。
大数据调度框架包含基于列存储的开源非关系型数据库Hbase、数据序列化格式与传输工具Avro、日志收集系统Flume、分布式锁设施ZooKeeper等模块。
大数据调度框架实现了对大数据的组织与调度,为数据分析提供了必要条件。
在大数据调度框架之上是企业级商业智能应用系统,可以开展查询、分析、统计、报表等高级应用[17]。
大数据的管理、安全和备份恢复框架帮助进行大数据的治理和保护[17]。
该框架几乎涵盖了大数据技术的所有环节,值得指出的是,通过该访问框架不仅可以实现对分布式文件存储系统的访问,而且通过大数据连接器和开源数据传递工具Sqoop可以实现对传统数据仓库的访问。
大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,按照统一的标准对结果进行存储,利用恰当的数据分析技术对存储的数据进行分析,达到从中提取出有价值的知识的目的,并用合适的方式将结果展现给终端用户[8]。
对电力企业来讲,电力大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:
电力大数据需要处理大量、非结构的数据,所以在各个环节都可以采用MapReduce等方式进行并行处理[14]。
图3所述的电力大数据平台总体架构,应与电力系统中来源丰富的数据流结合,催生具体的产业应用。
电力系统是一种高维非线性的复杂系统,其内部的数据流包含电力流、信息流、业务流、故障流、气象流等不同的数据流向。
图4描述了在电力系统总体平台架构之上的电力企业商业应用与电力系统内部数据流的可能结合点,包括发、输、变、配、用、调等环节的负荷控制系统、管理信息系统(managementinformationsystem,MIS、监测控制和数据采集(supervisorycontrolanddataacquisition,SCADA系统、电能计量系统、风电光伏功率预测系统、电力设备在线监测系统等。
图4电力大数据平台架构与电力系统数据流的结合点Fig.4Linkbetweenuniversalframeworkof
bigdataplatformanddataflowofpowersystem
对这些电力系统的子信息源而言,一方面可以单独应用大数据技术,提升其产业价值,例如电力设备在线监测系统本身就是一个大数据系统,另一方面可以融合不同的子信息源,在更高的层面上构件大数据平台,例如融合电能计量系统、SCADA系统、MIS系统、负荷控制系统,可以构建基于大数据平台的网损分析系统,实现网损的自动统计与分析。
基于该网损分析大数据平台,还可开展基于自动网损统计的用户窃电行为挖掘,实现更深层次的应用。
3电力大数据关键技术
3.1电力大数据的集成管理技术
电力企业数据集成管理技术是合并来自2个或者多个应用系统的数据,创建一个具有更多功能的企业应用的过程。
从集成的角度来说,就是把不同来源、格式、特点、性质的数据在逻辑上或者存储介质上有机地集中,为系统存储一系列面向主题的、集成的、相对稳定的、反映历史变化的数据集合,从而为系统提供全面的数据共享。
电力企业集
第3期彭小圣等:
面向智能电网应用的电力大数据关键技术507
成管理技术就是为解决电力企业内部各系统间的数据冗余和信息孤岛而产生的[18]。
电力大数据的数据集成管理技术,包含关系型和非关系型数据库技术、数据融合和集成技术、数据抽取技术、过滤技术和数据清洗等[10]。
大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂,这种复杂的数据环境给大数据的处理带来极大的挑战,要想处理大数据,首先必须对数据源的数据进行抽取和集成,从中提取出实体和关系,经过关联和聚合之后采用统一的结构来存储这些数据,在数据集成和提取时需要对数据进行清洗,保证数据质量及可靠性[8]。
大数据存储管理中一个重要的技术是NoSQL数据库技术,它采用分布式数据存储方式,去掉了关系型数据库的关系型特性,数据存储被简化且更加灵活,具有良好的可扩展性,解决了海量数据的存储难题。
有代表性的NoSQL数据库技术有Google的BigTable和Amazon的Dynamo等。
3.2电力大数据的数据分析技术
大数据技术的根本驱动力是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动[12]。
借助电力大数据的分析技术可以从电力系统的海量数据中找出潜在的模态与规律,为决策人员提供决策支持。
麦肯锡认为可用于大数据分析的关键技术源于统计学和计算机科学等学科,包含关联分析、机器学习、数据挖掘、模式识别、神经网络、时间序列预测模型、遗传算法等多种不同的方法[19]。
大数据研究不同于传统的逻辑推理研究,是对巨大数量的数据做统计性的搜索、分类、比较、聚类等的分析和归纳,因此继承了统计科学的一些特点,如统计学关注的数据相关性或称关联性,所谓“相关性”是指2个或2个以上变量的取值之间存在某种规律性[7]。
“相关分析”的目的是找出数据集里隐藏的关系网,一般用支持度、可信度、兴趣度等参数反映相关性[7]。
牛津大学网络学院教授维克多在他的著作《大数据时代》中指出:
在大数据时代,相关关系分析法将大放异彩,通过找到一个良好现象的关联物,相关关系分析可以捕获现在和预测未来。
大数据相关关系分析法,建立在海量样本的基础上,不采用随机分析法这样的捷径,而采用分析所有数据的方法;大数据的简单算法比小数据的复杂算法更有效,其结果更快、更准确而且不易受到干扰,因此他指出建立在相关关系分析法基础上的预测是大数据的核心。
大数据这种不注重因果关系侧重于相关关系的分析方法,带来了科学研究思维方式的重大转变,已故图灵奖得主吉姆·格雷提出的数据密集型科研“第四范式”,将大数据科研从前3种范式(理论科学、计算科学、实验科学中分离出来,单独作为一种科研范式,正是因为其研究方式不同于基于数学模型的传统研究方式[7]。
电力大数据分析技术,从根本上讲,属于传统数据挖掘技术在海量数据挖掘下的新发展,但由于大数据海量、高速增长、多样性的特点,并且不仅包含结构化数据,还含半结构化和非机构化数据,因此传统的很多处理小数据的数据挖掘方法已经不再实用[20]。
大数据环境下的数据挖掘与机器学习算法,可以从3个方面着手:
1从大数据的治理与抽样、特征选择的角度入手,将大数据小数据化[21-22];2开展大数据下的聚类、分类算法研究,例如基于共轭度的最小二乘支持向量机(leastsquaressupportvectormachine,LS-SVM[23],随机可扩展FuzzyC-Means(FCM[24]等;3开展大数据的并行算法,将传统的数据挖掘方法通过并行化,应用到大数据的知识挖掘中,例如基于MapReduce的机器学习与知识挖掘[25-26]。
3.3电力大数据的数据处理技术
电力大数据的数据处理技术包括分布式计算技术,内存计算技术,流处理技术等,这3种技术适用的对象和解决的主要问题如图5所示。
分布式计算技术是为了解决大规模数据的分布式存储与处理。
内存计算技术是为了解决数据的高效读取和处理在线的实时计算。
流处理技术则是为了处理实时到达的、速度和规模不受控制的数据。
图5大数据处理技术适用的对象
Fig.5Dataprocessingtechniquesof
electricpowerbigdata
分布式计算是一种新的计算方式,研究如何将一个需要强大计算能力才能解决的问题分解为许多小的部分,然后再将这些部分分给多个计算机处
508中国电机工程学报第35卷
理,最后把结果综合起来得到最终结果。
分布式计算的一个典型代表是Google公司提出的MapReduce编程模型,该模型先将待处理的数据进行分块,交给不同的Map任务区处理,并按键值存储到本地硬盘,再用Reduce任务按照键值将结果汇总并输出最终结果。
分布式技术适用于电力系统信息采集领域的大规模分散数据源。
内存计算技术是将数据全部放在内层中进行操作的计算技术,该技术克服了对磁盘读写操作时的大量时间消耗,计算速度得到几个数量级的大幅提升。
内层计算技术伴随着大数据浪潮的来临和内存价格的下降得到快速的发展和广泛的应用,EMC、甲骨文、SAT都推出了内存计算的解决方案,将客户以前需要以天作为时间计算单位的业务降低为以秒作为时间计算单位,解决了大数据实时分析和