数据挖掘在电力系统中的应用综述陈星莺.docx

上传人:b****1 文档编号:2291736 上传时间:2022-10-28 格式:DOCX 页数:15 大小:26.72KB
下载 相关 举报
数据挖掘在电力系统中的应用综述陈星莺.docx_第1页
第1页 / 共15页
数据挖掘在电力系统中的应用综述陈星莺.docx_第2页
第2页 / 共15页
数据挖掘在电力系统中的应用综述陈星莺.docx_第3页
第3页 / 共15页
数据挖掘在电力系统中的应用综述陈星莺.docx_第4页
第4页 / 共15页
数据挖掘在电力系统中的应用综述陈星莺.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

数据挖掘在电力系统中的应用综述陈星莺.docx

《数据挖掘在电力系统中的应用综述陈星莺.docx》由会员分享,可在线阅读,更多相关《数据挖掘在电力系统中的应用综述陈星莺.docx(15页珍藏版)》请在冰豆网上搜索。

数据挖掘在电力系统中的应用综述陈星莺.docx

数据挖掘在电力系统中的应用综述陈星莺

数据挖掘在电力系统中的应用综述

陈星莺,张晓花,瞿 峰,刘皓明,赵 波

(河海大学电气工程学院,江苏南京 210098)

呈爆炸性增长态势.传统的统计手段已变得难以

满足要求,需要运用新方法来挖掘更深层次的规律,

并保证系统运行的经济性、安全性和可靠性,以便提

供更快、更有效的决策支持.数据挖掘的出现,引起

了电力工作者的广泛关注.近年来,数据挖掘在电力

系统很多领域都有成功的应用,表现出广阔的应用

前景[2,3].本文介绍了数据挖掘的基本概念和主要

方法、CRISP-DM标准流程以及在电力系统中的应

用现状,并进行了较全面的总结.

1 数据挖掘

数据挖掘是一个包含多个处理步骤的知识发现

过程,其主要内容包括:

数据清洗、数据集成、数据选

择、数据转换、数据挖掘、模式评估和知识表达输出.

数据挖掘涵盖了数据库系统、数据仓库、统计学、机

器学习、数据可视化、信息检索和高性能计算等多学

科交叉领域,其中涉及的学科类别包括人工神经网

络、模式识别、空间数据分析、图像数据库、信号处理

和归纳逻辑编程等[4,5].典型的数据挖掘体系结构

如图1所示.

图1 典型的数据挖掘体系结构

1.1 数据挖掘流程

数据挖掘是指一个完整的过程,该过程从大型

数据库中挖掘先前未知的、有效的、实用的信息,并

使用这些信息做出决策或丰富知识.CRISP-DM[6]是

当今数据挖掘业界著名的标准之一,它强调的是数

据挖掘在商业中的应用,解决数据挖掘过程中存在

的问题,而不是将数据挖掘仅局限在研究领域.

CRISP-DM为数据挖掘项目的生命周期提供了

一个综合的描绘,它包括6个阶段:

商业理解、数据

理解、数据准备、建立模型、模型评估和模型部署.图

2展示了这个过程.这些阶段之间的顺序并不固定,

在不同阶段之间来回流动往往是非常必要的.究竟

下一步要执行哪个阶段或哪个特定的任务,取决于

每个阶段的结果.

图2 数据挖掘参考模型

1)商业理解.

这是数据挖掘的初始阶段.在这个阶段清晰地

定义出业务问题,认清数据挖掘的目的是数据挖掘

的关键前提.

2)数据理解.

数据理解开始于数据的收集工作.接下来就是

熟悉数据的工作.在此基础上进行数据质量问题的

鉴定,并从中发现包含隐含信息的感兴趣的数据子

集.

3)数据准备.

数据准备阶段覆盖了所有从初始数据构成最终

用于挖掘的数据子集所进行的活动.数据准备的工

作可能需要进行多次,而且没有任何预定的顺序.数

据准备工作包含选择数据表、记录、属性以及转换和

清理数据等.

4)建立模型.

在这个阶段可能需要选择和应用不同的建模技

术,并将其参数校准到最佳值.一般一个类型的数据

挖掘问题都需要用到几种技术.一些技术对数据的

结构具有特定的要求,因此经常需要返回到数据准

备阶段对数据进行相应的处理.该阶段主要建立的

模型包括关联规则、分类与预测、聚类、异常检测等.

5)模型评估.

到了这个阶段,已经建立了一个或多个从数据

分析角度看似高性能的模型.在该模型最后付诸实

52电力科学与技术学报             2007年9月

很精确的不足,取得了预期的效果.文献[14]提

出了在孤岛电力系统的在线动态安全预防中应用决

策树,强调在线应用决策树技术来测试每个发电调

度的动态安全性,并且经过发电再分配来提供正确

的指导.在大多数孤岛电力系统中发电的费用比互

联的电力系统要高很多,文献从各种决策树中提取

出来的规则与发电容量的最优化直接相关,优化了

孤岛电力系统的发电容量,节约了发电成本.文献

[15]提出了kernel回归树的新方法来在线安全评

估和监控电力系统,该方法首次用动态安全评估处

理频率稳定性的问题,与决策树和人工神经网络结

合的方法相比,其性能更优.文献[16]描述了一种

从决策树学习中提取规则,并用这些规则来获得必

要的控制措施,使得暂态不安全稳定的电力系统保

持安全的动态控制技术,同时还提出了用Quinlan’s

C4.5决策树来在线安全控制,与神经网络技术所不

同的是C4.5不需要任何特征选择.训练过程非常

快而且输入向量的大小不会引起训练过程中的任何

问题,唯一的困难是产生训练数据难得到基于C4.5

的充分精确、规则的过程.

2.2 负荷预测与用户特征提取

电力负荷预测是电力调度系统的一项非常重要

的工作,它关系到电厂各机组的运行计划,预测结果

的准确与否直接影响电力部门的经济效益.

基于数据挖掘决策树算法和通用的决策支持对

象建模工具,朱六璋等人[17]结合区域电网气象负荷

数据库,设计并实现了决策树形式的数据挖掘模型,

并将其运用于日负荷预测.统计分析结果表明该数

据挖掘模型完全满足实用标准,具有智能自适应、自

学习和全过程自动化、通用可靠以及准确率高等特

性.之后朱六璋[18]又给出了一种短期电力负荷预测

的组合数据挖掘算法,挖掘模型算法采用C4.5和

CART算法的基于BP网络加权组合,算法还应用范

例推理给出节假日调整因子来校正节假日的影响,

设计出一种高精度短期负荷预测系统.文献[19]针

对短期负荷预测具有明显周期性的特点,将范例推

理方法应用于短期负荷预测,并通过粗糙集方法进

行范例的特征属性和特征权值的合理选择,从而保

证得到与预测日前一段时间内都相似而不仅与预测

日相似的历史范例集.郑刚等人[20]从寻求准确预测

电力系统的目的出发,提出了利用数据挖掘方法将

电力系统大量的历史负荷数据按照相应影响因素进

行分类,建立负荷预测的决策树,该方法克服了其他

线性预测方法带来人为误差的缺陷.但这种方法也

有一定的不足,没有考虑多方面的影响,精度不是很

高.由于电力用户的多样性及随机性,用常规的算法

很难划分用户群组和分析出用户的特点.文献[21]

提出了用时间序列模型使用已有的数据序列预测负

荷,用自适应决策树对存储在数据库的用户的用电

记录、季节、气候和其他一些相关的属性进行聚类,

制定合适的收费表,而且分析出用户和其他属性相

关联的一些特点.

2.3 电力系统故障诊断

电力系统故障诊断[22]是通过利用有关电力系

统及其保护装置的广泛知识和继电保护等信息来识

别故障的元件位置(区域)、类型和误动作的装置,

其中故障元件的识别是关键问题.

郭创新等人[23]综述了电力系统故障诊断的各

种方法,包括专家系统、人工神经网络、优化技术、粗

糙集理论、模糊集理论和多代理技术等.论述了基于

粗糙集理论比较适合中小型电力系统和变电站的故

障诊断.但该模型在考虑发生多重故障时,粗糙集方

法将出现决策表十分庞大、甚至出现“组合爆炸”的

问题.白建社等人[24]将决策树用到变电站故障诊断

领域,不仅可以实现故障诊断知识的自动获取与表

示,而且所获得的以决策树形式表示的知识具有很

高的推理速度.文献[25]将基于事件序列的数据挖

掘原理故障诊断模型用于高压输电线系统故障诊断

领域,依据输电系统故障事件序列在时空特性上的

关联性,用动态规划算法的优化相似性原理挖掘事

件序列之间的关联性和蕴涵的知识,将诊断问题的

求解转化为寻求与实时故障事件序列模式最相似

的、运算操作代价最小的标准故障序列模式,以实现

对异常事件序列模式中畸变事件的“复原”和纠错,

从而保证故障诊断系统的高容错性.文献[26]提出

了一种粗糙集理论的决策表约简新算法,通过粗糙

集理论与二元逻辑相结合的属性约简算法对诊断决

策表进行约简,可快速得到最佳约简组合;同时提出

了形成混合策略规则的思路,将约简结果进行融合,

从而建立故障所对应的综合知识库模型用于电网故

障诊断中.文献[27]提出采用模糊聚类的方法.因

为粗糙集理论适合于处理离散数据,而电厂和电力

系统广泛存在的数据类型是具有连续属性值的数

据,所以要将实测数据中的连续属性离散化,然后采

54电力科学与技术学报             2007年9月

以前,还必须彻底地评估该模型,再回顾构造该模

型的步骤,以确定该模型真正能够达到预定的商业

目标.一个关键的问题就是确定是否存在一些重要

的商业问题没有被充分地考虑到.评估阶段最后应

作出数据挖掘结果的使用决定.

6)模型部署.

模型的创建通常并非数据挖掘过程的终结.即

使建模的目的是增长数据的知识,获得的知识仍需

要以客户可用的方式进行组织和呈现.根据需要,实

施阶段可能非常简单(如生成一份报告)或非常复

杂(一个可重复的数据挖掘过程).在大多数的情况

下,进行实施的人是客户而并非数据分析人员.然

而,即使数据分析人员不是实施的执行者,也必须预

先使客户理解为了充分利用所创建的模型而需进行

的活动.

1.2 数据挖掘的主要方法

数据挖掘涉及的学科领域和方法很多,以下是

几种常用方法.

1)统计分析方法.

统计学为数据挖掘提供了许多判别和回归方

法,有:

贝叶斯推理,回归分析,方差分析等.贝叶斯

推理是在知道新信息后修正数据集概率分布的基本

工具.回归分析用来找出一个输入变量和输出变量

关系的最佳模型,或用来描述一个变量的变化趋势

以及与别的变量值关系的线性回归,还可用来为某

些事件发生的概率建模和预测变量集的对数回归.

方差分析一般用于分析估计回归直线的性能和自变

量对最终回归的影响[7].

2)决策树.

国际上最有影响和最早的决策树方法是由J.

R.Quinlan提出的ID3方法,后人又发展了多种决策

树方法,如ID4、ID5和C4.5等.决策树方法的最大

优点是直观,对解决高维数据分类问题很有效.其缺

点是随着数据复杂性的提高,分支数将增加,管理的

难度越来越大.此外,该方法存在数据的缺失值处理

问题[8].

3)神经网络.

神经网络是模仿人脑神经网络的结构和工作机

制而建立的一种计算模型.它以MP模型和Hebb学

习规则为基础,建立了前馈式网络、反馈式网络和自

组织网络模型.神经网络的最大优点是能对复杂问

题进行精确的预测.由于具有良好的鲁棒性、自组

织、自适应、并行处理、分布存储和高度容错等特性,

神经网络非常适合解决数据挖掘中建立分类模型等

问题,因此近年来越来越受到人们的关注[9].

4)粗集方法.

粗糙集理论作为一种数据分析方法首先由

Pawlak于1982年提出.它把知识看作是关于论域的

划分,认为知识是有粒度的,利用相对核的概念进行

知识相依性分析和约简.粗糙集理论能够在缺少相

关数据的先验知识的情况下,仅以对观测数据的分

类能力为基础,解决模糊或不确定性数据的分析处

理,从而揭示潜在规律,是当前数据挖掘的主要方法

之一[10].

5)可视化.

可视化就是把数据、信息和知识转化为可视的

表示形式的过程.可视化数据分析技术拓宽了传统

的图表功能,使用户对数据的剖析更清晰.它为人类

与计算机之间提供了一个接口.

CRISP-DM各阶段涉及主要方法见表1.

表1 CRISP-DM各阶段涉及主要方法

阶段涉及方法

商业理解

数据理解可视化

数据准备统计分析、规范化、可视化等

建立模型决策树、统计分析、神经网络、粗集方法等

模型评估测试集和检验集方法,可视化等

部署决策树、统计分析

2 数据挖掘在电力系统中的应用

近年来,数据挖掘在电力系统中的应用取得了

大量的研究成果.主要集中在电力系统动态安全评

估、负荷经济调度、负荷预测与用户特征提取、故障

诊断等方面[11].

2.1 动态安全评估

动态安全分析[12](DSA)是评价系统受到大扰

动后过渡到新的稳定运行状态的能力,并对必要的

预防措施和补救措施给出适当的参考答案.动态安

全评

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1