沙尘暴资料的数据挖掘算法分析及系统实现计算数学专业毕业论文.docx

资源描述

沙尘暴资料的数据挖掘算法分析及系统实现计算数学专业毕业论文.docx

《沙尘暴资料的数据挖掘算法分析及系统实现计算数学专业毕业论文.docx》由会员分享，可在线阅读，更多相关《沙尘暴资料的数据挖掘算法分析及系统实现计算数学专业毕业论文.docx（118页珍藏版）》请在冰豆网上搜索。

沙尘暴资料的数据挖掘算法分析及系统实现计算数学专业毕业论文.docx

沙尘暴资料的数据挖掘算法分析及系统实现计算数学专业毕业论文

沙尘暴资料的数据挖掘算法分析及系统实现-计算数学专业毕业论文

Abstract

Thepaperintroducesthedomesticandinternationalcurrentsituationofthedevelopmentofsand-duststormstudy，dataminingandthefundamentalknowledgeofdataminingsuchasthemodelsofdataminingprocess，criterions，techniques，andminingsteps．TheMicrosoftOLEDBforDMandDMX（DataMiningeXtensions）alsoareintroducedbriefly．

Thedomesticdataminingonmeteorologicaldataisinbeginning．ItiSachallengetominemeteorologicaldataduetotworeasons．Firstly，meteorologicaldataareakindofcomplexdata．Theyarebothspatial—dataandtime—seriesdata．Theirstorageformatsareverity．Secondly，dataminingtasksareverycomplexandtheprofessionaldataminingalgorithmsformeteor0109icaldataareafew．

First．Weobtainthedataminingtasksbyanalysingtheuser’Srequirements，andtransformthemtodataminingalgorithms．Second，weselecttherelevantdatafromsand—duststormdatainrecent46yearsof241observationsinNorthwestChina．Adatawarehousewasbuiltafterthedatabeingcleanedandtransformed．Last，Wedevelopedaninteractiveandvisualsand-duststormdataminingsystem．Itcanbedealtwiththedatacleaning，datatransforming，datamining，modelassessingandresultdisplayingonaninteractiveand

visualplatform．

WetrytoapplygeneraldataminingalgorithmssuchasAssociationanalysis，Regressionanalysis，ClusteringandSpatialanalysistodataminingonmeteorologicaldata，andobtainusefulknowledge．

Forresolvingtheproblemsinmeteorologicalfield，wedesigntheCircle—regioncontinue

algorithmsandsimplytimecontinuealgorithmsbysimplifyingDBSCAN。

AS—CirclescanalgorithmandarectangleSCanalgorithmsweredesignedbasedonDBSCANtoresolveitsmissingclusterproblem．Theycanfindwhetherhighdensecontinuousareaexistsornotexactlyinsamplesregion．Webringforwardaconstraint-basedContinuousRainfall＆Overcast（CRFo）

algorithmwithclusterassessing．theCRFOuseshierarchicalclusteringidea．itcaneffetelyresolvetimecontinuousprobleminmeteorology．Wealsobringforwardperioddatafetchingalgorithminfoldeddata．Thealgorithmcanaggregatefoldeddataofthesameperiodoftimeeveryyear，whichOLAP’drillingandsimpleSQLaggregatingcannotrealize．

Somesignificantcharacteristics（knowledge）ofsand—duststormarediscoveredby

applyingourdataminingsystem．Theknowledgeishelpfulformeteorologicalresearchersandforecasters，itcanbeusedtostudyandforecastthesource，moving，starttimeandoccurtimesofsand-duststormandSOon．Theresultshowsthedataminingiseffective

onmeteor0109icaldata．

Itisfeasibletoimplementdataminingtechnologyonmeteorologicaldata．Butmanyworksmustberesolvedfirstlytoapplywidely，forexampletoresearchthesuitabledataminingalgorithmsformeteorologicaltasks，tostudymodelassessingtechniquetousedomainknowledge，andtoboostminingefficient．

Keyword：

meteorologicaldata，sand—duststorm，datamining，timecontinue，spatialcontinue，

time-spatialcontinue，continuousrainfall&overcastalgorithm，associationanalysis，multiple

regression，Clustering

学位论文独创性声明

本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成果。

据我所知，除文中已经注明引用的内容外，本论文不包含其他个人已经发表或撰写过的研究成果。

对本文的研究做出重要贡献的个人和集体，均己在文中作了明确说明并表示谢意。

本声明的法律责任由本人承担

作者签名：

塑I坚蟹日期：

2pp

学位论文授权使用声明

本人在导师的指导下所完成的论文及相关的职务作品，知识产权归属兰州大学。

本人完全了解兰州大学有关保存、使用学位论文的规定，学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。

允许论文被查阅和借阅；本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用任何复制手段保存和汇编本学位论文。

本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时，第一署名单位仍然为兰州大学。

保密的学位论文在解密后适用本规定。

糊签名哟～越眺

沙尘暴资料的数据挖掘算法分析及系统实现

第一章绪论

1。

1沙尘暴的定义

1．1．1沙尘暴的定义

沙尘暴作为一种天气现象，是沙尘天气的一种。

沙尘天气分为浮尘、扬沙、沙尘暴和强沙尘暴四类。

浮尘：

尘土、细沙均匀地浮游在空中，使水平能见度小于lO公里的天气现象；扬沙：

风将地面尘沙吹起，使空气相当混浊，水平能见度在1公里至10公里以内的天气现象；沙尘暴：

强风将地面大量沙尘吹起，使空气很混浊，水平能见度小于1公里的天气现象；强沙尘暴：

大风将地面尘沙吹起，使空气很混浊，水平能见度小于500米的天气现象n1。

气象观测站对沙尘暴的观测数据有：

能见度、开始时间、结束时间等。

由于沙尘暴出现时，风力大，能见度低，会出现影响交通、破坏工农业生产、甚至发生人员伤亡。

沙尘暴是我国北部的主要自然灾害之一，如1993．5．5目的“黑风”（对很强的沙尘暴的称呼）造成内蒙“被风沙埋死牲畜1．4万头（只），刮走帐篷和蒙古

包180多项，3000多间学校校舍屋项被掀起”的灾害乜1。

沙尘暴是气象条件（大风、冷空气）和地表条件共同作用的结果，缺一不可。

1．1．2区域沙尘暴

对于沙尘暴，气象上采用能见度来表示其强度，但该强度仅表示单站的沙尘暴强度，但不能真实反映某一区域内沙尘暴的强度信息，如范围，持续时间等，因为它不含地域范围信息和持续时间。

为此，在平时使用时引入区域性沙尘暴的概念，来反映沙尘暴的强度，它可以比较客观、真实地反映发生在一个区域内的沙尘暴强度。

区域沙尘暴在气象中的定义为“在预报区域内相邻3个或3个以上的台站出现了沙尘暴天气"，在这个定义中，增加了三个约束，即“预报区域内"、“相邻”、“3个或3个以上的台站"。

在本文中，将满足以上条件的沙尘暴称作区域连续性沙尘暴，不满足以一卜条件的沙尘暴叫区域不连续沙尘暴。

区域性沙尘暴标准可以反映沙尘暴的空间范围强度，在实际业务中使用较多，有的文献称其为群发性沙尘暴b，。

沙尘暴资料的数据挖掘算法分析及系统实现

1．1．3沙尘暴天气过程

在气象领域，一般将一次性质相同，连续出现，中间不间断的天气叫一个天气过程，顾名思义，沙尘暴天气过程是指连续发生的沙尘暴天气。

冯建英等人称其为时间连续性沙尘暴铷，对于没有连续出现的沙尘暴称为时间不连续性沙尘暴。

结合沙尘暴地域范围的标准和和时间连续性两个标准，可将区域性沙尘暴分为四类（见下表），即时间不连续、区域不连续性沙尘暴；时间不连续性沙尘暴、区域连续时间连续性沙尘暴；区域不连续时间连续性沙尘暴：

时间连续、区域连续性沙尘暴，最后这种沙尘暴也叫区域沙尘暴天气过程。

表卜1区域性沙尘暴分类表

1．2沙尘暴国内外研究现状

沙尘暴是世界上是分布较广的气象现象，引起国内外许多科学家的关注，美国等许多国家在本世纪30年代就开始了沙尘暴研究，现已形成监测和对策的系统研究，美国还研制出专门用于龙卷、沙尘暴的数值模式，对其成因机理、环境因素等进行深入研究。

而对撒哈拉沙漠沙尘暴天气研究已发展到概念模式的阶段。

我国从70年代初开始对沙尘暴天气进行研究，并在沙尘暴的成因分析、监测和预报方法等方面进行了一些探索，取得了一定的成果。

与国际上其它地区相比，我国沙尘暴天气研究起步较晚，且大多研究仅限于个例分析，缺乏系统性。

而且由于沙尘暴样本事件和资料覆盖面的差异得出的结论不尽相同畸儿们。

目前对沙尘暴的研究除了监测外，研究主要分为两个分支，第一，即从微观入手研究沙尘暴的发生、发展、沙尘输送机理、气溶胶特性等，第二，利用统计方法，利用历史资料研究沙尘暴出现的规律及其影响等口1。

采用微观方法研究的有澳大利亚利用起沙机制设计的沙尘暴数值预报模式；北京气象科学研究院以GRAPES数值预报为基础，研制的中国沙尘暴数值模等。

国内采用统计方法研究沙尘暴的比较多，如国内的钱正安睛1、周自江D1、王式功阳1

沙尘暴资料的数据挖掘算法分析及系统实现

等，他们利用历史资料，发现了中国沙尘暴的分布特点、演变趋势等，得出中国沙尘暴在逐渐减少的事实。

本项目建设的沙尘暴数据挖掘系统，是国内第一个沙尘暴专业气象数据的挖掘系统。

1．3数据挖掘在气象中的应用

气象学科是在数学、物理、计算机等学科基础上产生的一门交叉学科，其研究的最终目的是从历史数据中发现规律，并利用这些规律去预测未来的天气、气候。

采用的方法主要是数值计算和数理统计。

用于气象数据分析的方法有谐波分析、方差分析、回归分析、EOF展开、相关分析、小波分析、SVD等n们Ⅲ’，但这些方法的使用仅限于对特定数据的处理，也没有图形显示，大部分工作需要用户自己来完成，一般人员难以掌握。

由于数据量大，气象数据基本采用文件方式管理数据，已经形成了世界上比较规范的气象数据文件格式，如GIRD、GIRB、NETCDF等，过去国内#lql更少使用数据库存储、管理大型的气象数据，近几年，由于数据库性能的提高和海量存储系统的发展，国内外开始对一些基本观测数据开始采用数据库管理，由此推动了数据库技术在气象领域的使用。

1．3．1国外气象数据挖掘研究情况

通过美国计算机协会（ACM）的ACMDigitalLibrary全文数据库，采用“（datamining）and（（weather）or（meteor0109ical）or（climate））”搜索，可以找到192篇相关的文献，通过查阅，其中真正涉及气象数据挖掘的不足100篇，这些文章研究的内容涉及空间数据分析‘1羽、气象模式识别‘1朝1"14]、时间序列分析n51、预报n63、孤立点分析‘盯3、气象数据的逆向挖掘“8’（逆问题猜想‘1明），并行气象数据挖掘呦1等方面。

1．3．2国外气象数据挖掘应用情况

美国海洋大气局（NOAA）为全球用户提供了WEB架构的在线数据挖掘系统

CLASS（ComprehensiveLargeArray-dataStewardshipSystem），通过它向用户提供

沙尘暴资料的数据挖掘算法分析及系统实现

NOAA和DoD（usDepartmentofDefense）的气象数据和极轨卫星数据他¨，网站地址为http：

l／spidrd．ngdc．noaa．gov／class／）。

ESSE（EnvironmentalScenarioSearchEngine）也是一个灵活、高效、易用的环境数据挖掘引擎，它不同与一般文本搜索引擎，可以从大量的数值格式的数据集中准确地找到特定参数值、条件或场景数据等，也可以采用模糊搜索，按用户指定的模糊概念搜索，如“特别大"、“平均"、“100左右”等。

该系统用于美国NCEP（NationalCentersforEnvironmentalPrediction）的产品发布（hUp：

／／esse．wdcb．ru），并向社会提供数据下载和数据挖掘服务口扣。

该项目组的负责人Dr．‘MikhaiiZhizhiin目前是俄罗斯科学院日地物理世界数据中心数据信息技术部主任、美国国家地球物理数据中心交流学者，是气象领域从事数据挖掘的知名专家。

另一个涉及气象数据挖掘的是欧洲的DEGREE（DisseminationandExploitationofGridsinEarthscience）项目，该项目主要将网格技术应用于地球科学数据（包含气象），利用网格技术进行地球科学数据的挖掘瞳扣。

地址为：

http：

／／degree．ipgp．jussieu．fr!

。

Vis5D是立体可视化气象数据显示软件，最初由美国威斯康星大学空间科学和工程中心（SSEC）开发，现在由麻省理工学院和美国国家大气研究中，巴,（NationalCenterforAtmosphedcReseamh。

+NCAR）的专家共同开发jVis5D是一个针对气象数据的交互式立体视图软件系统，是目前世界上功能最强大的气象数据图形显示软件，它提供了对具有空间属性

和时间属性资料的动态立体显现。

可以对多元三维网格进行等值面动画、水平等值线分析、风轨迹反演、任意二维剖面数据

分析等，并可图I-1：

vis5D现显示效果图

沙尘暴资料的数据挖掘算法分析及系统实现

叠加世界区域的地形图。

可以实现在5维空间对数据的可视化任意挖掘（主要是数据钻取、切片、旋转）。

5D的前3维是空间变量，即行、列和层（或者纬度、经度和高度），第4维是时间变量，第5维是各种物理变量，如温度、气压、含水量等幽3。

图1-1为Vis5D显示结果。

随着GIS技术的发展，气象数据与GIS的结合也越来越紧密，但目前大多数研究仅限于用GIS作气候区划，或用GIS作为气象资料显示的基础平台乜司乜6|。

1．3．3国内气象数据挖掘研究情况

但在国内，数据挖掘在气象领域的研究和应用较少，相关的文献较少，在1999—2007年的维普中文期刊数据库中采用“数据挖掘”和“气象"两个关键字仅能搜出60篇文献，其中用到数据挖掘的不足20篇，主要研究内容主要在建立数据库和数据仓库、OLAP、气象预报等方面。

可以说，数据挖掘在气象领域的应用尚处于起步阶段。

比如王丽珍、石扬等采用时间序列进行气象预测矧瞳引，谭晓光研究了数据仓库在天气预报决策中的应用，并对数据挖掘及数据仓库在气象领域的应用作了分析例，刘伟等将OLAP与WEBGIS结合，设计了气象资料的显示系统㈨，李娜娜等尝试利用关联规则发现灾害天气之间的关联关系m1，李集明等在气象科学数据共享项目中引入气象元数据的概念，并开发了基于元数据的数据搜索引擎D别，是数据挖掘技术在国内的一次较大规模使用案例。

1．3．4国内气象数据挖掘应用情况

90年代末，国内气象部门在气象业务中开始使用数据库技术，以此为契机，推动了数据库及其相关技术在国内气象领域的发展，但目前使用数据挖掘技术开发的业务系统较少。

1997年，中国气象局9210工程信息收集系统采用Sybase数据建立了实时气象资料库，并在此基础上，开发了资料收集、分发、共享服务系统口3I。

该系统虽然主要是一个OLTP系统，但它是将数据库应用于我国气象业务的第一个业务应用系统。

2003年，中国局统一布点的自动气象站，采用SQLServer2000管理数据，并提供

WEB界面的查询系统汹1。

沙尘暴资料的数据挖掘算法分析及系统实现

此外各省气象部门也在以数据库为基础，以各种方式提供气象资料的共享、查询、下载等服务，在这些项目中有些引入了数据挖掘技术，为用户提供了数据定制和简单的挖掘功能。

比较有代表性的是全国统一部署的“气象科学数据共享网”（cdc．cma．gov．cn），它通过元数据技术开发了数据搜索引擎，是数据挖掘技术在气象资料共享服务方面的一次成功应用。

1．4研究的意义

数据挖掘应用已越来越广泛，但由于数据挖掘具有明显的面向领域数据及具体任务的特点，数据挖掘主要在金融、保险、电信等领域，专业的数据挖掘系统很少涉及沙尘暴资料；一些商业的数据挖掘软件SPSS、SAS等专业性太强，挖掘算法为通用的算法，不一定适合气象领域；数据挖掘过程中，数据清理和数据转换是一项专业性很强，又十分繁琐的工作；同时气象数据是一种复杂数据，它同时具有空间属性和时间序列属性，而且具有多个要素，不同要素之间相互制约，相互影响，利用数据挖掘技术处理气象资料要比一般的商业领域问题要复杂得多。

鉴于此，利用数据挖掘技术，研究解决气象问题的算法，开发一个面向气象科研、业务人员的沙尘暴数据挖掘系统，一方面可以满足气象科研、业务人员获取各类沙尘暴资料的需要，为用户在大量信息中提取有关沙尘暴的知识，另一方面，也是数据挖掘技术在气象中的一次尝试，具有重要意义。

同时本论文研究内容是科技部社会公益类研究专项项目“西北干旱区沙尘暴预警、服务系统研究”的第一专题“西北干旱区沙尘暴数据库”的主要内容，项目最初的目的在于建立信息量尽可能全面的西北干旱区沙尘暴基本数据库，并为其他子项目提供数据支撑。

通过本项目建立了我国第一个内容齐全、功能强大的西北干旱区沙尘暴数据库，填补了国内沙尘暴专业数据库方面的空白。

沙尘暴资料的数据挖掘算法分析及系统实现

第二章数据挖掘概述

2．1数据挖掘的定义

数据挖掘（DataMining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

在学术界，一些学者只是把数据挖掘视为数据库中知识发现（KnowledgeDiscoveryinDatabases，KDD）过程的一个基本步骤，但是大多数学者认为数据挖掘和KDD是等同的许多认为数据挖掘即数据库中的知识发现汹1。

2．2数据挖掘所发现的知识

广义知识（Generalization）：

广义知识指类别特征的概括性描述知识。

根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识，反映同类事物共同性质，是对数据的概括、精炼和抽象。

通过数据特征化或区分实现。

关联知识（Association）：

它反映一个事件和其他事件之间依赖或关联的知识。

如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。

最为著名的关联规则发现方法是R．Agrawal提出的Apriori算法。

分类知识（Classification＆Clustering）：

它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。

最为典型的分类方法是基于决策树的分类方法。

数据分类还有统计、粗糙集（RoughSet）等方法。

线性回归和线性辨别分析是典型的统计模型。

为降低决策树生成代价，人们还提出了一种区间分类器。

最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。

预测型知识（Prediction）：

它根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。

目前，时间序列预测方法有经典的统计方法、神经网络和机器学习等。

偏差型知识（Deviation）：

它是对差异和极端特例的描述，揭示事物偏离常规的异常现象，如标准类外的特例，数据聚类外的离群值等。

沙尘暴资料的数据挖掘算法分析及系统实现

2．3数据挖掘过程的5A模型

在数据挖掘的发展中，为了抽象系统化方法，人们提出了一些数据挖掘过程的参考模型或标准，如SPSS提出的5A（Assess-Access-Analyze-Act-Automate），SAS提出的SEMMA（Sample—Explore—Modify—Model-Assess）；数据挖掘特别兴趣小组提出的“数据挖掘交叉行业标准过程”CRISP

展开阅读全文