开题报告空间聚类.docx
《开题报告空间聚类.docx》由会员分享,可在线阅读,更多相关《开题报告空间聚类.docx(14页珍藏版)》请在冰豆网上搜索。
开题报告空间聚类
各位博士、硕士、工程硕士研究生:
为做好学位论文选题及开题报告工作,在填写后面的《研究生学位论文开题报告登记表》前,请认真阅读下文《关于研究生学位论文选题及开题报告的规定》。
登记表仅作为开题报告的格式,所留的空格不够时请自行加页。
根据《中华人民共和国学位条例暂行实行办法》中“研究生学位论文开题、答辩一般应公开举行,保密专业除外”的要求,我院研制了“研究生学位论文开题、答辩网上公告系统”,现已上网运行。
请全体研究生注意在张贴开题、答辩布告的同时,使用此系统。
从2005年1月1日起开题、答辩的研究生都须在网上公告,否则开题及答辩无效。
在完成表格中的论证内容、导师签署意见、通过评议组专家评议、教研室以及院系签署意见后,请将《登记表》用A4纸打印1份,硕士生、工程硕士生请提交给所在院系研究生秘书,博士生请提交给研究生院学位办(从2004年9月开始要求博士生到设在校图书馆的查新站对开题报告进行查新工作,故请同时提交查新结果1份)。
关于研究生学位论文选题及开题报告的规定
研究生学位论文工作是研究生培养的重要环节和主要内容。
学位论文是研究生尤其是博士生学术水平和科研成果的集中表现,是衡量研究生培养质量和水平的重要标志之一,而做好学位论文选题和开题报告又是完成学位论文的前提和基础。
因此,为了切实保证研究生的学位论文质量,做好学位论文选题及论文开题报告是十分必要的。
一、学位论文选题
选题是学位论文成败的关键。
因此要求导师、导师组及研究生本人要十分重视选题工作。
研究生应在大量阅读文献、资料和充分调查研究的基础上进行选题。
(一)博士学位论文选题
要求达到前沿性、交叉性、急需性、实用性、创新性、可行性。
具体要求如下:
1.选题必须具有学科的前沿性;
2.在选题上要注意学科间的相互交叉渗透;
3.选题要重视国家急需解决的重大课题;
4.选题要注重实用性,要面向国民经济的主战场;
5.选题的指导思想、技术路线等,必须有创新性,同时还应与科学发展趋势相一致;
6.选题要考虑到完成论文的可行性(如:
经费、实验仪器、设备、加工、资料等)。
选题不易过大,要能够在规定的时间内完成学位论文。
(二)硕士学位论文选题
要求硕士学位论文选题的内容、范围要适宜。
目标明确,在理论上和应用上要有相当重要的意义。
选题既要面向国民经济建设的需要,为社会主义建设服务,同时又是本学科发展需要的理论或应用研究,要在理论上和应用上有相当重要的意义。
尽可能与科研任务挂钩,使硕士生解决实际问题的能力得到锻炼,既有利于提高论文的质量,促进成果转化,又能解决经费来源。
对自选题应采取慎重态度,个别自选题必须在看准方向、目标明确并已具备一定物质条件下才能考虑。
(三)工程硕士论文选题
工程硕士专业学位论文选题应直接来源于生产实际或具有明确的工程背景,其研究成果要有实际应用价值,论文拟解决的问题要有一定的技术难度和工作量,论文要具有一定的理论深度和先进性。
具体可从以下几个方面选取:
1.技术攻关、技术改造、技术推广与应用;
2.新工艺、新材料、新产品、新设备的研制与开发;
3.引进、消化、吸收和应用国外先进技术项目;
4.应用基础性研究、预研专题;
5.一个较为完整的工程技术项目或工程管理项目的规划或研究;
6.工程设计与实施。
二、学位论文开题报告及查新
开题报告是对论文选题的科学性、先进性、可行性等的论证,是提高学位论文质量和按时完成学位论文的重要环节。
各研究生培养单位、研究生导师、导师组和研究生本人必须从思想上予以高度重视,高标准,严要求,严格遵循本规定有关要求,否则,将不允许研究生进入论文阶段。
(一)开题报告的准备工作:
1.开题前,研究生必须做较全面深入的调研工作,并写出详细的调研报告。
2.研究生必须写出开题报告的书面论证材料和学位论文的工作计划。
3.凡需进行论文开题的研究生,应从研究生院网页上下载并填写《研究生学位论文开题报告登记表》。
(二)开题报告的主要内容:
1.课题的来源、目的和意义;
2.选题的国内外研究现状、发展趋势及存在问题(附主要参考文献);
3.选题研究目标、研究内容和拟解决的关键问题;
4.拟采取的研究方法、技术路线、实验方案及可行性分析(已有的研究工作基础和研究条件);
5.选题的创新点(选题的前沿性、急需性、学科交叉性、应用性等);
6.选题研究及论文工作计划;
7.预期研究成果。
(三)对开题报告的查新工作:
博士学位论文开题报告完成后,要求送交学校“教育部科技查新工作站”(设在校图书馆)进行查新,并获得查新结果。
硕士学位论文开题报告完成后,鼓励进行查新工作。
(四)开题网上公告:
凡拟开题的研究生,必须提前1周在研究生院网页上按规定的格式进行公告。
三、对学位论文开题报告的管理
1.研究生学位论文的开题报告由学位办负责管理,各院(所、部)具体组织实施。
2.各院(所、部)或教研室应组成开题报告评议组对研究生的开题报告进行评议。
博士生开题报告评议组不少于5人,硕士生不少于3人,设组长1人,导师不能担任组长。
评议组的职责是:
按照有关规定对开题报告进行严格认真的评议,坚持高标准、严要求,对开题报告提出具体评议意见,并给出通过或暂不通过或重新做开题报告的结论。
3.凡未通过开题报告,需重新做开题报告的研究生,应根据评议组意见,进行认真调研、充分准备,在条件成熟时再次做开题报告,直至通过。
4.若未通过开题报告而自行进入学位论文阶段的,研究生院学位办将不接收其学位申请。
5.已通过论文开题报告的研究生,因某种原因更改选题,则需重新开题;若只是在原选题基础上拓宽或缩小研究范围,则须向学位办提出书面报告备案。
6.研究生开题一般在第三学期进行,但最晚必须在学位论文答辩前6个月完成开题工作。
7.开题报告工作结束后,硕士、工程硕士将《学位论文开题报告登记表》(1份)提交各院(所、部)研究生秘书,博士生将《学位论文开题报告登记表》(1份)和学位论文开题报告查新结果(1份)提交学位办。
选自《研究生管理工作手册》(2005年8月第四次修订版))
学号:
120040609
中国地质大学(武汉)
研究生学位论文开题报告
登记表
学科专业:
计算机科学应用技术
论文题目:
空间聚类的研究与实现
研究生姓名:
余艳(硕士)
导师姓名:
周顺平(教授)
所在院系:
信息工程学院
开题日期:
2006-11-1
研究生院
二OO二年制
填表说明
一、填表前,请认真阅读学校《关于研究生学位论文选题及开题报告的规定》。
表中各项内容,要实事求是,逐项认真填写。
表达要明确、严谨。
二、封面中“学科专业”请博士生、硕士生严格按规定的二级学科、专业名称填写,工程硕士生请将此项改为“工程领域”并填写规定的工程领域名称,工程硕士为双导师制,故应填写两位导师姓名。
三、填写表中第一页“简表”时:
对于“选题类型、选题来源、经费来源”三项内容,请把各自所选字母填入项目后面的空格中。
区分基础研究和应用研究的主要标志:
具有特定的实际应用目的的研究属于后者;区分科学研究(基础研究和应用研究)与开发研究的主要标志:
前者主要是为了增加科学技术知识,后者则是为了开辟新的应用(如新材料、新技术、新工艺等)。
“摘要”的填写请严格按所留空格逐格填写。
四、表中第二页、第三页、第四页所列项目是开题报告的主要内容,须逐项、逐条进行详细论证、填写,所留空格不够时,请自行加页,页码按顺序编。
五、表中第五页中各意见栏须由有关人员亲笔填写,不得打印。
开题报告评议小组组成要求:
博士生至少5人,硕士生至少3人,每组设组长1人,且研究生本人的导师不能担任组长。
六、表格完成后,请用A4纸装订成册1份,硕士生、工程硕士生交所在院系研究生秘书,同等学力人员交研究生院学位办,博士生交研究生院学位办(同时须提交1份查新报告)。
一、简表
论文题目
空间聚类的研究与实现
选题类型
A.基础研究B.应用研究C.开发研究D.其他
B
选题来源
A.国家级项目B.省部级项目C.横向项目 D.自选项目
C
经费来源
A.课题 B.资助 C.自筹
A
研究生姓名
余艳
性别
女
学号
120040609
导师姓名
周顺平
性别
男
职称
教授
研
究
内
容
和
意
义
摘
要
空
间
数
据
聚
类
是
在
一
个
较
大
的
多
维
数
据
集
中
根
据
以
某
种
度
量
为
标
准
的
相
似
性
找
出
簇
或
稠
密
区
域
。
空
间
统
计
分
析
可
以
从
地
理
空
间
实
体
数
据
集
中
发
现
隐
含
的
信
息
或
知
识
。
不
同
的
聚
类
方
法
对
数
据
的
处
理
效
果
不
一
样
。
本
课
题
针
对
空
间
数
据
的
特
性
选
取
有
代
表
性
的
聚
类
方
法
实
现
空
间
数
据
的
最
佳
聚
类
分
析
。
主题词
1.主题词数量不多于三个;2.主题词之间空一格(英文用/分隔)
中文
空
间
数
据
聚
类
分
析
英文
spatialdataclusteranalyze
注:
区分基础研究和应用研究的主要标志:
具有特定的实际应用目的的研究属于后者;
区分科学研究(基础研究和应用研究)与开发研究的主要标志:
前者主要是为了
增加科学技术知识,后者则是为了开辟新的应用(如新材料、新技术、新工艺等)。
-1-
二、选题依据
1.选题的来源、目的和意义
◆选题的来源:
空间数据表示的基本任务,就是将以图形模拟的空间物体表示成计算机能够接受的数字形式。
空间数据有两种基本的表示模型:
栅格模型和矢量模型。
在栅格模型中,地理空间被划分为规则的小单元(像元),空间位置有像元的行、列号表示。
像元的大小反映了数据的分辨率即精度,空间物体由若干像元隐含描述。
矢量模型将地理空间看成一个空域,地理要素存在其间。
在矢量模型中,各类地理要素根据其空间形态特征分为点、线、面三类。
在用空间数据描述的地理信息中,有时需要根据某种标准将有用或人们感兴趣的数据聚集和分类,来发现地理数据中隐含的信息或变化的趋势。
其中,聚类分析是用来研究和分析空间数据的首选。
聚类分析是人类的一个重要行为。
人类就是不断通过改进意识中的聚类模式来识别各类事物的。
目前聚类分析已经广泛应用于包括模式识别、数据分析、图像处理、市场分析等领域,通过聚类分析,我们能识别密集和稀疏的区域,进而发现全局的分布模式,以及数据属性之间有趣的相互关系。
空间数据聚类是在一个较大的多维数据集中根据以某种度量为标准的相似性找出簇或稠密区域,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
相异度是根据描述对象的属性值来计算的,距离是经常采用的度量方式。
空间聚类对空间物体的集群性进行分析,将其分为几个不同的子群(类)。
子群的形成是地理系统运作的结果,根据此可以揭示某种地理机制。
此外,子群可以作为其他分析的基础。
例如:
公共设施的建立一般的说是根据居民点群的分布,而不是具体的居民住宅的分布来布置的,因此需要对居民点群进行聚类分析以形成若干居民点子群,这样便于简化问题,突出重点。
◆目的和意义:
空间聚类分析可以从地理空间实体数据集中发现隐含的信息或知识,主要有地理空间实体凝聚的趋势、分布规律和变化趋势等。
地理空间实体分布规律揭示了空间实体的群体定位特征。
分布规律通常用分布密度与均值、分布中心、分布轴线和离散度参数来描述。
空间聚类分析是揭示空间实体的群体定位特征的常用方法之一。
地理空间实体发展变化趋势是指空间实体的分布形状与理论扩展形状的差异特征、空间实体分布形状随时间变化的变化特征、空间实体的非空间属性在2维或3维空间上的变化情况。
空间聚类分析要求能发现任意形状的聚类,将得到的聚类形状与理论扩展形状(球形、椭圆形或方形)相比较可以发现许多有意义的隐含信息。
2.选题的国内外研究现状、发展趋势及存在问题(附主要参考文献)
◆国内外研究现状:
20世纪90年代中期,空间聚类主要集中在两个方面:
一是对早期算法的改进,二是开辟新的算法。
例如,WaveCluster和DENCLUE等。
然而,后期的研究发现,聚类空间数据仍然面临新的问题:
(1)处理大量数据点;
(2)处理高维数据;(3)处理多噪声。
一些新的技术,如取样本,浓缩技术、索引技术和基于网络的技术逐渐应用到聚类中,一些性能较优的算法也相继的提出。
主要有CLARANS,DBSCAN,BIRCH,STING,CLIQUE,CURE,OPTICS和CHAMELEON等算法。
但是这些算法只能解决其中的一个或两个问题,并不能解决以上三个问题。
近几年的一些新的研究着眼于对以前算法的进一步改进和寻找新的聚类途径。
例如:
STING+,MAFIA,OPTIGRID,AMOEBA,COD-CLARANS,DBCLUC,DBRS和DBRS+等,他们开辟了空间聚类的新方向。
◆发展趋势:
目前聚类分析已经广泛应用于包括模式识别、数据分析、图象处理、市场分析等领域,通过聚类分析,我们能识别密集和稀疏的区域,进而发现全局的分布模式,以及数据属性之间有趣的相互关系。
例如在市场分析中,聚类能够帮助市场分析人员从客户的基本信息中获取各类不同的用户群,从而指导市场营销的策略;在模式识别上,通过聚类可以提取不同模式之间的共性特征,然后利用这些特征,用于识别同类模式和不同类模式;在生物信息学中,聚类可以指导生物的分类,可以通过对基因进行分类,获取对不同种群生物的特征的认识。
聚类分析在空间数据挖掘、web文档分类、离群点检测等方面也发挥着重要的作用。
目前,随着人工智能和数据挖掘技术的不断深入,聚类分析得到了不断的发展,特别是随着各种数据源的大量涌现,如图像数据、文本数据、DNA数据、时间序列数据、web数据等等,对聚类的研究已经成为数据挖掘领域中一个非常活跃的研究课题。
◆存在问题:
在人工智能和数据挖掘中,存在着大量的将数据划分的问题,这些问题常常是没有先验知识的,这些问题的解决都需要聚类分析的参与,随着大量、不同数据类型的涌现,对聚类分析的能力也提出了挑战。
评价聚类分析的能力主要有六个衡量标准:
(1)处理大量数据的能力,许多算法在小于200个数据对象的小数据集合上工作很好,但是随着数据对象的增加,这些聚类算法的处理能力就会下降,因此一个好的聚类方法需要处理大量数据集合。
(2)处理不同类型数据的能力,当前的聚类算法一般只是针对某种数据类型,但是聚类作为一种分析工具,应该能为不同类型数据进行分析,从而提供一个较普适的模型。
(3)能过发现任意形状聚类的能力,许多聚类算法采用欧式距离来决定相似度,这种度量方式趋向于发现球(超球)簇,而现实种有着大量各类形状的簇,因此需要聚类能够发现任意形状的簇。
(4)处理噪声的能力,现实数据不可避免的存在各类噪声,这些噪声的出现不应该对聚类产生较强的影响,但是有些聚类算法对噪声式敏感的,所以导致了较差的结果。
(5)处理高维数据的能力,当前的数据集合具有各类不同属性,这就使得数据处于高维空间中,人们对于三维以下的数据聚类情况能够较好的判别聚类结果的好坏,但是在高维情况下,考虑到数据分布可能很稀疏,而且高度倾斜,所以聚类这样的数据对象是一个具有挑战性的课题。
(6)聚类结果的课解释性,聚类是为分析数据服务的,人们期望通过聚类从数据中抽取给出某种特定语义的解释,也就是聚类的结果应该是可解释的、可理解和可用的。
参考文献:
[1]、《基于网络的异常入侵检测方法》作者:
赵卫伟,计算机工程与应用2002
[2]、《一种区域型模糊聚类算法》作者:
黄晓斌,马晓岩等,计算机工程与应用2002.21
[3]、《用于数据挖掘的聚类算法》作者:
姜园、张朝阳等,电子信息学报2005
[4]、《一种基于划分的动态聚类算法》作者:
万志华、欧阳为民等,计算机工程与设计
2005.1
[5]、《一种改进的K-means算法》作者:
张玉芳、毛嘉莉等,计算机应用2003.8
[6]、《一种新的聚类算法:
等密度线算法》作者:
赵艳厂、谢帆等,
北京邮电大学学报2002.6
[7]、《Web文档聚类中K-means算法的改进》作者:
王子兴、冯志勇,
微型机与应用2004
[8]、《基于簇中心动态迁移的一个聚类算法》作者:
李丽珊,朱文兴,
福建农林大学学报2004.12
[9]、《基于网格距离的聚类算法的设计、实现和应用》作者:
田启明,王丽珍等,
计算机应用2005.2
[10]、《聚类问题的蚁群算法》作者:
高尚等,计算机工程与应用2004.8
[11]、《中文文本分类器的设计》作者:
陆建江,张文献,计算机工程与应用2002.15
[12]、《使用遗传算法实现K-means聚类算法的K值选择》作者:
杨芳等,微机发展2003.1
[13]、《数据聚类技术的研究》作者:
张蓉,计算机工程与应用,2002.16
[14]、《文本聚类算法的分析与比较》作者:
谷波,张永奎,电脑开发与应用,2003
[15]、《面向非球形分布数据的自适应K近邻聚类算法》作者:
黄晓斌,万建伟等,
计算机工程,2003.7
本栏填写不下,可加续页。
-2-
三、选题研究方案
1.选题研究目标、研究内容和拟解决的关键问题
◆研究目标:
1.主要的聚类方法及其聚类能力。
2.选用不同的聚类算法对空间数据(分为地理数据和属性数据)聚类。
3.分析聚类结果,找到最优的聚类方法。
4.完成基于大型GIS平台的空间数据聚类的可视化工具。
5.完成论文1-2篇。
◆研究内容:
1.主要的聚类方法。
2.不同聚类方法的适用数据类型和聚类能力。
3.整理典型的较为完善和成熟的聚类算法以及部分改进了的能力较强的聚类算法。
4.将空间数据分为描述实体地理位置的数据和属性数据分别选取相对较合适的聚类方法进行聚类。
5.对同一空间数据选用不同的聚类算法比较聚类结果得到最优算法。
◆关键问题:
1.不同聚类方法的适用数据类型和聚类能力。
2.不同类型的空间数据找到最合适的聚类方法。
2.拟采取的研究方法、技术路线、实验方案及可行性分析(已有的研究工作基础和研究条件)
◆研究方法:
由于本课题是面向应用的,不仅是面向数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测,所以,我打算从基本入手。
首先熟悉基本概念和相关背景,接着收集和整理已有的聚类方法,包括每种聚类方法适用的数据类型、聚类能力和聚类效果等,接下来,将空间数据分为矢量数据和属性数据,针对它们不同的特性分别选用较为合适的聚类方法进行聚类,并比较聚类结果进而得到最优解,最后,设计和实现数据聚类仪。
◆技术路线:
对空间数据的聚类主要分两类:
一类是直接根据空间目标的几何数据进行聚类,其相似性的判别标准主要是距离,另一类是对空间目标关联的属性数据进行聚类,其方法是将属性数据看作低维或高维的几何数据,其相似性的判别标准主要是欧氏距离。
◆实验方案:
1、将几何数据用划分方法、层次方法、基于密度的方法和基于模型的方法中的典型聚类算法进行聚类,得到的聚类结果均有不理想的地方。
2、由于典型的聚类方法有其局限性,逐步引入改进了的聚类方法对几何数据聚类。
3、比较用不同的聚类方法得到的聚类结果,得到不同数据的最优聚类方法。
4、将属性数据看成低维或高维的几何数据,用几何数据聚类的方法得到最优结果。
◆可行性分析:
本课题实现的关键在于聚类相似度的选取和聚类算法思想的确立。
几何数据的聚类相似度一般选取欧氏距离,但在将聚类行为看作动态过程的聚类方法中,欧氏距离不能作为唯一的相似度,这时需要用势函数作为判别聚类的标准。
在用经典的划分方法对数据进行聚类时,聚类结果对聚类个数和数据输入的顺序敏感,采用动态聚类算法能较好的解决此问题,在聚类的大小相差悬殊或聚类形状非凸时,MMC聚类方法能得到较优的结果。
本栏填写不下,可加续页。
-3-
3.本选题的创新点(选题的前沿性、急需性、学科交叉性及应用性等)
传统的聚类方法在数据处理中用得较多,聚类相似性的判别标准一般采用欧氏距离。
但在实际应用中,经典的聚类算法有很多的局限性,例如在小数据集合上工作很好,但是随着数据对象的增加,这些聚类算法的处理能力就会下降;当前的聚类算法一般只是针对某种数据类型;以欧氏距离作为度量方式趋向于发现球簇(超球)簇,而现实中有大量各类形状的簇;现实的数据中不可避免的存在各类噪声,这些噪声不应该对聚类产生较强的影响,但是有些聚类算法对噪声是敏感的等等。
本课题旨在为不同的数据找到其聚类的最优结果。
4.选题研究及论文工作计划
2006.1--2006.5收集相关资料,了解基本概念,明确需求,确定方案框架。
2006.6--2005.8完成系统设计,并划分相应的系统功能模块;并完成必要的相关文档。
2006.9--2007.3进入系统的编码、集成、测试阶段,并完成相关的文档。
2007.4--2007.5撰写论文、论文定稿。
2007.6论文答辩。
5.预期研究成果
完成几何数据和属性数据的聚类,聚类结果尽量避免经典聚类算法的局限,达到全局的最优,并设计聚类仪让结果可视化。
本栏填写不下,可加续页。
-4-
四、审查意见
1.指导教师意见(包括:
对选题的意义、特色和创新点、研究计划安排以及对研究如何给予指导、保证如期完成论文等亲笔签署具体意见)
导师(签章)年月日
2.开题报告评议小组意见(对开题报告提出具体评议意见,并给出通过、暂不通过或重新做开题的结论)
组长(签章)组员(签章)年月日
3.教研室意见
教研室负责人(签章)年月日
4.院系意见
院系负责人(签章)单位(公章)年月日
注:
博士生开题报告评议组至少5人,硕士生至少3人,其中组长1人,但导师不能担任组长。
-5-