软件工程数据挖掘硕士学位论文开题报告.docx

资源描述

软件工程数据挖掘硕士学位论文开题报告.docx

《软件工程数据挖掘硕士学位论文开题报告.docx》由会员分享，可在线阅读，更多相关《软件工程数据挖掘硕士学位论文开题报告.docx（10页珍藏版）》请在冰豆网上搜索。

软件工程数据挖掘硕士学位论文开题报告.docx

软件工程数据挖掘硕士学位论文开题报告

软件工程-数据挖掘-硕士学位论文开题报告

攻读硕士学位研究生

硕士学位论文开题报告

题目：

电子化加油数据仓库的建立及其数据挖掘的研究

姓名：

学号：

院系：

软件学院

专业：

软件工程

研究方向：

数据挖掘

指导教师：

一、开题报告情况

报告要求：

须就论文选题意义、文献资料掌握情况、论文研究方法、论文总体设计等方面进行详细的公开及书面报告，提请指导小组予以审查

开题报告审查记录

论文题目：

电子化加油数据仓库的建立及其数据挖掘的研究

时间：

地点：

（一）论文选题意义及创新点

油是汽车源动力，加油站则是车开启的一把钥匙，目前较多加油站还是现金方式交易，随着电脑信息化在各行各业的不断推进，加油站也开始采用电子化的付款方式。

大量的消费数据开始向数据中心进行集中，现行系统只是简单记录汽车加油消费的情况，并通过银行集中进行代发代扣，大量的消费数据只是做为简单报表的数据源，其中真正的价值并未体现。

数据仓库和数据挖掘作为决策支持新技术在近些年来得到了迅速的发展。

本课题主要是为满足对加油消费过程中的数据分析决策需要，通过对消费的油量油费油种类的历史数据抽取、转换、装载到数据仓库，从时间、油类、消费单位、加油商户多个维度进行数据立方体的建立，通过切片、切块、钻取和旋转的方法来对数据进行分析。

对于数据仓库中的消费信息，采用数据挖掘的聚类方法，分析其分布规律，可以找出异常的数据并对其复查，分析其中的问题。

对不同商户的消费记录进行数据挖掘，分析出是否应该在附件新建加油站来缓解加油滞泻，同时可以缓解交通路况，另外可以分析出某些零星加油次数加油站存在的不必要性，建议拆除。

分析不同种类油的消费情况，帮助宏观油量调度供应。

（二）国内、外相关文献掌握程度和研究方法的可靠性

[1]林宇.数据仓库原理与实践.人民邮电出版社，2003

[2]W.HInmon.数据仓库（原书第三版）.王志海，林友芳等译.机械工业出版社，2003

[3]赵晓东.数据挖掘技术在石化企业加油IC卡CRM中的应用研究.硕士学位论文，2009

[4]BudEndress.ImplementingtheOLAPOptiontotheOracle9iDatabase.Oracle

Corporation，2002

[5]PaulrajPonniah.DataWarehousingFundamentals.WileyPublishing,Inc，2004.

[6]S.chaudhuri,U.Dayal.AnOverviewofDataWarehousingandOLAPTechnology.ACMSSGMODRecord，1997，26

（1）

[7]魏云巍，裴军杰，申红茹.加油站库存信息化建设的思考.物流科技，2007

[8]Pang-NingTan,MichaelSteinbach,VipinKumar.数据挖掘导论.范明范宏建等译.人民邮电出版社，2006

数据仓库和数据挖掘现有的研究资料十分丰富，但收集整理适用于本论文研究方向的文献还需要一段时间。

通过对现有业务数据建立数据仓库和数据挖掘的成功案例很多，有充足的案例供参考。

（三）论文总体设计的科学性

论文计划设计成以下框架：

1）引言，包括本文的研究背景，数据仓库和数据挖掘技术的国内外研究动态，课题的主要研究内容。

2）基本理论概述，介绍与本文研究相关的数据仓库和数据挖掘技术。

3）基于电子化加油消费数据的数据分析，包括主题域的提取及相应数据仓库的建立。

初步确定使用Oracle的AnalyticWorkspaceManager来建立数据立方体，并用来做分析。

4）数据仓库上的数据挖掘。

对数据立方体切片、钻取，提取感兴趣维度上的数据进行数据挖掘，并提炼出有价值的知识。

5）结论与展望

（四）存在的主要不足

1）本论文研究的源数据是来各大单位所属个人的加油消费数据库，数据中存在单位用户等信息，由于数据涉及个人信息，故需对个人基本信息进行过滤处理。

数据来源于历史数据，与现行情况存在一定的差别，分析结果反应历史特性。

2）建立数据仓库后的数据分析和数据挖掘暂时未定使用的软件，可能利用Oracle的AnalyticWorkspaceManager现有的分析工具完成，也可能利用Weka或者matlab连接到数据做分析，存在一点技术应用风险，但估计通过查找相关的开发资料可以解决。

3）现掌握和阅读的相关文献未够充分，但通过互联网和图书馆的资源不断补充完善。

记录人签名：

年月日

二、考核意见

导师意见

签名：

年月日

指导小组意见

签名：

年月日

审查建议

1．合格，同意正式进入论文阶段

2．不合格，建议重新开题

指导小组

组成

姓名

职称

所在单位

签字

组长

成员

院（系、所、中心）审核意见：

负责人签名：

年月日

三、书面开题报告及文献名录（可另附页）

硕士学位论文开题报告

一论文题目

《电子化加油数据仓库的建立及其数据挖掘的研究》

二选题的意义

加油站作为各机动车，非机动车延续动力之源的手段，在交通运输物流行业中显得极为重要。

传统加油站收费以现金为主，随着电脑技术的出现，各行各业信息化进度的不断深入，加油站收费逐渐传为电子化的收费方式。

加油用户可在网内加油站进行刷卡，刷卡分为预存与信用。

预存指卡需有余额才可以进行刷卡消费，信用方式则为可以预支刷卡，在指定期限内进行还款的方式。

系统除了联网刷卡加油外，系统还维护单位，商户信息，对消费流水进行代扣，同时还可以进行单位金额代发。

随着越来越多的单位及加油商户加入应系统，随着每天加油流水的不断增加，系统保存了越来越多的用户，商户，消费记录。

系统对这些数据只是做一些查询，一些对帐单，一些简易报表。

这些数据的价值仅仅不限此，对这些数据进行数据挖掘，可对其进行宠观上的决策分析。

对加油过程的信息化无法对个人，单位，商户正真意义上的改进，只有对消费流水信息提炼出有价值，才可以对企业，个人，商户实现三盈。

近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。

获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。

数据挖掘和数据仓库的协同工作，一方面，可以迎合和简化数据挖掘过程中的重要步骤，提高数据挖掘的效率和能力，确保数据挖掘中数据来源的广泛性和完整性。

另一方面，数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。

数据挖掘和数据仓库是融合与互动发展的，其学术研究价值和应用研究前景将是令人振奋的。

它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果，更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。

本课题主要是为满足工作中的数据分析决策需要，对数据库中部分值得研究的加油量和加油拥挤程序进行提取，建立与加油单位及商户业务相适应的数据仓库，并通过对数据仓库中的信息的分析和数据挖掘，提取有价值或者过往没有发现的信息，为企业决策提供指导。

三国内外研究现状

1）数据仓库技术

数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。

使用这些技术建设的信息系统我们称为数据仓库系统。

随着数据仓库技术应用的不断深入，近几年数据仓库技术得到长足的发展。

典型的数据仓库系统，比如：

经营分析系统，决策支持系统等等。

也随着数据仓库系统带来的良好效果，各行各业的单位，已经能很好的接受“整合数据，从数据中找知识，运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。

本论对用户在消费过程产生的数据进行数据仓库的建立

2）数据挖掘技术

数据挖掘（DataMining）是从大量的、不完全的、有噪声的。

模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘可以看成是一种数据搜寻过程，它不必预先假设或提出问题，但是仍能找到那些非预期的却令人关注的信息，这些信息表示了数据元素的关系和模式。

它能挖掘出数据键潜在的模式（pattern），找出最有价值的信息和知识（knowledge）。

指导商业行为或辅助科学研究。

研究对象是大规模和超大规模的数据集合。

四主要研究内容

1）数据仓库的设计和建立

建立数据仓库是为数据分析和数据挖掘服务的，建立电子化加油数据仓库必须要结合单位、商户的数据特点，确定源数据库哪些表和数据需要抽取，以及抽取的方法和策略，把历史数据重新组织。

电子化加油数据仓库的设计包括概念模型设计、逻辑模型设计和物理模型设计。

数据来源

系统不是对所有用户都可以进行电子化加油，用户需要归属特定单可以才进行电子化加油，故系统实现单位下指定用户实现指定范围内商户加油站的电子化加油。

a）各大单位与银行相关中间业务部门进行协商，签定合作协议，单位才可以在系统进行单位信息的注册，作为电子化加油的前提。

b）单位注册后，需指定对应该项目，本论文重点对加油时产生数据进行数据仓库的建立及对加油消费数据进行数据挖掘，所以项目即加油项目。

c）单位下的用户可以提交进行电子化加油功能申请，并提交用户信息至系统，系统生成相应卡号，制成相应实体加油IC卡，并发到用户。

d）各大加油站欲向用户提供电子化加油功能，加油站需向系统提交加油站信息，系统注册加油站信息，并安装相应刷卡POS，与本系统相连

e）用户至系统注册的加油站进行刷卡消费，系统记录消费流水，进行实现扣款或信用扣款

数据属性

1）单位信息包括单位在地区、单位名称、单位对公银行账号（用于扣款）

2）单位项目信息包括单位主键，项目信息

3）用户信息包括单位主键、卡号、单辆信息

4）加油站信息包括加油站所在地区，加油站地址

加油交易流水信息包括卡号主键、加油站信息、交易金额、加油交易信息（油号，加油升数）、单位主键、项目主键

概念模型设计

数据仓库的概念模型设计即是选定分析主题域，界定系统边界，按照分析要求确定主题域的公共键码、联系以及属性组，然后分析原有业务系统的数据组织、分布等，形成关于主题域的完整概念模型。

电子化加油数据主要取自于综合专用卡管理系统，其数据库是数据仓库源数据抽取和转换的主要对象。

根据分析的需求，建立以下二个主题。

a）加油量加油及金额

本论文主要对用户在加油过程中产生的消费信息数据进行分析，用户在消息过程不断产生不同的消费量及消费金额，所以加油量加油及金额是在这一次过程产生主题域。

b）消费次数

用户可能习惯于在某个加油进行电子化加油，也有可能由于时间，事件等原因随机的找一个加油站进行加油，在用户的消费所有过程中，用户在不同维度的消费次数形成一主题域。

逻辑模型的设计

数据仓库的逻辑模型描述了数据仓库主题的逻辑实现，也就是每个主题所对应的关系表的关系模式定义，是数据仓库由概念模型到物理模型转换的桥梁。

逻辑模型应该是按主题域组织起来的，主题域之间的关联关系可以引申到各主题下各个逻辑模型之间的关联关系，不但可以很容易满足现有的一些跨主题查询需求，还可能产生大量有价值，但尚未提出需求的分析。

并且，在逻辑模型设计还应尽可能充分地考虑各主题的指标，相关维度，以及其他与分析无关但有明细查询意义的字段，例如银行账户，地址，电话号码等等。

星型模型显示了一种多维分析的结构。

星型的中心是分析的内容，对应事实表；四周是访问的角度，对应维表；每一维又可划分不同的粒度。

以本课题研究的加油量和加油种类及加油费用为例，事实表包含油类别、油量、加油费用及加油次数基本信息，维表分为时间维、单位维、商户维，时间维又可以按月、季、年分为不同的层次，具体如下：

主题域

a）加油量加油金额主题域

用户在不同的时间点进行电子化加油，时间维可以分为年，季，月，日或时，分，秒）；用户会不在不同的加油站进行加油，加油站又总会在不同的区，形成空间维为加油站或不同区，用户总是属不同的单位，形成单位维。

b）加油次数

维度的不同层次

a）时间维

层次1：

年，季，月，日

层次2：

时，分，秒

b）空间维

层次1：

加油站

层次2：

不同区

数据仓库逻辑模型大概有以下三点注意事项：

　　1、逻辑模型设计基于主题域设计完成的基础上；

　　2、逻辑模型设计尽量做到即满足现在信息消费需求，还有很好的可扩展性满足新需求，作为其他系统的数据提高平台；

　　3、逻辑模型设计必须有灵活、统一的数据组织结构，尽量包含现有和未来业务关心的信息。

物理模型的设计

这一步所做的工作是确定数据的存储结构，确定索引策略，确定数据存放位置，确定存储分配。

确定数据仓库实现的物理模型，要求设计人员必须做到以下几方面:

要全面了解所选用的数据库管理系统，特别是存储结构和存取方法。

了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等，这些是对时间和空间效率进行平衡和优化的重要依据。

.了解外部存储设备的特性，如分块原则，块大小的规定，设备的I/o特性等。

1.确定数据的存储结构

一个数据库管理系统往往都提供多种存储结构供设计人员选用，不同的存储结构有不同的实现方式，各有各的适用范围和优缺点，设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:

存取时间、存储空间利用率和维护代价。

2.确定索引策略

数据仓库的数据量很大，因而需要对数据的存取路径进行仔细的设计和选择。

由于数据仓库的数据都是不常更新的，因而可以设计多种多样的索引结构来提高数据存取效率。

在数据仓库中，设计人员可以考虑对各个数据存储建立专用的、复杂的索引，以获得最高的存取效率，因为在数据仓库中的数据是不常更新的，也就是说每个数据存储是稳定的，因而虽然建立专用的、复杂的索引有一定的代价，但一旦建立就几乎不需维护索引的代价。

3.确定数据存放位置

我们说过，同一个主题的数据并不要求存放在相同的介质上。

在物理设计时，我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类，并将不同类的数据分别存储在不同的存储设备中。

重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上，如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上，如磁盘或磁带。

数据存放位置的确定还要考虑到其它一些方法，如:

决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。

如果采用了这些技术，就要记入元数据。

4.确定存储分配

许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理，如:

块的尺寸、缓冲区的大小和个数等等，它们都要在物理设计时确定。

这同创建数据库系统时的考虑是一样的。

2）数据挖掘

数据挖掘的过程有三个主要阶段构成：

数据准备和预处理、数据挖掘、结果表达和解释。

如下图所示

主要步骤

1）数据选择：

从现有的数据中，确定哪些数据是和本次数据分析相关的。

2）数据预处理：

对于选择出的数据，进行数据清洗工作。

将数据转变成“干净”的数据。

3）数据转换：

将“干净”的数据转换成数据挖掘算法所需要的格式。

4）数据挖掘：

使用合适的数据挖掘算法完成数据分析。

5）解释和评估：

以适当的可视化技术和知识表示技术将模式以合适的形式提供给用户，让用户能够对模型结果作出解释，同时能够评估模型的有效性。

分析指标

a）客户指标

用户总是习惯的或随机有规律不同的加油站进行加油，对消费数据进行数据仓库及数据挖掘可以分析到得到用户的特征，分析可得到一些频繁用户的消费特征，可对其它进行建许议到最近或人数少的加油站进行加油，以提高客户满意度。

b）资源指标

分析不同种类油的消费情况，帮助宏观油量调度供应。

五研究条件和可能存在的问题

5）本论文研究的源数据是来各大单位及个人的加油消费数据库，数据中存在个人用户信息，车牌信息，由于数据涉及个人信息，故需对个人基本信息进行过滤处理。

数据来源于历史数据，与现行情况存在一定的差别，分析结果反应历史特性。

6）建立数据仓库后的数据分析和数据挖掘暂时未定使用的软件，可能利用Oracle的AnalyticWorkspaceManager现有的分析工具完成，也可能利用Weka或者matlab连接到数据做分析，存在一点技术应用风险，但估计通过查找相关的开发资料可以解决。

7）现掌握和阅读的相关文献未够充分，因为本论文的工作首先是要建立数据立方体，所以前期收集的资料以数据仓库、数据立方体的资料为主，有关数据挖掘的资料只是以前所学课程时掌握的，在下一阶段要找相应同类研究和相关算法的论文来看，但通过互联网和图书馆的资源可以解决。

六预期的结果、进度安排

预期结果为建立电子化加油业务中油量油类型的数据立方体，并在此基础上分析结果，做数据挖掘的聚类分析。

如果如果能克服技术上和本人现有掌握知识的不足，尝试做电子化加油的趋势分析，和加油拥挤度分析。

具体的时间安排如下：

AnalyticWorkspaceManager里的分析工具来尝试分析数据，提取一些指标。

2012.2.1-3.31修改完善论文，根据学员要求，做相关准备。

展开阅读全文