科技创新项目报告书.docx
《科技创新项目报告书.docx》由会员分享,可在线阅读,更多相关《科技创新项目报告书.docx(21页珍藏版)》请在冰豆网上搜索。
科技创新项目报告书
小组成员:
贾志堃杨煊王珠珠
联系电话:
贾志堃
杨煊
王珠珠
院系:
数学与信息科学学院
计算机学院
烟台大学科技创新项目报告书
校院一卡通数据库数据的实时监控及深度数据挖掘的实现
概述
在该项目中,我们致力于打造一个共享校院一卡通数据库数据资源的统一平台。
在这里,所有使用校园一卡通的客户能够校园一卡通系统所记录的地点信息、时间信息、流量信息和资金信息。
其能够为广大客户提供行动指南与参考。
相对的,客户在该平台上的活动,又能够扩充校园一卡通的原有数据库,使得更深入的数据挖掘更为精准。
1.课题背景:
任何一个技术的出现都有着其深刻的历史背景和社会背景。
时至今日,市场经济已经深入到人们生活的方方面面,学校也不例外。
校园卡作为方便校园生活的重要组成部分已经成为除纸币以外校园资金流的主要承载物。
其实质是物联网的兴起。
相比纸币,其具有很多独特的数据特性。
在此课题中,我们收集这些数据并解析它们,为校园的活动提供数据支持。
高校校园一卡通系统的发展历程,可以大致归纳、概括出三个阶段:
1、单一系统;2、统一集成;3、扩展提升(面向服务)。
虽然不同高校的建设程度不同,但是总体来讲,如今的校园卡系统的建设已经迈进了第三个阶段。
第三阶段,是扩展提升(面向服务)的应用阶段,即全局性深入应用阶段:
校园卡系统更加强调对学校人、财、物的资源整合与共享,更加关注对学校管理者和终端持卡人服务价值的体现。
现阶段大多数校园卡系统仅仅实现了统一集成的应用,即校园一卡通的初期建设。
各高校对校园卡系统建设和应用最关心的主要是:
系统和账务安全、开放和共享、运营维护、决策支持等,其中决策支持等应用离不开数据挖掘,现阶段一部分校园卡系统有相配套的数据挖掘模块,比如山东大学的学生困难认定辅助评判系统等。
但是目前,数据分析和挖掘还处于探索的初级阶段,决策支持系统的应用范围还有局限,数据深度也有待提高。
2.课题研究范围:
如今数据分析和数据挖掘是计算机应用科学研究的前沿领域,在BI(商务据挖掘)、WEB流量分析、交通流量管理等方面已经有了很多成功的应用案例。
我们认为,参考已有的成功经验,围绕校园一卡通的核心应用身份识别和电子支付,将各应用系统的在不同业务上独立的数据进行整合、分析、深度挖掘,可以把各应用系统的数据以一种统一集中的宏观决策信息呈现出来。
传统数据挖掘决策支持系统一般包含数据源、数据存储与管理、OLAP服务、前端工具与应用、决策支持应用5个部分。
系统总体结构如图表1传统数据挖掘决策支持系统结构图表1所示。
图表1传统数据挖掘决策支持系统结构
图表2联机分析处理
数据源是整个决策支持系统的数据基础;数据的存储与管理是整个决策支持系统最复杂部分。
在现有的异构数据源的基础上,对数据进行抽取(Extract)、转换和清洗(Transform)、装载(Load),并有效集成操作(即ETL处理),按照主题进行重新组织,构建新的数据仓库;用联机分析处理(OLAP)(如图表2所示)按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析;前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具与应用;决策支持应用综合挖掘系统发现的知识,综合知识库经验,辅助管理人员进行决策,并且向其他应用系统提供发掘的知识,实现联动。
我们的研究集中在图中的分析服务和业务空间部分。
数据挖掘决策支持系统是一个工作量庞大的系统,并且其中异构数据源的整合只有由校园卡一卡通系统的开发者进行,因为不同的系统有不同的标准。
我们的研究是假设在建有了数据仓库的基础上,对整合后的数据进行研究,讨论数据仓库的组织结构以及建立在之上的数据挖掘。
这样就让我们的研究具有了普适性。
3.课题创新点:
现在很多数据挖掘系统所面向的对象都是校园卡的管理者,但是很多都忽视了一点,校园卡系统的用户不仅包含学校管理者,还包含终端持卡人。
大多数校园一卡通系统的数据挖掘模块主要为学校管理者的决策提供服务,而面向终端持卡人的服务仅限于极少数点对点的数据服务。
而我们,为这些背后的信息提供了一个平台,让大家能够利用这些数据为生活提供方便。
同时,在交互中,也让数据库得到了丰富。
在记录了众多个人数据校园一卡通数据库中,可以挖掘出许许多多具有价值的信息。
在注重安全和保护隐私的前提下将一些信息实时的在互联网上进行发布,会创造出很高的社会价值。
基于这样的想法,我们小组将基于校园一卡通数据库进行数据的实时监控和对其深度数据挖掘的研究。
通过对已有数据分析和数据挖掘的算法进行总结,结合校园卡系统的实际情况,做出一个平台,为校园一卡通扩展应用创造更多的可能。
4.课题内容
4.1课题内容概述
内容概述:
了解校园一卡通系统的实际情况,假设在建有了数据仓库的基础上,对整合后的数据进行研究,讨论数据仓库的组织结构以及建立在之上的数据挖掘算法。
建立一个统一的平台提供由数据衍生出的服务。
4.2研究内容:
4.2.1命题假设:
跟具实际情况,我们假设在已有有的异构数据源的基础上,按照主题进行重新组织,构建新的数据仓库,以使我们的研究具有一定的普适性。
4.2.2交互平台的实现:
经过很长时间的建设,我们实现了平台建设计划中的部分功能。
下面我从数据流动(图表3)和内容(图表4)分布说明该平台的大概构成和我们已完成的部分:
4.2.2.1数据流动
如图所示,交互平台数据处理服务器的数据源来自两个数据库:
校园卡系统数据库和交互平台用户回馈数据数据库。
校园卡系统数据库能够给出每一小段时间内,每个校园卡终端机的刷卡量和交易金额。
由此,我们可以得出该校园卡终端机的人流量,这既是我们评价平台里面的热度。
这个就像是网站的点击量,深刻而不带丝毫欺骗性。
而每一个校园卡终端机都拥有其自身的属性,其中包括地点属性,交易内容属性,交易双方身份属性。
而且在这些属性中,每一样都包含了时间标签,其中包含的信息量不言而喻。
这些内容,由校园卡数据库整理成报表,单向发送给交互平台数据处理服务器。
这样保证了校园卡数据库的安全。
交互平台数据处理服务器将报表整理,由B/S模式的web应用将数据共享给校园卡用户和学校决策层。
校园卡用户将通过交互平台用户评价系统进行客户评分修正由校园卡数据库系统中的评分,这个评分将会反馈回交互平台用户回馈数据数据库,将其再次加入到应用当中,从而为客户提供一个比较有参考性的评分指南,从而影响客户的行为。
4.2.2.2平台内容
我们的平台内容主要涵盖了应用了校园卡终端的主要生活活动:
其中包括的图书相关的热度,评分和评价;餐饮相关的热度,评分和评价;影视相关的热度,评分和评价;失物召领;餐厅和图书馆人流量分析等……(图表4)详细前台页面见(9.附录)
4.2.3数据本身,以及数据处理方法研究和论证:
我们的平台是在已有数据仓库的基础上的。
报告前一部分已经说明了为什么我们只对整合后的数据进行研究。
下面我们对我们在平台背后进行的研究内容进行说明,主要有:
数据的假设、评分机制的建立、平台系统的效率,稳定性和安全性。
4.2.3.1数据的假设
由于我们没有办法接触真正的校园卡系统,为结合现实情况我们做了调查工作和数据分析工作,我们对校园卡及校园卡终端所能记录的信息进行了一些了解。
每次刷卡校园卡终端每过一会儿就会和数据库进行一次交互。
由此,我们可以得出该校园卡终端机的人流量,这既是我们评价平台里面的热度。
这个就像是网站的点击量,深刻而不带丝毫欺骗性。
而这一部分,即是我们平台双向信息交互的核心。
每一个校园卡终端机都拥有其自身的属性,其中包括地点属性,交易内容属性,交易双方身份属性。
而且在这些属性中,每一样都包含了时间标签。
只要设计相应的程序,就能实时发布一些交易信息。
把这些信息加以整理,发布出来,能够为客户提供一定了指导依据。
这即是我们平台单向信息发布部分。
4.2.3.2评分机制的建立
在这个平台中,为每一个校园卡终端机的评分就是其对应服务的热度和评分,为使评分机制能够反映现实情况,需要做大量调查工作和数据分析工作。
现阶段已有很多评分的数学模型,它们能为我们的设计提供许多参考。
我们需要结合校园卡系统的实际,对已有的机制进行改进、优化。
所以我们参考了豆瓣和微博的评分机制设立,其公式如下:
4.2.3.2.1热度计算公式
其中
为热度,
为校园卡终端的某一段时间内的刷卡次数。
当时间段为某一固定值时,随着时间的推移每个终端的热度就在随着时间推移而改变,反映出最近的窗口人流量。
为一个调节常数,使各窗口评分拉开差距或缩小差距。
4.2.3.2.2评分计算公式
其中Score即为此前所提的评分。
为10分到0.5分的所占评分总量的百分比。
当然,具体的情况不止这么简单,但是我们没有进行更深入的思考了。
先暂且以其为我们的热度和评分的计算公式。
算法的论证工作我们未进行。
我们没有具体的数据资源,所以只有自己构建模拟真实的情况。
我们需要尽量把用于测试的数据情况做得真实才能正确的反应出算法是否具有可行性和精确性。
如何构建出贴近真实的实验环境,这是我们未解决的问题之一。
4.2.3.3平台系统的效率,稳定性和安全性
无论是用于学校管理者的决策者还为终端持卡人提供数据参考的数据分析都需要一定的效率,稳定性和安全性才具有使用性。
所以对程序做需要做许多考虑。
面对不同的客户,我们进行了一下分类:
一、面向终端持卡人提供数据参考的数据挖掘;其特点主要为实时性、精度需求较小、保护隐私。
二、面向学校管理者的决策的数据挖掘;其特点主要为需要精确、符合实际、有深度。
由于学校管理者所需要的数据挖掘实时性要求不是特别高,并且很多可以由已经集成在数据库的功能能实现,所以我们在平台中没有体现,我们主要考虑的是终端持卡人的情况。
安全性。
校园卡涉及了资金流动,所以我们需要把安全性需要放在前面。
在该平台中,我们把进行资金管理的校园卡系统服务器群与平台管理服务器群隔离开。
图表3就可以看出,他们之间的数据传递是单向的,校园卡系统服务器群完全的以不接受平台管理服务器群的访问,这样基本可以做到资金的绝对安全。
而校园卡系统服务器群只需要定时得单向的和平台管理服务器群进行通信,把数据发往平台管理服务器并在其上进行整理、发布。
效率,稳定性。
这些性质与普通的社区生活网站区别不大,相互之间具有很多参考性,不再累述。
另外用于学校管理者的决策的数据挖掘。
这部分数据分析、挖掘不需要特别追求数据的实时性,并且运算量会较大,一些运算过程可以放在夜间等服务器载荷比较低的时候进行。
通过这些分析,可以让决策者掌握具有深度而且十分准确的信息。
当然这类算法的需要对其反应现实的误差程度进行论证,最低的要求是不能出现导致决策者错误判断现实形势的分析报告。
5.课题趋势:
校园卡系统的发展趋势可以从三个角度去分析,一是从终端用户即师生(持卡人)的角度来看,要求校园卡更加智能化、多样化,比如支付载体存在形态的多样化,像手机卡、CPU卡、网上支付等,还有子系统功能的不断丰富和自助服务应用;二是从学校管理的角度来看,期望校园卡系统便于运营维护,满足学校方便管理的要求;三是从整个行业的角度来看,校园云计算和物联网的兴起,要求校园卡与行业卡进行互用,与校园内外其它系统的关联越来越密切。
从第一个角度看,大部分应用都需要在实现数据快速分析和整理、深度挖掘数据的价值后才能真正有效地发挥其作用。
现阶段校园卡系统很多挖掘数据的算法运算量很大,没有实时性,做不到实时更新数据挖掘的结果。
这样就损失了一些本来可以实现的价值。
无论应用怎样发展,校园一卡通最核心的两大应用功能仍然是身份识别和电子支付。
围绕着这一基础进行二次开发,丰富子系统,扩展应用功能,是校园卡系统发展的一大趋势。
6.研究成果的预计去向及使用范围
6.1.预计去向:
各大校园卡一卡通系统设备提供商、各大高校。
6.2.使用范围:
本课题适用于大多数对异构数据源进行了整合形成了数据仓库的校园卡一卡通系统。
计算形成的结果主要用于学校管理者的决策和为终端持卡人提供数据参考。
6.2.1.为终端持卡人提供数据参考。
经过优化的数据挖掘方法和对数据变化的实时监控,可以极快的速度更新,将数据用于WEB等应用,可以为终端持卡人的自身行为提供参考。
各种应用也提高了持卡者用卡的乐趣,提高校园卡系统客户的粘性,方便了校园管理方得管理。
例如:
通过对不同刷卡中端端口流量的监视可以让终端持卡人了解每个端口的人数,从而决定自己将采取的行动。
6.2.2.用于学校管理者的决策。
在数据仓库建成后,使用数据挖掘技术构建相应挖掘模型。
每种挖掘类型能够完成某种特定功能。
例如:
关联规则挖掘模型通过分析学生属性、消费金额、消费时间、消费地点等之间的关联,分析个体学生消费行为;时序挖掘模型可以月为周期挖掘食堂日消费数据的序列,并作出预测等等。
7.申请资助金额及具体预算
1.购买相关书籍、论文等资料300-400元
2.社会调查问卷等原始数据收集消耗400-500元
3.实验用服务器等设备租用600-800元
4.计算机维护300-400元
5.打印论文等相关耗材200-300元
8.主要参考文献和资料
1.高校校园卡系统应用现状及趋势浅析,作者:
王春雁、白雪,来源:
《中国教育信息化》2011年11期;
2.基于数字化校园环境的一卡通设计与实现,作者:
张胜,赵珏,来源:
《微计算机信息》2010年第02期;
3.基于数据挖掘的校园一卡通决策支持系统设计与开发,作者:
黄志成,来源:
《现代计算机:
下半月版》2009年第12期;
4.海量网络监控数据的自动融合和关联分析,作者:
张立涓,来源:
《计算机应用与软件》2011年08期;
部分内容引自SQLServer官网技术资源库。
9.附录
9.1主页
主页:
9.2餐饮
餐饮主页:
餐饮搜索:
餐饮详情:
9.3图书
图书主页:
图书详细:
用户评论:
9.4影视
影视主页:
影视搜索:
影视评论:
9.5实时数据公布
9.6校园论坛
9.7后台