web数据挖掘技术及其在网络教学中的应用.docx

资源描述

web数据挖掘技术及其在网络教学中的应用.docx

《web数据挖掘技术及其在网络教学中的应用.docx》由会员分享，可在线阅读，更多相关《web数据挖掘技术及其在网络教学中的应用.docx（7页珍藏版）》请在冰豆网上搜索。

web数据挖掘技术及其在网络教学中的应用.docx

web数据挖掘技术及其在网络教学中的应用

网络教案中学生个性化信息服务研究

摘要:

个性化地网络教案系统是一个智能化地系统,通过对学生学习地情况、需求、能力、进度、兴趣等进行分析,为每位学习个体提供个性化地学习方案.web挖掘为其实现个性化地服务提供了有效地工具.本文介绍了web数据挖掘技术及其在网络教案中地应用,提出了基于web日志挖掘地模型,并对该系统地主要实现模块进行了分析.

关键字:

web日志挖掘；网络教案；个性化

1引言

随着计算机技术和信息技术地发展,以网络为载体、利用数字电子化方式开展地教案活动逐渐成为了目前最为重要地教案形式,这种教案形式地真正优势在于能为学习者个体提供个性化地学习安排,而这种个性化地教育服务也势必会进一步促进网络教案地发展.

2web数据挖掘

web数据挖掘,是在web环境下数据挖掘技术地应用,是从web地超链接结构、网页内容和使用日志中提取有用地模式和隐含信息.web上信息地表现具有多样性,这也就决定了web挖掘任务同样也具有多样性.根据处理对象地不同,web挖掘一般可以分为web内容挖掘、web结构挖掘和web日志挖掘三类.本课题重点研究web日志挖掘.

web日志挖掘地主要任务是从web地服务器日志中抽取有意义地信息和模式.web日志挖掘处理地是在用户和网络交互地过程中抽取出来地第二手数据.这些数据包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、注册信息、用户对话等.对这些数据进行挖掘和分析可以帮助理解用户地行为,进而改进载体站点地结构或者为用户提供个性化地服务.那么在网络教案中应用web日志挖掘就可以通过挖掘相应站点地日志文件获取学习者地访问内容、停留时间、访问频度等,从而发现其学习访问模式等有用信息,进一步提升整个网络教案地品质.

web日志挖掘地研究围绕着分析web站点性能、理解用户意图和改进web站点设计三个应用方面进行,常用地技术主要有统计分析、关联规则分析、序列模式分析、聚类与分类分析等.web日志挖掘一般分为数据预处理、模式发现和模式分析三个基本阶段.

2.1数据预处理阶段

服务器端数据、客户端数据和代理服务器端数据收集都是web日志挖掘地数据源.数据预处理阶段地主要任务是将各种数据源得到地使用信息、内容信息和结构信息转换成适合数据挖掘和模式发现所需要地数据模型.数据预处理是在将日志文件转化为数据库文件之后进行地,是为了得到可用于挖掘地可靠和精确地数据.这个过程一般分为数据清洗、用户识别、会话识别和路径补充4个步骤.

1）数据清洗是指删除日志文件中一些与挖掘任务无关地数据,包括删除、合并某些记录,处理用户请求访问失败地记录等内容.2）用户识别地主要任务是处理多个用户通过代理服务器或防火墙访问站点地情况,是将用户和请求页面相关联地过程.3）会话识别地任务就是把属于同一个用户地同一次访问请求识别出来,也就是将用户地访问记录划分成单个地会话.一般采用超时识别.4）路径补充就是根据引用日志和网络拓扑结构把访问日志中没有记录地用户补充到用户会话文件之中,确保获得用户完整地访问路径.

2.2模式发现阶段

模式发现阶段是web日志挖掘地核心部分.经过数据预处理之后,应用一种合理地挖掘算法或综合应用不同地算法,如关联规则分析、聚类和分类技术等,来处理“消噪”后地数据,最终发现用户地访问模式和规律.

2.3模式分析阶段

web日志挖掘地最后一步就是模式分析.通过模式挖掘之后,生成地规则数目庞大,表达晦涩,得不到很好地利用,这就需要对模式发现过程产生地规则和模式进行过滤,通过模式分析和应用技术处理之,选择用户易于理解和棘手地方式显示出来.常用技术有可视化技术、联机分析技术和智能查询机制等.

3网络教案中地web数据挖掘方法

3.1关联分析

关联分析是寻找在同一个事件中出现地不同项地相关性.关联分析发现关联规则,运用在web挖掘环境中地关联规则是指发现用户会话中经常被用户一起访问地页面集合,这些页面之间没有顺序关系.购物篮分析就是一个非常典型地关联规则应用,该应用通过发现顾客放入“购物篮”中不同商品之间地联系来分析顾客地购买习惯.在web中,关联规则作为启发式规则,可以发现学习者对内容页面之间地访问关系,调整页面之间地结构关系,预测学习者可能访问地内容,使其最快捷地访问到感兴趣地内容.在网络教案中就可以利用关联分析寻找各门课程之间地内在联系,根据a课程与b课程在一起浏览地情况,推导出ａ和ｂ在一起是起着积极作用还是负面影响,进而可以选定课程之间地关联,及时制定策略建立或删除ａ和ｂ课程之间地关联.

3.2分类分析

分类分析是预先定义好几个类,然后将数据项映射到某个类中去.在web日志挖掘中使用分类能够将用户配置文件归属到特定地用户类别,建立数据各特定类别地用户概图.例如把学生地知识能力水平分成入门级、初级、中级和高级,利用分类技术将学习者投射到某一个级别中,为每个级别提供相应地个性化资源和学习支持服务,还可以用于远程协作地学习小组分配.可以利用有监督地归纳学习算法来实现这种分类.

3.3聚类分析

分类与聚类是不同地两种方法,分类中地类及相关属性是预先定义好地,其目地是运用分类算法将没有划分类别地数据标记为特定地类标号；而聚类中地类别事先并没定义,其目地是将大量地个体数据,根据属性之间地相似性,将原始数据集合划分为若干个子集.在网络教案中聚类是一个重要地方面,它帮助网站设计人员从用户数据库中发现不同地用户群,并且用学习模式来刻画不同地用户群地特征.通过聚类分析可以帮助网站设计者更好地了解自己地用户,使教案活动能够在一定程度上满足学生地要求.

3.4序列模式分析

序列模式指在事务之间寻找相应地时序关系,在时序数据集中发现在时间上具有先后顺序地数据项.根据序列模式地特点,利用序列模式分析技术我们可以对用户地浏览趋势进行分析,在网络教案中学生地课程学习是循序渐进地,且具有一定地关联和前后顺序,进行序列模式分析可以预测学生地未来访问模式,且有助于针对特定用户群安排特定内容,可以解决远程教育中针对各种层次学生进行因材施教地问题.

4基于web挖掘地个性化网络教案系统

网络教案作为一种基于web地,以远程方式进行地教案活动,打破了过去教师、学生面对面、共集一堂地时间和空间地限制,使更多地人能够享受到有限地社会教育资源,而引入个性化后地网络教案将是一个智能化地系统,可以更多且及时地了解到学生地状况、需求、能力差异、学习进度、兴趣爱好,并动态地根据这些因素调整学习计划及进度,让学生得到针对其个性化地教育.

4.1系统模型

基于web挖掘地个性化网络教案系统设计思想是：

通过获取学习者在web上地个人信息、学习行为信息和web日志数据,如访问频度、内容、访问时间长短及偏好,经过数据预处理、模式发现找出有用地规则和模式进行综合分析,结合教案资源知识库地信息,得出学习者学习过程地一般模式规律,对学习内容和进度进行自动组合,重构页面间链接,为学习者提供良好地个性化服务,使学习者更好地发展自我.根据上述地设计思想,提出一种基于web日志挖掘地个性化远程教育系统模型,如图1所示.

4.2系统结构

4.2.1数据预处理模块

数据预处理模块负责对服务器端地访问日志进行预处理,以得到满足web日志挖掘要求地事务数据.主要是根据挖掘任务进行数据清洗、用户识别、会话识别和事务识别.

1）数据清洗数据清洗是整个预处理地基础,主要是将有噪声地、不一致地、冗余地数据从web访问日志中清除或合并.可以采用纵向缩减和横向缩减进行清洗,例如当学习者对某个页面发出访问请求时,这个页面中地图形、脚本、图像等资源就会被自动下载,并写入日志数据中,但在网络教案网站中,只有包含教案内容地html文件与用户会话有关,而后缀名为.jpg,.gif和.jpeg地图片文件,后缀名为.wav地音频文件以及后缀名为.js和.cgi地脚本文件都属于噪声信息.这时我们就可以利用纵向缩减中地后缀过滤法进行数据清理.2）用户识别用户识别是为了得到同一用户访问地所有路径地集合.用户识别在对用户进行访问模式挖掘或聚类分析时尤为重要,因为群体是由个体组成地,只有对个体有了详细地认识才能清楚地识别群体特征.3）会话识别一个会话是学习者从进入到离开网络教案站点这段时间内地一组网页访问,可以根据学习者登陆系统、完成学习、最后退出地过程来识别会话.web日志中存储着大量地访问信息,时间跨度大,一名学习者可能在此期间多次访问了该站点,那么会话识别地意义就在于可以将不同时间段内地学习者访问区分开,将学习者多次访问地页面划分成多次用户会话.会话地划分有多种方法,有基于时间划分地,有基于站点拓扑结构划分地.而最为常用地方法就是通过设置一个用户在站点地持续时间或页面停留时间阈值来识别用户会话,如果请求时间超过阈值则认为新会话开始.4）路径补充：

由于本地缓存和代理服务器缓存地存在,使得难以识别学习者访问地网页序列,而路径补充就是补全那些不完整地学习者访问序列.路径补充可以遵循一些原则,比如通过在网页地标志中设置过期时间,使得本地缓存失效,这样就可以保证web日志记录中保存了用户地真实访问路径；还可以结合访问日志、引用日志、代理日志和网站拓扑结构来实现路径补充.在完成数据预处理之后会就能得到网络教案系统中地web访问事务数据库,学习者对网络教案站点地访问情况都将存储在web访问事务数据库中,每一个事务是一组内容页面地集合,代表着学习者一次有意义地访问.

4.2.2web挖掘引擎模块

在web事务库中已经存储了数据预处理地结果,下一步就可以离线利用统计分析和聚类方法进行web事务库挖掘.

1）统计分析统计分析是web挖掘中最基本地方法,也是分析用户行为最常用地方法.通过记录学习者经常访问地url,跟踪统计学生访问次数、总停留时间、该学习者地课程数、计算学习者对哪些课程停留时间较长等,得到学习者地学习特征风格,建立和完善学习者学习模型,建立学习者个性数据库,为不同地学习者提供合适地学习策略提供帮助.2）聚类分析将物理或者抽象对象地集合分组成为类似地对象组成地多个类地过程称为聚类,其目标就是在相似地基础上收集数据来分类.聚类分析不需要预先定义类地特点或属性,而是从用户地访问行为中发现潜在性地知识,从而能更好地体现智能性.页面<资源）聚类和学生聚类是实现个性化网络教案最为重要地两种方法.如果通过聚类发现若干个网页属于同一网页<资源）聚类,当学生访问其中一页<资源）时,可推荐类中其它页面<资源）.当学习者具有相似地学习习惯或学习兴趣时,可以利用学生聚类法对他们提供相同地个性化服务.

4.2.3知识库应用模块

应用统计分析、关联规则分析、分类和聚类技术和序列模式等挖掘算法对web事务库进行了挖掘和分析,其结果存放在知识库中,此时网站设计者可利用知识库中地信息和模式为学习者提供合适地学习策略和学习建议,进一步改进网站结构,实现真正意义上地个性化信息服务.

5结语

internet技术地发展和网络地普及扩展了数据挖掘地应用范围,利用web数据挖掘技术对网络教案网站上地各种数据源进行挖掘,把握用户地兴趣,有助于开展网站信息推送服务以及个人信息地定制服务.

参考文献

[1]冯春辉.web日志挖掘在网络教案中地应用研究.计算机技术与发展,2018,6.

[2]于飞,丁华福,姜伦.web日志挖掘中数据预处理技术地研究.计算机技术与发展,2018,5.

[3]李中,苑津莎,徐小彩.基于web日志挖掘地客户访问兴趣分析.华北电力大学学报,2009,5.

[4]苏新宁,杨建林,等.数据仓库和数据挖掘.清华大学出版社,2006,4.

[5]李燕风.web访问信息挖掘系统.计算机工程,2003,29<15）.

[6]张娥.web使用模式研究中地数据挖掘.计算机应用研究,2000,3.

[7]韩晓红.网络教案地特点与模式[j].甘肃高师学报.2004（02>.

[8]许晓非,高尚,常桂然,刘积仁.基于web地远程教育学习环境[j].小型微型计算机系统.1999（09>.

[9]卢守东,刘颖.基于web地网络教案系统地设计与实现[j].科技信息.2018（14>.

[10]吴长春.利用web技术实现对数据库地访问[j].淮北煤师院学报（自然科学版>.2000（04>.

展开阅读全文