1、分类与回归树。2目的2.1 Apriori算法本软件系统是对数据掘Apriori算法的功能实现。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。2.2 应用领域经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和
2、挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。 Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消费习惯。Apriori算法应用于网络安全领域,比如时候入侵检测技术中。早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些审计跟踪的目的多是为了性能测试或计费,因此对攻击检测提供的有用信息比较少
3、。它通过模式的学习和训练可以发现网络用户的一场行为模式。采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则,是网络入侵检测系统可以快速的发现用户的行为模式,能够快速的锁定攻击者,提高了基于关联规则的入侵检测系统的检测性。Apriori算法应用于高校管理中。随着高校贫困生人数的不断增加,学校管理部门资助工作难度也越加增大。针对这一现象,提出一种基于数据挖掘算法的解决方法。将关联规则的Apriori算法应用到贫困助学体系中,并且针对经典Apriori挖掘算法存在的不足进行改进,先将事务数据库映射为一个布尔矩阵,用一种逐层递增的思想来动态的分配内存进行存储,再利用向量求与运算,寻找
4、频繁项集。实验结果表明,改进后的Apriori算法在运行效率上有了很大的提升,挖掘出的规则也可以有效地辅助学校管理部门有针对性的开展贫困助学工作。Apriori算法被广泛应用于移动通信领域。移动增值业务逐渐成为移动通信市场上最有活力、最具潜力、最受瞩目的业务。随着产业的复苏,越来越多的增值业务表现出强劲的发展势头,呈现出应用多元化、营销品牌化、管理集中化、合作纵深化的特点。针对这种趋势,在关联规则数据挖掘中广泛应用的Apriori算法被很多公司应用。依托某电信运营商正在建设的增值业务Web数据仓库平台,对来自移动增值业务方面的调查数据进行了相关的挖掘处理,从而获得了关于用户行为特征和需求的间接
5、反映市场动态的有用信息,这些信息在指导运营商的业务运营和辅助业务提供商的决策制定等方面具有十分重要的参考价值。3设计方案3.1 数据库设计为了设计的简单性和方便性,本系统使用Microsoft Office Excel 97-2003版本作为数据库,数据库的设计格式如表3-1所示。记录号所购物品清单1啤酒、尿布,婴儿爽身粉,面包,雨伞2尿布,婴儿爽身粉3啤酒、尿布,牛奶4尿布,啤酒,洗衣粉5啤酒,牛奶,可乐饮料表 3-13.2 系统设计(举例说明)一个超级市场的销售系统记录了顾客购物的情况。表3-2中记录了5个顾客的购物单。表3-2超市经理想知道商品之间的关联,要求列出那些同时购买的、且支持度
6、40%(即在5行中至少出现两次)的商品名称。 KDD系统通过特定算法(例如著名的Apriori(验证)算法及或改进算法)多次扫描数据库,依次得出如表3和表4。其中支持度2/5的项,如单项的面包,雨伞和 双项中的 尿布,牛奶等等已经略去,三项统计为空,其中只有 啤酒,尿布,牛奶出现了一次(表3-2中3号记录),支持度小于40%,略去。单项统计支持度啤酒4/5尿布婴儿爽身粉2/5牛奶双项统计啤酒,尿布3/5啤酒,牛奶尿布,婴儿爽身粉 表3-3 表3-4从单项统计中看出80%的顾客买了啤酒、80%的顾客买了尿布。从双项统计中看出,60%的顾客同时买了啤酒和尿布,40%的顾客买了啤酒和牛奶,40%的顾
7、客买了尿布和爽身粉。还可观察到买了啤酒顾客中又买了尿布的占0.6啤酒,尿布/0.8啤酒=75% (称为置信度)。于是可得出下列六条规则,其中:s为支持度,c为置信度。R1:啤酒尿布,S=60%,C=0.6/0.8=75%R2:尿布啤酒,S=60%,C=0.6/0.8=75%R3:牛奶啤酒, S=40%,C=0.4/0.4=100%R4:啤酒牛奶, S=40%,C=0.4/0.8=50%R5:尿布爽身粉。S=40%,C=0.4/0.8=50%R6:婴儿爽身粉尿布。S=40%,C=0.4/0.4=100%KDD规则反映了物品之间的表面联系,不一定是现实世界的因果关系。规则是死的,人是活的,运用之妙
8、成乎于人。例如,R6“婴儿爽身粉尿布”有很高的置信度,是合理可理解的,R3有很高的置信度将提示进一步的调查分析,本例中是因为训练资料太少引起的失真。3.3 系统设计算法思路(关键问题解决方法)首先我们从数据库中提取出所购物品清单这一列的所有数据,保存在一个字符串类型的数组strArray中,数组当中的每一个元素就是每一条记录。因为每一条记录当中不可能只有一种商品,根据没两种商品之间的分隔符,例如“,”、“,”、“、”等等,我们提取出每一条记录中的每一种商品,把这种商品作为每一个元素,我们存储在新定义的数组allCommodity当作,此时,allCommodity当中每一个元素也就是每一个候选
9、项。那么如何能够得到每一个候选项的支持度呢?创建一个哈希表hashTable来解决如上问题,把候选项作为哈希表的key值,然后value值为1添加到哈希表当中,如此循环,每一种商品重复添加时,也就是key值相同的时候,我们不添加,而把value值加1,到最后,成功的获取到每一种出现的商品所购买的总次数。用这个总的次数除以数据库中购买的总记录条数,也就是数组allCommodity的长度,这个值即为支持度。通过预先设定的最小支持度值,筛选出符合要求的候选项集,如表3-3。以此类推,我们能够得到满足最小支持度的多个候选项集,如表3-4。然后利用置信度排除掉不满足要求的项集,即可得出各种商品之间的强
10、关联规则。如R1、R2、R3所示。4系统运行效果展示4.1 系统运行主界面4.2 参数设置运行界面4.3 路径设置运行界面4.3.1 路径设置主界面4.3.2浏览按钮效果图4.3.3注意按钮界面4.4 数据库导入运行效果图4.4.1 数据库导入主界面4.4.2编辑数据库运行效果4.4.3关闭数据库记录运行效果4.5 显示分析结果运行效果4.5.1 显示分析结果主界面4.5.2保存分析结果运行效果4.5.3 分析结果完全效果4.5.4关闭分析结果运行效果4.6 文件菜单效果展示4.7 设置菜单效果展示4.8 帮助菜单效果展示4.9 关于对话框运行效果5总结 从选题到定稿,从理论到实践,在整整两星
11、期的日子里,可以说得是苦多于甜,但是可以学到很多很多的东西,同时不仅可以巩固了以前所学过的知识,而且学到了很多在书本上所没有学到过的知识。通过这次课程设计使我懂得了理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论,才能真正为社会服务,从而提高自己的实际动手能力和独立思考的能力。在设计的过程中遇到问题,可以说得是困难重重,这毕竟第一次做的,难免会遇到过各种各样的问题,同时在设计的过程中发现了自己的不足之处,对以前所学过的知识理解得不够深刻,掌握得不够牢固。通过这次课程设计之后,一定把以前所学过的知识重新温故。这次论文设计终于顺利完成了,在设计中遇到了很多编程问题,最后终于游逆而解。同时,在老师的身上我学得到很多实用的知识,在次我表示感谢!同时,对给过我帮助的所有同学和各位指导老师再次表示忠心的感谢!
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1