ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:117.89KB ,
资源ID:24201790      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/24201790.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘在实际生活中的应用.docx)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘在实际生活中的应用.docx

1、数据挖掘在实际生活中的应用数据挖掘在学生学习成绩中的应用小组成员:说明由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获得 情况,因此涉及到了学生的一些个人信息。我们小组全体成员一致承诺:我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用, 对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。希 望各位能够予以理解!选题背景近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学丄作带来了严峻考验。传统的教学管理手段已经不能满足高校的快速发展。现阶段 许多高校对学生的成绩、学生的信息基本还停留在传统的、简单的数据库管理和查 询阶段,不能发

2、挥其应有的作用。就以学生成绩为例,教师对学生的成绩知识做一 个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有些可能是 主观因素,有些可能是客观因素。如果某些客观因素比如学习环境、师资力量等不 能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且严重阻碍了学 校教育教学发展的脚步。因此,通过数据挖掘等技术理性的分析学生成绩等关键信 息,提高教学质量与水平,是广大师生最关心的问题之一。数据挖掘数据挖掘乂称为数据库中的知识发现(KDD),是从大量数据中寻找其规律的 技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘的任务是从大量的 数据中发现对决策有用的知识,发现数据特

3、性以及数据之间的关系。利用贝叶斯分类器分析奖学金概率问题奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用,其LI的是为了引导和鼓励学生刻苦学习、奋发向上,促进学生全面素质提高和个性健 康发展。为了了解我们计商两个班级上一学年奖学金获得情况,进而考评上一学年 我们电子商务系教学成果以及各位同学的学习成绩情况,我们小组利用贝叶斯分类 器的方法进行了分析。贝叶斯分类器的分类原理:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出 其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象 所属的类。贝叶斯公式:P (X, Y) =p (Y X) p (X)

4、 =p (X Y) p (Y)变换式: / V t F _ P Q X 丨 Y ) p ( Y )其中,X和Y在分类中可以分别表示样本的属性集合类别。p(X, Y)表示他们 的联合概率,p(X|Y)和p(YX)表示条件概率,p(Y X)是后验概率,p(Y)称为Y的 先验概率。已知通过辅导员老师获得2012-2013学年计商两个班级学生奖学金获得悄况 统讣数据如表1和表2所示:表1 Al班奖学金获得情况2012-2013学年上;轉二工班级匕大学计蚌: 学号L与花息弓 姓务测评分a金荻斜恰况统计克 因治尊级iutrli)A2学引39.031计算机信息学為LO什商入2学号2姓名236.002乙机u仔

5、息峑冷1 ni+raA2姓名335.303乙姓名35.003汁算机吕信息学斥LO计商AZ悖号姓客535.023#耳和G輕d空捋in计商人2学号6炷名&39.58J学引3Q.333LO什商A2学吕8姓名BM.G3LO1+SA2学邸姓名今W.2511御陌値刼1iurt-A2学马10舛10殂28Q乙计算机吕信克学斥LO计商A2学普11姓各13Q. IS4乙计耳机吕信息学侏L0计商A2学号12姓名1234.014再计負机丘信息学慣1叶询A2学目门并名133362Q计算机当信息举煤LO计商A2学号14姓冬1432.924计算机G信息学泯L0计商A2学号15姓名1$32.354计算机U信息学悅10计商A2

6、学号16姓名1631.81L8101112131415161712表2 A2班奖学金获得情况已知A1班总人数39,山表1可看出获得奖学金人数为22,获得奖学金的概率约为0. 56已知A2班总人数36,山表2可看岀获得奖学金人数16,获得奖学金的概率约为0.44Al. A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得 者的比例为58%, A2班占奖学金获得者总人数的比例为42%。.根据以上数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的 比例,如表3所示:班级奖学金概率获奖人数占两个班级获奖总人数的比例10计商A10. 5658%10计商A20. 4442%表3奖学

7、金获得概率及所占比例通过以上数据,我们解决以下两个问题:(1) 随机从两个班级中选出一个学生是奖学金获得者的概率是多少?(2) 随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学 生来自哪个班级的可能性最大?假设X表示“选出的一个学生是奖学金获得者”,Y二i, (i二10计商Al, 10计商A2)表示“选出的学生是来自班级i”,则问题就转换为求解p(X)与P (Y=i IX) o山表3得到后验概率为:P(X Y二 10 计商 A 1)=0. 56, P(X Y二 10 计商 A2) =0. 44先验概率为:P (Y二 10 计商 A1) =58%, P (Y二 10 计商 A2)

8、=42%由全概率计算公式得出:P(X)=P(X Y=10 计商 Al)P(Y=10 计商 A1)+P(X Y=10 计商 A2)P(Y=10 计商 A2)=0.56*0.58+0. 44*0. 42=0. 3248+0.1848=0. 5096因此,随机从两个班级中选出一个学生是奖学金获得者的概率是0. 5096。下面我们求解P(Y=iiX),根据贝叶斯定理可得:由公式可以il算岀该获奖学生来自10计商A1班级的概率为:= io计商,11X2 oblTio甘商川)皿二io计商川) p(x)同理可得,该获奖学生来自10计商A2班级的概率为:p(Y = 10 计簡 /12 | X)=p(x *切i

9、o计商力2”(匕io计商/2)通过以上分析讣算不难得出结论:随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来 自10计商A1班级的可能性最大。聚类分析中的k-means算法在学生奖学金等级划分中的应用k-means算法是常见的基于划分的聚类方法,其中相异度基于对象与类中心(簇中心)的距离计算,与簇中心距离最近的对象可以划分为一个簇。此算法的目 标是每个对象与簇中心距离的平方和最小。根据对奖学金获得者学生的学习情况分析可知:获奖等级与该学生平时去图 书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因素 有关。比如,图书馆能为同学们提供安静的、舒适的学习环境,

10、同时能够提高学生 学习的自觉性,因此常去图书馆的同学学习成绩一般都比很少去图书馆学生学习成 绩要好,相应的拿到奖学金的概率越大,拿到奖学金的等级也越高。其他因素类 似,这里不一一详细用文字来描述。首先定义五个变量(每学期均按16周计算)::一学期去图书馆次数(每周按七天计算,上限112次)x2:一学期迟到次数(每周按四天计算,上限64次):一学期座位在前排次数(每周按四天计算,上限64次):一学期参加各类竞赛次数(每学期上限5次)兀5:一学期宿舍平均评分(上限20分)兀3根据奖学金获得者获奖等级悄况分析可知,能够拿到一等及以上奖学金的指 标为::96-112;:0-2;:60-64;:3-5;

11、:19. 5-20学生x2%x51112160119. 52106364219. 5334318119.5485264119590162018.5656139120727452118.5873053118910719117表4根据不同获奖等级选取的学生信息 在以上给定的9个样本中选择3个样本:1号样本代表能够拿到一等及以上奖学金6号样本代表能够拿到非一等及以上奖学金9号样本代表不能够拿到奖学金计算每一个样本与这三个样本的距离:j = |lO6-H2| + 3-| + 64-)| +2-1| + 19.5-19.5 = 13“2 6 = |106-56| + |3-1| + 164-39 | +

12、 |2-1| + |195-2| = 78.529 = |lO6-lo| + |3-?| + |64-19| + |2-1| + |195-17丨=148.53 = |34-112| + |3-1| + 148-60 | “ |卜】| + |15| = 923 6 二 I34-56! + b-1| + |48-39丨 + |1-1| + |19.5-2o| = 33.5=|34-io| + |3-7| + |48-19| + |l-l| + |19.5-17| = 59.5dA = |85-112 | + |2-1| + |64-6o| + |1-1| + 19-19.51 = 32.5=|8

13、5-56| + |2-1| +64_39| + |1_1| + |19-2o| = 56 =|85-10 + 丨2-7| + 64-19 + 1-1| + |l9-I?| = 127d5 j = 190-112 I + |1-1| + |62-6o| + |o-l| + |185195| = 26d5 6 = |90-56丨 + |1-1| + |62-39 + |o-l| + |l8.5-2o| = 59.5t/5 9 = |9O-lo| + |1-7| + |62-19| + |o-l| + |185-17| = 131 .5d1 = |27-112| + |4-1| + 52_| + |

14、u| + 118.5-19.51 = 97“7 6 二 |27-io| + |4-?| + |52-3o| + |l-l| + |18.5-2o| = 46.59 = |27-io| +4-7 + |52-19 + |1-1| + |18.5-17| = 54.5$ I = 173-112 I + |o-l| + |53-6o| + |1-1| + |18-195| = 48.5=j 73 -561 + |o-l| + |53-39| + |1-1| + |18-2o| = 34=|73-io| + |o-7 +53-19 + |l-l + |18-17| = 105第一次聚类结果:学生与学生

15、1的距离与学生6的距离与学生9的距离1021378.5148.539233.559.5432.55612752659.5131. 56079746.554.5848. 53410590表5笫一次聚类结果把以上距离最小的样本归入相应的类:根据第一次聚类结果数据不难看出,样本1、2、4、5、8儿组数据比较接 近,样本3、6、7数据比较接近。因此,将以上样本划分为三类。第一类山样本 1、2、4、5、8组成,第二类由样本3、6、7组成,第三类由样本9组成。第一类:=(112+106+85+90+73)/5二93. 2x2=(l+3+2+l+0)/5=l. 4兀3=(60+64+64+62+53)/5二

16、60.6=(1+2+1+0+1)/5=1兀5= (19. 5+19. 5+19+18. 5+18)/5=18. 9第二类:二(34+56+27)/3=39二(3+1+4)/3二27二(1+1+D/3二 1二(19. 5+20+18. 5)/3=19. 3第三类:=10=19=1=17新的样本中心:新中心Xx3x5第一类93.21.460.6 |1 |18.9第二类392. 746.3 11 |19. 3第三类107-11表6新的样本中心第二次聚类:学生2与新样本的距离:d2 j = |106 - 93.2| + |3-1.4| + |64-60.6| + |l-l| + |l9.5-18.9|

17、 = 18.4=|106-39| + |3 - 27| + |463| + |1-1| + |19.5-19j| = 83.2J2 3 = |lO6-lo| +7-7 + |64-19| + |1-1| + |19.5-1?| = 143.5学生3与新样本的距离:3=|34-93.2 + 卩一14|+|48-60.6冲-1|+|19.5-18.9=74t/32 = |34-39+|3-2.7|+|48-46.3!+|l-l|+|l9.5-19.3i=7.2% 3 =斟一田48_19 呻_1|+|19.517卜59.5学生4与新样本的距离:”4,1屮5932|+|214|+|64606田1“+|

18、19189卜1234 2沖5_39|+2-27 + |64_463|+|11| + |19193卜6444 3斗85-10| + |2-7 +(+ 卩4-19|+|1 - 1|+19-17二127学生5与新样本的距离:q 制90932艸一14皆|62606+卩一1|+|185189=6452=|90-39|+|1-2.7|+|62-46.3|+|0-1|+|18.5-19.3|=70.2J53=|90-10|+|1-7|+|62-19|+|0-1|+|18.5-17|=131.5学生7与新样本的距离:=|27-93.2| + |4-1.4| +52-60 6| + |1-1| + |18.5-

19、18.9| = 76.6|27-39 + |4-2.7| + |s3-46.3| + |l-l| + |18.5-19.3| - 19.827-lo| + ”_7| + |52-19| + |1-| + |185_17丨=54.5学生8与新样本的距离:|73-932| + + |53-60.6| + |1-1| + |18.9-18| - 3073-39| + |o-2.7| + |53-46.3| + |1-1| + |18.9193| - 43.8=73 -1| + |o| + |53-19| + |1-1| + |18.9-17| = 105.9第二次聚类结果:学生与第一类的距离与第二类

20、的距离与第三类的距离10一218.483.2143.53747.259. 5412.364.412756.470.2131. 560776.619.854.5830. 143.8105.990表7笫二次聚类结果观察以上部分计算结果,第二次聚类和第一次聚类结果相同(其余讣算部分 省略),即第一类还是由样本1,2, 4, 5, 8组成,第二类由样本3,6,7组成,第三类 由样本9组成。此时整个聚类过程结束。综上计算分析得出结论:第一类为最有可能拿到一等及以上奖学金,第二类为可能拿到非一等及以上 奖学金,第三类为拿不到奖学金者。小组成员分况姓名工作任务A主题选定,参与讨论,数据计算录入B主题选定,参

21、与讨论,PPT制作C主题选定,参与讨论,内容修改D主题选定,参与讨论,数据计算录入E主题选定,参与讨论,PPT制作、讲解(组长)组织讨论,主题选定,数据处理,内容策划,文档撰与小组成员学习感言:(组长):经过一学期商务智能这门课程的学习,使我们从刚开始对商 务智能、数据挖掘概念的学习,到后来利用数据挖掘的一些方法去分析足球队成员 的组成情况、加上最后两周上机实验的练习以及最终的期末大作业,使我们对数据 挖掘有了一个更深层次的了解并能够利用它进行一些实际问题的分析与解决。在整 个学习过程中,虽然我们小组有儿名同学在实习,但是有问题时我们还会通过网 络、电话、邮件等方式一起进行讨论,一起完成任务。

22、A:通过这学期对商务智能这门课程的学习,我了解到了如何对目标对象进行 数据挖掘和利用贝叶斯分类器分析问题等。这学期的学习还包括了很多商务智能相 关的技术以及软件的运用,使自己受益良多,让我的商务智能相关技术知识丰富了 不少,也提高了我的软件操作能力,利用数据之间的联系,可以找出数据之外的隐 含信息,对于我来说,这种能力至关重要,在以后走向社会时,有一个别人不会的 技能,增加了自己的竞争力。感谢小组成员的密切配合,让我们可以把小组作业的 工作顺利的完成。B:通过这学期对商务智能这门课程的学习,我了解到如何对U标对象进行数 据挖掘和利用贝叶斯分类器分析问题等知识。在这次的小组作业中我们在选定了学 生成绩分析,但是设il到理论和讣算的时也非常仔细,组长组织大家讨论选定了题 H后按照步骤进行计算,完成文章后大家进行修改和讨论,我制作了 PPT。上完这 门课后我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等乂有 了一个新的认识,之前上课没听懂的知识点通过这次作业弄明口了。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1