数据挖掘在实际生活中的应用.docx
《数据挖掘在实际生活中的应用.docx》由会员分享,可在线阅读,更多相关《数据挖掘在实际生活中的应用.docx(16页珍藏版)》请在冰豆网上搜索。
数据挖掘在实际生活中的应用
数据挖掘在学生学习成绩中的应用
小组成员:
说明
由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获得情况,因此涉及到了学生的一些个人信息。
我们小组全体成员一致承诺:
我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用,对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。
希望各位能够予以理解!
选题背景
近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学
丄作带来了严峻考验。
传统的教学管理手段已经不能满足高校的快速发展。
现阶段许多高校对学生的成绩、学生的信息基本还停留在传统的、简单的数据库管理和查询阶段,不能发挥其应有的作用。
就以学生成绩为例,教师对学生的成绩知识做一个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有些可能是主观因素,有些可能是客观因素。
如果某些客观因素比如学习环境、师资力量等不能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且严重阻碍了学校教育教学发展的脚步。
因此,通过数据挖掘等技术理性的分析学生成绩等关键信息,提高教学质量与水平,是广大师生最关心的问题之一。
数据挖掘
数据挖掘乂称为数据库中的知识发现(KDD),是从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。
数据挖掘的任务是从大量的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系。
利用贝叶斯分类器分析奖学金概率问题
奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用,其
LI的是为了引导和鼓励学生刻苦学习、奋发向上,促进学生全面素质提高和个性健康发展。
为了了解我们计商两个班级上一学年奖学金获得情况,进而考评上一学年我们电子商务系教学成果以及各位同学的学习成绩情况,我们小组利用贝叶斯分类器的方法进行了分析。
贝叶斯分类器的分类原理:
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
贝叶斯公式:
P(X,Y)=p(YX)p(X)=p(XY)p(Y)
变换式:
„/VtF\_PQX丨Y)p(Y)
其中,X和Y在分类中可以分别表示样本的属性集合类别。
p(X,Y)表示他们的联合概率,p(X|Y)和p(YX)表示条件概率,p(YX)是后验概率,p(Y)称为Y的先验概率。
已知通过辅导员老师获得2012-2013学年计商两个班级学生奖学金获得悄况统讣数据如表1和表2所示:
表1Al班奖学金获得情况
2012-2013学年上;
轉二工」
班级
匕大学计蚌:
学号
L与花息弓姓务
测评©分
a
金荻斜恰况统计克因治尊级
iutrli)A2
学引
39.03
1
计算机§信息学為
LO什商入2
学号2
姓名2
36.00
2
乙
机u仔息峑冷
1ni+raA2
姓名3
35.30
3
乙
姓名
35.00
3
汁算机吕信息学斥
LO计商AZ悖号
姓客5
35.02
3
#耳和G輕d空捋
in计商人2
学号6
炷名&
39.58
J
学引
3Q.33
3
LO什商A2
学吕"8
姓名B
M.G
3
LO1+SA2
学邸
姓名今
W.25
<1
1御陌値刼1
iurt-^A2
学马10
舛£10
殂28
Q
乙
计算机吕信克学斥
LO计商A2
学普11
姓各1]
3Q.IS
4
乙
计耳机吕信息学侏
L0计商A2
学号12
姓名12
34.01
4
再
计負机丘信息学慣
1叶询A2
学目门
并名13
33・62
Q
计算机当信息举煤
LO计商A2
学号14
姓冬14
32.92
4
计算机G信息学泯
L0计商A2
学号15
姓名1$
32.35
4
计算机U信息学悅
10计商A2
学号16
姓名16
31.81
\L~
8
10
11
12
13
14
15
16
17
12
表2A2班奖学金获得情况
已知A1班总人数39,山表1可看出获得奖学金人数为22,获得奖学金的概
率约为0.56
已知A2班总人数36,山表2可看岀获得奖学金人数16,获得奖学金的概率
约为0.44
Al.A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得者的比例为58%,A2班占奖学金获得者总人数的比例为42%。
.
根据以上数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的比例,如表3所示:
班级
奖学金概率
获奖人数占两个班级获奖总人数的比例
10计商A1
0.56
58%
10计商A2
0.44
42%
表3奖学金获得概率及所占比例
通过以上数据,我们解决以下两个问题:
(1)随机从两个班级中选出一个学生是奖学金获得者的概率是多少?
(2)随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自哪个班级的可能性最大?
假设X表示“选出的一个学生是奖学金获得者”,Y二i,(i二10计商Al,10
计商A2)表示“选出的学生是来自班级i”,则问题就转换为求解p(X)与
P(Y=iIX)o
山表3得到后验概率为:
P(XY二10计商A1)=0.56,P(XY二10计商A2)=0.44
先验概率为:
P(Y二10计商A1)=58%,P(Y二10计商A2)=42%
由全概率计算公式得出:
P(X)=P(XY=10计商Al)P(Y=10计商A1)+P(XY=10计商A2)P(Y=10计商A2)
=0.56*0.58+0.44*0.42=0.3248+0.1848=0.5096
因此,随机从两个班级中选出一个学生是奖学金获得者的概率是0.5096。
下面我们求解P(Y=iiX),根据贝叶斯定理可得:
由公式
可以il•算岀该获奖学生来自10计商A1班级的概率为:
=io计商,11X2oblTio甘商川)皿二io计商川)p(x)
同理可得,该获奖学生来自10计商A2班级的概率为:
p(Y=10计簡/12|X)=
p(x*切io计商力2”(『匕io计商/2)
通过以上分析讣算不难得出结论:
随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自10计商A1班级的可能性最大。
聚类分析中的k-means算法在学生奖学金等级划分中的应用
k-means算法是常见的基于划分的聚类方法,其中相异度基于对象与类中心
(簇中心)的距离计算,与簇中心距离最近的对象可以划分为一个簇。
此算法的目标是每个对象与簇中心距离的平方和最小。
根据对奖学金获得者学生的学习情况分析可知:
获奖等级与该学生平时去图书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因素有关。
比如,图书馆能为同学们提供安静的、舒适的学习环境,同时能够提高学生学习的自觉性,因此常去图书馆的同学学习成绩一般都比很少去图书馆学生学习成绩要好,相应的拿到奖学金的概率越大,拿到奖学金的等级也越高。
其他因素类似,这里不一一详细用文字来描述。
首先定义五个变量(每学期均按16周计•算):
£
:
一学期去图书馆次数(每周按七天计算,上限112次)
x2
:
一学期迟到次数(每周按四天计算,上限64次)
:
一学期座位在前排次数(每周按四天计算,上限64次)
:
一学期参加各类竞赛次数(每学期上限5次)
兀5
:
一学期宿舍平均评分(上限20分)
兀3
根据奖学金获得者获奖等级悄况分析可知,能够拿到一等及以上奖学金的指标为:
:
96-112;
:
0-2;
:
60-64;
:
3-5;
:
19.5-20
学生
x2
%
%
x5
1
112
1
60
1
19.5
2
106
3
64
2
19.5
3
34
3
•18
1
19.5
4
85
2
64
1
19
5
90
1
62
0
18.5
6
56
1
39
1
20
7
27
4
52
1
18.5
8
73
0
53
1
18
9
10
7
19
1
17
表4根据不同获奖等级选取的学生信息在以上给定的9个样本中选择3个样本:
1号样本代表能够拿到一等及以上奖学金
6号样本代表能够拿到非一等及以上奖学金
9号样本代表不能够拿到奖学金
计算每一个样本与这三个样本的距离:
j=|lO6-H2|+3-]|+64-«)|+〔2-1|+19.5-19.5=13
“26=|106-56|+|3-1|+164-39|+|2-1|+|19・5-2°|=78.5
29=|lO6-lo|+|3-?
|+|64-19|+|2-1|+|19・5-17丨=148.5
3[=|34-112|+|3-1|+148-60|“|卜】|+|1—5|=92
36二I34-56!
+b-1|+|48-39丨+|1-1|+|19.5-2o|=33.5
=|34-io|+|3-7|+|48-19|+|l-l|+|19.5-17|=59.5
dA]=|85-112|+|2-1|+|64-6o|+|1-1|+19-19.51=32.5
=|85-56|+|2-1|+〔64_39|+|1_1|+|19-2o|=56=|85-10+丨2-7|+64-19+1-1|+|l9-I?
|=127
d5j=190-112I+|1-1|+|62-6o|+|o-l|+|18・5—19・5|=26
d56=|90-56丨+|1-1|+|62-39〔+|o-l|+|l8.5-2o|=59.5
t/59=|9O-lo|+|1-7|+|62-19|+|o-l|+|18・5-17|=131.5
d1]=|27-112|+|4-1|+52_®|+|u|+118.5-19.51=97
“76二|27-io|+|4-?
|+|52-3o|+|l-l|+|18.5-2o|=46.5
9=|27-io|+〔4-7〔+|52-19〔+|1-1|+|18.5-17|=54.5
$I=173-112I+|o-l|+|53-6o|+|1-1|+|18-19・5|=48.5
=j73-561+|o-l|+|53-39|+|1-1|+|18-2o|=34
=|73-io|+|o-7+〔53-19+|l-l+|18-17|=105
第一次聚类结果:
学生
与学生1的距离
与学生6的距离
与学生9的距离
1
0
—
—
2
13
78.5
148.5
3
92
33.5
59.5
4
32.5
56
127
5
26
59.5
131.5
6
—
0
—
7
97
46.5
54.5
8
48.5
34
105
9
—
—
0
表5笫一次聚类结果
把以上距离最小的样本归入相应的类:
根据第一次聚类结果数据不难看出,样本1、2、4、5、8儿组数据比较接近,样本3、6、7数据比较接近。
因此,将以上样本划分为三类。
第一类山样本1、2、4、5、8组成,第二类由样本3、6、7组成,第三类由样本9组成。
第一类:
=(112+106+85+90+73)/5二93.2
x2
=(l+3+2+l+0)/5=l.4
兀3
=(60+64+64+62+53)/5二60.6
=(1+2+1+0+1)/5=1
兀5
=(19.5+19.5+19+18.5+18)/5=18.9
第二类:
二(34+56+27)/3=39
二(3+1+4)/3二2・7
二(1+1+D/3二1
二(19.5+20+18.5)/3=19.3
第三类:
=10
=19
=1
=17
新的样本中心:
新中心
X]
x3
x5
第一类
93.2
1.4
60.6|
1|
18.9
第二类
39
2.7
46.31
1|
19.3
第三类
10
7
-
1
1
表6新的样本中心
第二次聚类:
学生2与新样本的距离:
d2j=|106-93.2|+|3-1.4|+|64-60.6|+|l-l|+|l9.5-18.9|=18.4
=|106-39|+|3-2・7|+|—46・3|+|1-1|+|19.5-19j|=83.2
J23=|lO6-lo|+〔7-7+|64-19|+|1-1|+|19.5-1?
|=143.5
学生3与新样本的距离:
〃3]=|34-93.2+卩一1・4|+|48-60.6冲-1|+|19.5-18.9=74
t/32=|34-39+|3-2.7|+|48-46.3!
+|l-l|+|l9.5-19.3i=7.2
%3=斟一田48_19呻_1|+|19.5—17卜59.5
学生4与新样本的距离:
”4,1
屮5—93・2|+|2—1・4|+|64—60・6田1“+|19—18・9卜12・3
〃42沖5_39|+2-2・7+|64_46・3|+|1—1|+|19—19・3卜64・4
〃43斗85-10|+|2-7+(
+卩4-19|+|1-1|+19-17二127
学生5与新样本的距离:
q制90—93・2艸一1・4皆|62—60・6+卩一1|+|18・5—18・9=6・4
^52=|90-39|+|1-2.7|+|62-46.3|+|0-1|+|18.5-19.3|=70.2
J53=|90-10|+|1-7|+|62-19|+|0-1|+|18.5-17|=131.5
学生7与新样本的距离:
=|27-93.2|+|4-1.4|+〔52-60・6|+|1-1|+|18.5-18.9|=76.6
|27-39〔+|4-2.7|+|s3-46.3|+|l-l|+|18.5-19.3|-19.8
27-lo|+”_7|+|52-19|+|1-||+|18・5_17丨=54.5
学生8与新样本的距离:
|73-93・2|++|53-60.6|+|1-1|+|18.9-18|-30」
〔73-39|+|o-2.7|+|53-46.3|+|1-1|+|18.9・19・3|-43.8
=〔73-1°|+|o"|+|53-19|+|1-1|+|18.9-17|=105.9
第二次聚类结果:
学生
与第一类的距离
与第二类的距离
与第三类的距离
1
0
一
—
2
18.4
83.2
143.5
3
74
7.2
59.5
4
12.3
64.4
127
5
6.4
70.2
131.5
6
—
0
—
7
76.6
19.8
54.5
8
30.1
43.8
105.9
9
—
—
0
表7笫二次聚类结果
观察以上部分计算结果,第二次聚类和第一次聚类结果相同(其余讣算部分省略),即第一类还是由样本1,2,4,5,8组成,第二类由样本3,6,7组成,第三类由样本9组成。
此时整个聚类过程结束。
综上计算分析得出结论:
第一类为最有可能拿到一等及以上奖学金,第二类为可能拿到非一等及以上奖学金,第三类为拿不到奖学金者。
小组成员分」况
姓名
工作任务
A
主题选定,参与讨论,数据计算录入
B
主题选定,参与讨论,PPT制作
C
主题选定,参与讨论,内容修改
D
主题选定,参与讨论,数据计算录入
E
主题选定,参与讨论,PPT制作、讲解
(组长)
组织讨论,主题选定,数据处理,内容策划,文档撰与
小组成员学习感言:
(组长):
经过一学期《商务智能》这门课程的学习,使我们从刚开始对商务智能、数据挖掘概念的学习,到后来利用数据挖掘的一些方法去分析足球队成员的组成情况、加上最后两周上机实验的练习以及最终的期末大作业,使我们对数据挖掘有了一个更深层次的了解并能够利用它进行一些实际问题的分析与解决。
在整个学习过程中,虽然我们小组有儿名同学在实习,但是有问题时我们还会通过网络、电话、邮件等方式一起进行讨论,一起完成任务。
A:
通过这学期对商务智能这门课程的学习,我了解到了如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等。
这学期的学习还包括了很多商务智能相关的技术以及软件的运用,使自己受益良多,让我的商务智能相关技术知识丰富了不少,也提高了我的软件操作能力,利用数据之间的联系,可以找出数据之外的隐含信息,对于我来说,这种能力至关重要,在以后走向社会时,有一个别人不会的技能,增加了自己的竞争力。
感谢小组成员的密切配合,让我们可以把小组作业的工作顺利的完成。
B:
通过这学期对商务智能这门课程的学习,我了解到如何对U标对象进行数据挖掘和利用贝叶斯分类器分析问题等知识。
在这次的小组作业中我们在选定了学生成绩分析,但是设il•到理论和讣算的时也非常仔细,组长组织大家讨论选定了题H后按照步骤进行计算,完成文章后大家进行修改和讨论,我制作了PPT。
上完这门课后我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等乂有了一个新的认识,之前上课没听懂的知识点通过这次作业弄明口了。