毕业生就业数据分析系统开发毕业设计Word格式.docx

资源描述

毕业生就业数据分析系统开发毕业设计Word格式.docx

《毕业生就业数据分析系统开发毕业设计Word格式.docx》由会员分享，可在线阅读，更多相关《毕业生就业数据分析系统开发毕业设计Word格式.docx（30页珍藏版）》请在冰豆网上搜索。

毕业生就业数据分析系统开发毕业设计Word格式.docx

Baye

theorem

Database

引言

近年来随着人工智能技术和数据库技术的发展，数据挖掘技术出现。

数据挖掘是一个从模糊的、有噪声的、不完全的、大量的、随机的，从大量人们事先所不知道的、但又是潜在有用的信息和知识的一个过程。

需要我们不断挖掘。

呙铉們欤谦鸪饺竞荡赚。

本论文讲述的是运用数据挖掘技术中的贝叶斯分类算法对应届毕业生在毕业后的就业情况进行预测。

《毕业生就业数据分析系统开发》是按照数据挖掘方法及软件工程设计步骤，详细地说明了整个开发过程以及每一个技术细节。

同时，还阐述了课题的来源、需求分析、设计、实现和实验结果等情况。

莹谐龌蕲賞组靄绉嚴减。

第1章选题背景概述

1.1课题背景

随着数据库技术的不断发展以及数据库管理系统的推广应用，人们积累的数据越来越多。

而九十年代后因特网的出现，更是打破了各种限制，人们甚至能够跨越时空交换数据信息。

因此，展现在人们面前的数据不仅仅局限于某个部门、某个单位和某个行业等，而是浩瀚无限的信息海洋。

麸肃鹏镟轿騍镣缚縟糶。

大量增加的数据背后隐藏着很多的重要信息，人们希望能够进行更高层次的分析，以便更好地利用这些数据。

虽然目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但是无法自动、智能地将等待处理的数据背后隐藏的重要信息和知识挖掘出来加以利用，无法根据现有的数据预测未来的发展趋势，并达到决策服务的目的，因此导致“数据海量爆炸但是知识贫乏”的现象。

納畴鳗吶鄖禎銣腻鰲锬。

因此，我们必须找到有关方法，自动地分析数据、自动地对数据汇总、自动发现和描述数据中的趋势、自动地对数据进行分类、自动地标记异常。

風撵鲔貓铁频钙蓟纠庙。

1.2课题的目的和意义

随着我国高等教育的普及，全国大部分高校都根据自身情况进行了扩招，于是造成如今高校毕业生的就业形势逐渐严峻的状态。

很多大学生都愁于找不到工作。

当前对于高校毕业生的就业状况的分析相对简单，大多仅仅按学校的就业率和专业就业率进行评价，显得片面、缺乏科学性。

灭嗳骇諗鋅猎輛觏馊藹。

在现实实际中，所谓名校，热门专业等等，并不能保证毕业生绝对能就业。

从微观上看，学生自身的素质和某些硬性条件是影响就业的关键。

根据这一情况，借助计算机对毕业生的就业信息进行挖掘，可以对目前的教学质量进行科学的综合分析，寻找影响毕业生就业的因素，以便对我们今后的教学和学生工作提出指导性建议。

本课题正是在这一背景下提出，利用数据挖掘任务之一的分类，对过往的毕业生就业信息建立预测模型，同时应用该模型对即将的毕业生的就业状况进行预测，以便为学校招生就业部门的工作提供参考与建议。

铹鸝饷飾镡閌赀诨癱骝。

《毕业生就业数据分析系统开发》就是为了解决这个就业预测问题而开发的，它采用数据挖掘方法，通过统计分析，应用贝叶斯定理对未来即将就业的毕业生的就业趋势进行了预测。

可以预测到他们的就业情况和就业的概率。

该系统要求用户录入毕业生的各项相关数据，同时在录入后可以对录入的数据进行抽样分析，得到相应的计算模型，并测试该模型的可靠性及精确度，根据该计算模型对毕业生就业情况进行预测，得出就业统计分析图和就业概率统计图。

攙閿频嵘陣澇諗谴隴泸。

1.3国内外发展概况

1.3.1国外研究和发展现状

与数据挖掘（DataMining）极为相似的术语一一从数据库中发现知识（KDD）一词，首次出现在1989年8月在美国底特律召开的第1l届国际人工智能联合会议的专题讨论会上。

1993年以后，美国计算机协会（ACM）每年都举行了专门的会议研究探讨数据挖掘技术。

会议名称为ACMSIGKDDIntemationalConferenceonKnowledgeDiscoveryandDataMining，简称KDD会议。

KDD会议的规模由原来的专题讨论会发展到国际学术大会。

研究重点也逐渐从发现方法转向系统应用。

并且注重多种发现策略和技术的集成，以及多种学科之问的相互渗透。

趕輾雏纨颗锊讨跃满賺。

国外的研究重点从发现方法逐渐向系统应用直到专享大规模的综合系统开发，并且注重多种发现策略和技术的集成。

夹覡闾辁駁档驀迁锬減。

1.3.2国内研究和发展现状

与国外相比．国内对DMKD的研究稍晚，没有形成整体力量。

1993年国家自然科学基金首次支持中科院合肥分院对该领域的研究项目。

目前从事数据挖掘研究的人员主要在大学，也有部分在研究所或公司。

研究领域一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。

国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究。

视絀镘鸸鲚鐘脑钧欖粝。

1.4指导思想

本设计主要采用数据挖掘技术对毕业生就业情况进行预测。

整个设计关键在于贝叶斯定理的分类算法实现。

该设计方案主要采用数据挖掘技术，通过对往届毕业生就业数据的导入，对其进行统计分析，应用贝叶斯定理建立预测模型，并应用该模型对未来即将就业的毕业生的就业趋势进行预测。

偽澀锟攢鴛擋緬铹鈞錠。

1.5数据挖掘技术

1.5.1数据挖掘技术的产生背景

随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。

数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。

其主要任务是关联分析、分类、预测时序模式和偏差分析等。

是知识发现（knowledgediscoveryindatabase）的关键步骤。

緦徑铫膾龋轿级镗挢廟。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。

起初各种商业数据是存储在计算机的数据库中的，然后发展到可以对数据库进行查询和访问，进而发展到对数据库的即时遍历。

数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。

騅憑钶銘侥张礫阵轸蔼。

1.5.2数据挖掘技术的定义及含义

数据挖掘（DataMining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

疠骐錾农剎貯狱颢幗騮。

从广义上讲，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。

人们把数据看作是形成知识的源泉，不断地挖掘。

原始数据可以是结构化的，如关系数据库中的数据；

也可以是半结构化的，如文本、图形和图像数据；

甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的，也可以是非数学的；

可以是演绎的，也可以是归纳的。

发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。

因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。

在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。

镞锊过润启婭澗骆讕瀘。

数据挖掘也是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

简而言之，数据挖掘其实是一类深层次的数据分析方法。

商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的（Opportunistic）商业运作而产生。

分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。

但所有企业面临的一个共同问题是：

企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。

榿贰轲誊壟该槛鲻垲赛。

1.6贝叶斯分类算法

1.6.1贝叶斯算法的介绍

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。

在许多场合，朴素贝叶斯（NaiveBayes，NB）分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

邁茑赚陉宾呗擷鹪讼凑。

由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。

为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN（treeaugmentedBayesnetwork）算法。

嵝硖贪塒廩袞悯倉華糲。

1.6.2贝叶斯定理

贝叶斯定理（Bayes'

theorem）是概率论中的一个结论，它跟随机变量的条件概率以及边缘概率分布有关。

在有些关于概率的解说中，贝叶斯定理能够告知我们如何利用新证据修改已有的看法。

该栎谖碼戆沖巋鳧薩锭。

通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；

然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。

贝叶斯公式的用途在于通过己知三个概率函数推出第四个。

它的内容是:

在B出现的前提下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以B出现的概率。

通过联系A与B,计算从一个事件产生另一事件的概率,即从结果上溯原。

劇妆诨貰攖苹埘呂仑庙。

作为一个普遍的原理，贝叶斯定理对于所有概率的解释是有效的；

然而，频率主义者和贝叶斯主义者对于在应用中，某个随机事件的概率该如何被赋值，有着不同的看法：

频率主义者根据随机事件发生的频率，或者总体样本里面的发生的个数来赋值概率；

贝叶斯主义者则根据未知的命题来赋值概率。

这样的理念导致贝叶斯主义者有更多的机会使用贝叶斯定理。

臠龍讹驄桠业變墊罗蘄。

贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。

（1.1）

其中P（A|B）是在B发生的情况下A发生的可能性。

在贝叶斯定理中，每个名词都有约定俗成的名称：

（1）P（A）是A的先验概率或边缘概率。

之所以称为"

先验"

是因为它不考虑任何B方面的因素。

（2）P（A|B）是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。

（3）P（B|A）是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。

（4）P（B）是B的先验概率或边缘概率，也作标准化常量（normalizingconstant）。

按这些术语，Bayes定理可表述为：

后验概率=（相似度*先验概率）/标准化常量。

也就是说，后验概率与先验概率和相似度的乘积成正比。

另外，比例P（B|A）/P（B）也有时被称作标准相似度（standardisedlikelihood），Bayes定理可表述为：

鰻順褛悦漚縫冁屜鸭骞。

后验概率=标准相似度*先验概率。

1.6.3朴素贝叶斯分类的原理与流程

朴素贝叶斯分类法是一种十分简单的分类算法，朴素贝叶斯分类名字缘由是因为这种方法的思想很朴素，朴素贝叶斯的思想基础是这样的：

对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个概率最大，就认为此待分类项属于哪个类别。

通俗说，就好比这么个道理，你在街上看到一个黑人，我们不能确切说他是从哪里来的，但是你十有八九猜是非洲人。

主要原因是黑人中非洲人的比率最高，不能否定黑人也可能是美洲人或其他，但是在没有其它可用信息下，我们一定是会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

穑釓虚绺滟鳗絲懷紓泺。

朴素贝叶斯分类法的正式定义如下：

1、设

为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合

。

3、计算

4、如果

，则

现在的关键是计算第3步中各个条件概率，就能得出第4步的最大值。

接下来我们可以这么做：

1、先要找到一个已知分类的待分类项集合，这个集合称为训练样本集。

2、然后统计得到在各类别下各个特征属性的条件概率估计。

即

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

（1.2）

因为分母对于所有类别为常数，即我们只要将分子最大化。

又因各特征属性为条件独立的，所以有：

（1.3）

根据上述分析，朴素贝叶斯分类的流程可以由下图1-1表示：

图1-1朴素贝叶斯分类流程图

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。

这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。

这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

隶誆荧鉴獫纲鴣攣駘賽。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率,并将结果记录。

其输入是特征属性和训练样本，输出是分类器。

这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

浹繢腻叢着駕骠構砀湊。

第三阶段——应用阶段。

这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。

这一阶段也是机械性阶段，由程序完成。

鈀燭罚櫝箋礱颼畢韫粝。

1.6.4估计类别下特征属性划分的条件概率及Laplace校准

我们可以看出计算各个划分的条件概率P（a|y）是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P（a|y），下面重点讨论特征属性是连续值的情况。

惬執缉蘿绅颀阳灣熗鍵。

当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。

即：

（1.4）

而

。

因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。

另外出现P（a|y）=0时应该怎么处理。

当某个类别下某个特征项划分没有出现时，就会产生这种现象，这种现象会令分类器质量大大降低。

为解决这个问题，我们引入Laplace校准，其思想很简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面，问题得到解决。

贞廈给鏌綞牵鎮獵鎦龐。

1.6.5贝叶斯定理应用

贝叶斯定理用于投资决策分析是在已知相关项目B的资料，而缺乏论证项目A的直接资料时，通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。

如果我们用数学语言描绘，即当已知事件Bi的概率P（Bi）和事件Bi已发生条件下事件A的概率P（A│Bi），则可运用贝叶斯定理计算出在事件A发生条件下事件Bi的概率P（Bi│A）。

嚌鲭级厨胀鑲铟礦毁蕲。

按贝叶斯定理进行投资决策的基本步骤是：

（1）列出在已知项目B条件下项目A的发生概率，即将P（A│B）转换为P（B│A）；

（2）绘制树型图；

（3）求各状态结点的期望收益值，并将结果填入树型图；

（4）根据对树型图的分析，进行投资项目决策；

搜索巨人Google和Autonomy，一家出售信息恢复工具的公司，都使用了贝叶斯定理（Bayesianprinciples）为数据搜索提供近似的（但是技术上不确切）结果。

研究人员还使用贝叶斯模型来判断症状和疾病之间的相互关系，创建个人机器人，开发能够根据数据和经验来决定行动的人工智能设备。

薊镔竖牍熒浹醬籬铃騫。

1.7小结

本章介绍了本课题选题的的背景、目的和意义。

阐述了数据挖掘技术的概念和含义。

本章主要归纳了数据挖掘技术中的贝叶斯分类法，详细描述了朴素贝叶斯分类的原理与流程以及它的应用。

齡践砚语蜗铸转絹攤濼。

第2章方案论证

2.1设计原理、方案选择

随着社会发展，科学进步，计算机技术日益提高，以及计算机用户的操作水平的不断提高，用户对计算机应用系统的要求也越来越高。

如何保证设计开发出来的应用系统能够适应用户的更高要求，是每个程序开发人员必须先要考虑的问题。

同时，在设计过程中也应充分考虑系统的灵活性和可扩充性，使得系统在操作起来更容易上手，并且有很好的界面，这些都是开发人员应该要考虑的问题。

绅薮疮颧訝标販繯轅赛。

总的来说，一个好的系统性能应该达到以下几个标准：

（1）先进性：

系统先进，可靠，设计合理；

（2）实用性：

操作简单，功能齐全，各个模块之间有较好的连接接口；

（3）可扩充性：

易于维护，能够适应新的操作环境；

（4）稳定性：

成熟，稳定，安全性，兼容性好。

对于我所设计的毕业生就业信息管理系统：

首先应该通过录入往届毕业生的各种信息以及他们在毕业后的就业情况，建立数据库，利用所建立的数据库，从中随机抽取一部分的数据。

接着根据数据的分类分为两步，第一步：

建立一个模型，用来描述预定的数据类集。

通过分析由属性描述的数据库元组（记录）来构造模型。

假定每个元组属于一个预定义的类，由一个称作类标号属性的属性确定。

对于分类，数据元组也称作样本，为建立模型而被分析的数据元组形成训练数据集。

第二步：

使用模型进行分类。

首先评估模型（分类法）的预测准确率，如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组进行分类。

饪箩狞屬诺釙诬苧径凛。

用贝叶斯分类算法分析数据并按要求对其进行分类，该分类法的准确性可用保持方法进行评估：

将给定的数据随机的划分成两个独立的集合：

训练集（取随机抽样集的2/3）和测试集（取随机抽样集的1/3）。

如图2-1所示。

烴毙潜籬賢擔視蠶贲粵。

图2-1系统方案图

先建立一个数据模型，并测试该模型的可靠性。

然后根据这个模型，对毕业生就业情况进行数据预测，根据这些有用的信息，用户就可以对即将毕业的毕业生的就业情况有一个预测。

从而可知毕业生的就业趋势以及毕业后的就业率是怎么样的。

这对于学校和毕业生个人来讲说都是一个很有价值的信息，同时也给学校招生就业部门的工作提供参考与建议。

对于学校来说，他们可以根据今年毕业生就业情况的预测，来考虑明年的招生问题，是否可增大招生的名额，来满足社会的各种就业需求。

当然也可以根据这个来对学生的素质教育进行调整，使学生能够更好地为自己的就业创造更有利条件，对整个社会来说也是有益的。

鋝岂涛軌跃轮莳講嫗键。

目前对高校毕业

展开阅读全文