基于关联规则的高技能人才收入现状研究.docx
《基于关联规则的高技能人才收入现状研究.docx》由会员分享,可在线阅读,更多相关《基于关联规则的高技能人才收入现状研究.docx(29页珍藏版)》请在冰豆网上搜索。
基于关联规则的高技能人才收入现状研究
本科毕业论文
(科研训练、毕业设计)
题目:
基于关联规则的高技能人才
收入现状的研究
姓名:
陈义呈
学院:
信息科学与技术学院
系:
自动化
专业:
自动化
年级:
2005
学号:
22320051204184
指导教师(校内):
罗林开职称:
副教授
指导教师(校外):
职称:
2009年05月17日
基于关联规则的高技能人才收入现状研究
摘要:
随着Web和Internet的迅猛发展,网络规模不断扩大,各个领域的信息爆炸式增长,人们希望计算机能够提供更高层次的数据分析功能,自动和智能地将待处理数据转化为有用的信息和知识,数据挖掘就为迎合这种需求而产生并迅速发展起来的。
关联规则挖掘是数据挖掘的重要分支。
自从Agrawal等学者于1993年首先提
出了关联规则挖掘问题以来,诸多研究人员对关联规则挖掘问题进行了大量的研
究,提出了很多高效的算法。
本文在现有的关联规则挖掘研究的基础上作了如下工作:
1、在查阅国内外大量文献资料的基础上,对数据挖掘技术和关联规则挖掘技术进行了概述,讨论了关联规则挖掘的典型算法Apriori算法。
2、关联规则技术与高技能人才收入现状相结合。
首先将调查得到的数据进行离散化、消除噪声、填充缺值等预处理,设置算法参数,对关联规则进行挖掘,从而得到各个属性对高技能人才工资的影响程度及相关规则,进而研究高技能人才收入与性别、年龄、工龄、行业、学历、技能、地区、工作环境、工作满意度、工作稳定性等因素之间的关系,为政府制定高技能人才工资指导价位提供决策支持,同时也为企业招聘和人才应聘提供薪酬参考。
关键词:
数据挖掘关联规则高技能人才收入现状
ResearchontheSalaryofPeoplewithHighSkillBasedonAssociationRules
Abstract:
WiththerapiddevelopmentofWebandInternet,informationisexplosivelyincreasing.Computerisexpectedtoprovidesomehigherlevelfunctionsofdataanalysiswhichcanprocessdataautomaticallyandintelligently.Hencedatamininghasgottenarapiddevelopment.
Associationruleminingisanimportantbranchofthedatamining.SinceitwasproposedbyAgrawalandotherscholars,ithasbeenconductedalotofresearchandmanyresearchersproposealotofefficientalgorithmsofdatamining.
Basedontheexistingassociationrulemining,thispapermainlydiscussesthefollowingwork:
1.Thebackgroundknowledgeofdataminingandassociationrulesminingisintroducedbriefly.Wealsostatethetypicalalgorithmofassociationrulesmining--Apriorialgorithm.;anddiscussthebasicideaandtheimplementationofseveralfrequentitem-setoptimizemethods.
2、Weapplyassociationrulestechniquetostudythesalaryofpeoplewithhighskill.Fistofall,datadiscretization,noisereduction,missingvaluepaddingisdonebeforemining.Aftersettingalgorithmparameter,associationruleminingisstarted.Throughobtainedassociationrules,wesummarizesomehelpfulrulesthatshowsomeattributescombinationstronglyinfluencethesalaryofpeoplewithhighskill.Theseresultscansupplysomehelpforgovernment’spoliciesofhighskilledtalent,aswellassomesalary’referencesforemployersandemployees.
Keywords:
datamining,associationrules,highskilledtalents
目录
第一章引言-4-
1、1研究背景-4-
1、2挖掘关联规则的难点-5-
1、3本文的工作-6-
1、4本文的组织结构-6-
第二章数据挖掘、关联规则概述-8-
2、1数据挖掘概述-8-
2、2关联规则概述-9-
2、3小结-13-
第三章应用关联规则分析广东省高技能人才收入现状-14-
3、1高技能人才定义-14-
3、2数据预处理-14-
3、3关联规则应用-18-
3、4结果分析-21-
第四章结束语-25-
致谢语-27-
参考文献:
-28-
第一章引言
1、1研究背景
在过去的10年里,随着硬盘价格的下降,企业通过多种应用程序收集了大量的数据[1]。
对企业来说,目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
在市场需求和技术基础这两个因素都具备的环境下,数据挖掘的概念和技术应运而生,并广泛应用于各个领域,很快成为了一种决策支持的新手段。
1、1、1数据挖掘的含义
数据挖掘是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则的高级处理过程[2]。
通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富、可靠的资源为知识的提取提供服务。
1、1、2高技能人才收入现状分析的意义
高技能人才是在生产、服务等领域岗位一线的从业者中,具备精湛专业技能,在关键环节发挥作用,能够解决生产操作难题的人员。
他们是我国人才队伍的重要组成部分,是各行各业产业大军的优秀代表,是技术工人队伍的核心骨干[3]。
高技能人才培养体系建设“十一五”规划纲要指出:
“十一五”时期主要任务之一是充分调动劳动者个人积极性,走技能成才之路,国家将建立有利于高技能人才成长的激励机制,提高高技能人才待遇水平[4]。
2008年广东省开展了高技能人才市场工资指导价位调查工作,旨在通过数据分析指导高技能人才市场工资价位的制定,引导企业合理制定工资,调动劳动者积极性,实现劳动关系双赢和谐。
当前我国大学毕业生总量急剧增加,劳动力市场不完善,再加上08年以来的金融危机使得大学生就业形势非常严峻,为此大学生应该技巧性择业。
本文通过对广东省高技能人才收入数据进行挖掘、分析,不但能够为广东省人才市场工作价位的制定提供参考,还能够指导大学生正确择业,加深大学生对形势的认识,为大学生提供就业指导。
此外,还能够加深家长、学校、社会各方人士对人才培养的认知。
1、1、3关联规则挖掘
关联规则挖掘的任务是在事务数据库D中找出满足用户给定的最小支持度Minimum_Support和最小置信度Minimum_Probability以及用户感兴趣的、有用的关联规则。
是面向特定领域,特定前提、约束条件的规则,同时还要能够易于被用户理解,并能用自然语言表达所发现的结果。
1、2挖掘关联规则的难点
首先是算法的复杂性。
目前的挖掘关联规则的算法都是针对这个问题而提出来的。
通常提出的算法从两个方面来考虑如何提高算法的效率。
(1)减少I/O操作。
关联规则挖掘GB甚至TB数量级,频繁的I/O操作势必会影响关联规则的挖掘效率。
减少扫描数据库D的次数可以减少I/O操作,提高效率;
(2)降低需要计算支持度的候选项目集的数量,使其与频繁项目集的数量接近。
候选项目集的数量的减少可以节省处理部分候选项目集所需要的计算时间和存储空间。
其次是如何从产生的规则中选择用户感兴趣、有用的规则。
最小置信度和最小支持度并不能确保所挖掘出来的关联规则都是用户感兴趣的,其中可能包含许多冗余、无意义的关联规则。
而且支持度和置信度较高的关联规则有可能是常识的知识,不能称之为信息。
因此制定好的置信度与支持度参数可以使挖掘出的关联规则更能满足用户的需求。
最后是噪声数据。
数据在收集、存储和传输过程,往往都会导入噪声,使得数据发生偏差。
这些包括数据值的缺失、数据孤立点以及冗余数据。
如果不对数据噪声进行有效抑制和消除而直接运用挖掘算法,往往会得出错误知识,导致挖掘过程的失败。
1、3本文的工作
本文的目的是根据调查数据,研究高技能人才收入与性别、年龄、工龄、行业、学历、技能、地区、工作环境、工作满意度、工作稳定性等因素之间的关系,为政府制定高技能人才工资指导价提供决策支持,同时也为企业招聘和人才应聘提供薪酬参考。
本文首先将广东省高技能人才调查问卷表格化生成初始数据源,并数据源中抽取广东省、广州市、广东省市属高技能人才收入数据进行数据预处理,包括对高技能人才性别、年龄、工龄、工种、学历、技能、地区、工资、满意度、期望、稳定性等属性进行离散化、消除噪声、填充缺值处理,去除不影响人才收入的因素,增设编号等属性操作。
然后将数据导入数据库,通过SQLSever软件,选取关联规则挖掘选项,设置不同支持度与置信度参数,对关联规则进行数据挖掘,从而得到各个属性对高技能人才工资的影响程度及相关规则,为广东省人才市场、毕业生、教育机构提供有益的信息,具有现实意义。
1、4本文的组织结构
本文围绕关联规则及其在高技能人才收入现状中的应用为展开,全文共分为四章。
论文结构安排如下:
第一章引言,简单介绍了高技能人才收入现状的研究背景,关联规则研究状况,以及本文的工作思路和全文的组织。
第二章数据挖掘、关联规则概述,介绍了数据挖掘背景、数据挖掘的概念、功能及分类;还阐述了关联规则的提出,关联规则的概念、种类、关联规则价值衡量的方法,关联规则生成及算法思路,并且重点介绍了生成频繁项目集的算法。
第三章应用关联规则分析高技能人才收入现状,也是将关联规则技术面向应用。
从数据挖掘的角度出发,对原始数据进行预处理,应用关联规则的Apriori算法对大量数据进行挖掘,得到了一些有用关联规则并且进行相关分析。
第四章结束语,指出了本文存在的不足及进一步研究的方向。
最后致谢、参考文献和附录。
第二章数据挖掘、关联规则概述
2、1数据挖掘概述
2、1、1数据挖掘的产生
随着数据库技术的迅猛发展和计算机网络技术的流行与普及,人们每天都能获得大量的数据,并对这些数据做出及时的处理以筛选出对自己有用的信息。
一方面,要在一个数量巨大的数据库里找出对自己有用的信息并加以利用从而不至于浪费可用信息,不是一件容易的事情;另一方面,信息之间是有关联的,这就要求我们不能停留在信息的表面,应该深入挖掘出信息之间的联系,找出隐藏在信息背后的潜在知识,这样才能使信息的利用价值发挥到最大。
在这样的背景下,数据挖掘技术应运而生[5]。
数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。
2、1、2数据挖掘
指的是分析数据,使用自动化或半自动化的工具来挖掘隐含的模式[6]。
数据挖掘是一门广义的交叉学科[7]。
数据挖掘把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持[12]。
数据挖掘与传统的数据分析(如:
查询、报表、联机应用分析)是有着本质的区别的。
数据挖掘是在没有明确假设前提下去挖掘信息、发现知识,数据挖掘得出来的信息具有预先未知性、有效性和实用性,挖掘出来的信息越出乎意料,越有价值。
2、1、3数据挖掘的分类
基于数据挖掘任务可将数据挖掘分为以下几种:
分类、聚类、关联、回归、预测、序列分析、偏差分析[1]。
2、2关联规则概述
2、2、1关联规则的提出
1993年,Agrawal等人在对市场购物篮问题(MarketBasket)进行分析时,首先提出了顾客交易数据库中项集间的关联规则问题[8]。
典型的关联规则的例子就是“90%的顾客在购买面包和黄油的同时也会购买牛奶”,其直观的意义是,顾客在购买某些东西的时候有多大的倾向也会购买另外一些东西,找出所有类似这样的规则,对于确定市场策略是很有价值的。
关联规则是发现交易数据库中不同商品(项)之间的联系,从这些规则中找出商品销售中顾客的购买模式。
2、2、2关联规则的概念
在数据挖掘的知识模式中,关联规则挖掘是非常重要的一种,也是非常活跃的一个分支。
关联算法有两个步骤:
挖掘频繁项集、基于频繁项集来生成关联规则。
如图是关联规则挖掘的基本模型:
图1关联规则挖掘的基本模型
其中D为数据库,Algorithm-1为频繁项集的生成算法,Algorithm-2为关联规则的产生算法,R为挖掘出的关联规则集合。
用户通过指定的minsupport、minconfiden参数与算法Algorithm-1和Algorithm-2交互,并通过与R的交互D对挖掘结果进行解释和评价。
以下介绍关联规则算法的术语与概念。
1、项集
项集是一组项,每个项都是一个属性值,每个项集都有一个大小,该大小表示项集中包含的项的数目。
例如项集{Cake,Pepsi,Milk}的大小为3,Cake,Pepsi,Milk是项集的项。
频繁项集是在数据集中出项频率相当高的那些项。
项集出现的频率的阈值是用支持度(Support)来定义。
2、支持度
支持度是用于度量一个项集的出现频率。
项集{A,B}的支持度是由同时包含A和B的事务总个数所组成。
公式(2、1)
是一个阈值参数,表示用户只对某些项集与规则感兴趣。
参数
用于对项集进行限制。
3、概率
概率(Probability)是关联规则的属性,在数据挖掘研究领域中也称为置信度(Confidence).
规则A=>B的概率按以下定义的:
公式(2、2)
是一个阈值参数,表示用户只对某些规则感兴趣,这些规则拥有比较高的概率。
参数
用于对规则进行限制。
4、重要性
重要性在一些文献中也称为兴趣度或增益(lift)。
重要性可用于度量规则。
规则的重要性使用以下公式计算:
公式(2、3)
重要性为0表示A和B之间没有任何关联。
正的重要性分数表示当A为真时,B的概率会上升;负的重要性分式表示当B为真时,B的概率会下降。
2、2、3关联规则的种类
我们将关联规则按照不同的情况进行分类:
1、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
2、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
3、基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
给出了关联规则的分类后,我们就可以在分析过程中考虑某类规则的挖掘适用哪种具体的方法。
2、2、4关联规则价值衡量的方法
本文使用“支持度-置信度-重要性”的框架。
通常,重要值越高,规则就变得越有用。
同时我们还将考虑具有如下特性的有用规则:
较高的重要性值,较高的置信度值,较高的支持度值。
2、2、5频繁项集生成算法—Apriori算法
挖掘频繁项集是使用关联规则算法的核心部分。
通常待挖掘的数据库有很多属性,并且数据量巨大,因此对数据库扫描的次数、读取数据库的I/O次数就显得尤为重要。
而更为重要的是,在求取频繁项目集时,由于不同的项目集的数量可达到
个(
为项目的个数),若对所有的项目集都进行支持度的计算,几乎是不可能的。
Apriori算法首先使用Minimum_Support参数来指定频率阈值,通过扫描数据集,对每个单项的支持度进行计数,在第一次迭代中挖掘所有的大小为1的频繁项集(支持度大于Minimum_Support的项集)。
算法进而基于第一次迭代的结果(大小为1的频繁项集)生成一组大小为2的候选项集,通过算法扫描候选项集,对每一个生成的候选项集的支持度进行计数,排除那些支持度小于Minimum_Support的候选项集,从而获得大小为2的频繁项集列表。
算法重复相同的过程来挖掘大小分别为3、4、5…的频繁项集,直到再没有项集满足Minimum_Support条件为止。
以下代码是用于生成频繁项集的主要过程:
输入:
交易数据库T;最小支持度Minimum_Support。
输出:
T中的频繁项目集L。
图2频繁项集生成算法-Apriori算法
2、2、6关联规则的生成
关联规则的生成是关联规则挖掘中相对容易的一步。
以下过程生成所有满足要求的关联规则:
对于每一个频繁项目集
,生成其所有的非空子集;
对于
的每一个非空子集
,如果
公式(2、4)
则输出规则
.
因为规则是从项集中生成的,所以规则中的每一项都会自动满足最小支持度的条件。
2、3小结
关联规则挖掘就是发现大量数据中项集之间有趣的关联或相关关系,是从数据集中挖掘出形如
的蕴含式。
关联规则挖掘问题就是在数据库中找出满足用户给定的最小支持度Minimum_Support和最小可信度Minimum_Probability的关联规则。
关联规则挖掘问题分为两个子问题:
频繁项集和关联规则的生成。
其中发现频繁项集是关联规则挖掘的关键。
对于频繁项集的发现有很多算法,最著名的是Agrawal等人于1993年提出的Apriori算法,使用逐层搜索的迭代技术,用大小为k-1的频繁项集探索大小为k的频繁项集,并使用Apriori性质压缩搜索空间,巧妙的解决了算法的效率问题。
第三章应用关联规则分析广东省高技能人才收入现状
3、1高技能人才定义
高技能人才是在生产、服务等领域岗位一线的从业者中,具备精湛专业技能,关键环节发挥作用,能够解决生产操作难题的人员。
他们是我国人才队伍的重要组成部分,是各行各业产业大军的优秀代表,是技术工人队伍的核心骨干。
在人才市场中,用人单位都会遇到这个问题:
如何更好的挖掘对方,挽留有价值的人才,对不同行业、不同年龄段、拥有不同经验的人才工资收入是如何确定的?
对于应届毕业生或是求职者,面对严峻的就业形势,如何合理的定位期望薪水,把握自己的择业方向,从而轻松就业?
这些问题都是影响人才市场的重要因素。
为了更好的了解高技能人才的特点,为合理制定人才收入价位及为人才自身定位提供参考,本文利用关联规则分析人才收入的现状。
3、2数据预处理
1、2008年广东省下达了相关文件并指出现阶段广东省应切实加强劳动力市场工资指导价位制度建设,认真做好2008年劳动力市场工资指导价位调查工作,并且在广东省各市展开了高技能人才收入调查[9]。
本文将调查问卷结果简化整理成为表格,并从总数据中分别选取了2008年广东省、广东省广州市、广东省市属单位高技能人才收入数据。
为便于分析与研究,将表中连续的属性值进行离散化分段处理,例如将年龄属性分段为16-24岁,25-29岁,30-34岁,35-39岁,40-44岁,45-49岁,50-54岁,55-59岁,60以上;将学历属性分段为初中,高中(含高中、中专、技校),大专及以上(含高等职业教育、电大),高职高专(含高中、中专、技校),没有,其他;将技能属性分段为技工,高级工,技师,高级技师等,最终得初表。
为便于查看,本为列出部分列表,见表2、3、4。
图3广东省高技能人才收入基础数据
图4广州市高技能人才收入基础数据
图5市属高技能人才收入基础数据
2、关联规则挖掘算法很简单,比如本文用到的Apriori算法。
但是相关数据挖掘书籍却很少提到如何在真的数据库上实现。
真实的数据库不一定是海量数据库,哪怕是一个记录超过几千的关系表,如果属性很多,超过20个,那么中间过程中产生的候选项集也是很庞大的。
其实计算机所需的内存主要是保存候选项集和频繁项集。
因此为了减少运行时间以及所占计算机内存,我们对以上3个表进行属性预处理:
由于表中的Q7工作环境、Q9满意度、Q10期望、Q11稳定性、希望的行业这几个属性对高技能人才的收入现状并不影响,因此在表2、3、4中删去;表3、4中的公司属性对人才收入现状的研究并无多大作用,做删去处理;在数据挖掘过程中,为便于识别每一项数据,在表2、3、4中加入编号属性。
3、现对表中的原始数据进行数据清理。
清除一些冗余数据,消除重复记录;消除噪声数据,填充缺值的数据。
例如有的数据项(工种、技能)是空缺的,对其进行相关查找和对照,用最"近似"的数据进行填充。
以下为经过处理的部分数据结果。
图6广东省高技能人才收入数据
图7广州市高技能人才收入数据集
图8市属高技能人才收入现状数据
3、3关联规则应用
本文用SQLServer软件完成关联规则挖掘任务。
首先建立数据库,将广东省高技能人才收入、广州市高技能人才收入、广东省市属单位高技能人才收入数据源导入数据库,选择关联规则挖掘选项,并设置支持度与置信度,经过挖掘引擎的挖掘,通过挖掘模型查看器便可查看挖掘结果。
由于太小的支持度会将导致算法需要花很长的时间来处理,并且需要非常多的内存;而太小的置信度也会使得规则的可信度降低,因此挖掘结果对以上两个参数十分敏感。
对于广东省高技能人才收入现状数据,本文通过设置不同的支持度与置信度参数,根据关联规则价值衡量的方法,多次尝试,经过筛选得到支持度=0.03,置信度=0.7时挖掘结果较为理想。
以下列出大于等于%3的频繁项集及置信度大于等于70%的挖掘部分结果,如表8、9.详见附录。
图9广东省高技能人才挖掘结果-频繁项集
图10广东省高技能人才挖掘结果-项集规则
对于广州市高技能人才数据,同理,经过不断尝试,当支持=3%,置信度=100%时结果较为理想,为便于查看,本文给出部分列表。
详见附录。
图11广州市高技能人才挖掘结果-频繁项集支持度表
图12广州市高技能人才挖掘结果-规则表
对于广东省市属单位高技能人才收入数据,当支持度=3%,置信度=80%,我们得到以下挖掘结果,为便于查看,在此列出部分结果。
详见附录。
图13市属高技能人才挖掘结果-频繁项集支持度表
图14市属高技能人才挖掘结果-规则表
3、4结果分析
依照关联规则价值的衡量方法,我们从广东省高技能人才挖掘结果,广州市高技能人才挖掘结果