数据挖掘在人力资源管理中的应用.docx

资源描述

数据挖掘在人力资源管理中的应用.docx

《数据挖掘在人力资源管理中的应用.docx》由会员分享，可在线阅读，更多相关《数据挖掘在人力资源管理中的应用.docx（13页珍藏版）》请在冰豆网上搜索。

数据挖掘在人力资源管理中的应用.docx

数据挖掘在人力资源管理中的应用

Documentnumber：

NOCG-YUNOO-BUYTT-UU986-1986UT

数据挖掘在人力资源管理中的应用

数

据

挖

掘

在

人

力

资

源

管

理

中

应

用

专业：

人力资源管理专业

学号：

B09050136

姓名：

闫巧梅

数据挖掘在人力资源管理中应用

【摘要】随着知识经济的到来，人们对人力资源管理也有了很深的了解和关注，使人力资源管理被提到了前所未有的高度，现在已经成为企业管理的重要内容，发挥着重要的作用。

在日益激烈的市场竞争中如何提高企业核心竞争力，提高企业人力资源管理水平是关键要素。

我们知道，企业的现代化管理离不开人力资源的管理，充分合理利用企业现有的人力资源离不开现代的管理手段。

众所周知，数据挖掘技术在很多领域中的用用，并取得了良好效果和经济效益。

因此，本文引进数据挖掘理论的概念和分析方式，根据人力资源系统数据繁多，且又不确定及较难预测判断的性质，采用粗糙集决策树，详细阐述了ID3算法，与人力资源模块相结合将数据挖掘理论应用到人力资源管理系统中去，为企业人力资源管理提供了可靠基本数据信息和人事决策、人事管理的依据。

本文的现在意义在于加深对人力资源管理的认识，提高了人们对于人力资源管理带来的可观价值的理解。

【关键字】数据挖掘决策树ID3算法人力资源管理

【目录】

一.人力资源管理

人力资源管理的内容及特点

资源包括自然资源、人力资源、原材料资源、机器设备资源等。

人力资源是指在一定时间、一定空间范围内的人口总体所具有的各种能力的总称，可以作为生产要素投入经济活动中，是一种经济资源。

人力资源管理是在经济学与人本思想指导下，通过招聘、甄选、培训、报酬等管理形式对组织内外相关人力资源进行有效运用，满足组织当前及未来发展的需要，保证组织目标实现与成员发展的最大化。

就是月初组织人力资源需求并作出人力需求计划、招聘选择人员并进行有效组织、考核绩效支付报酬并进行有效激励、结合组织与个人需要进行有效开发以便实现最优组织绩效的全过程。

人力资源管理分为六个模块：

人员招聘与培训管理、岗位设计与培训、薪酬管理、绩效管理、劳动关系管理以及人力资源规划。

人力资源管理服务于企业的总体战略目标，是一系列管理环节的综合体。

人力资源管理的主要内容包括以下几个方面：

（1）人力资源战略规划

企业为适应内外环境的变化，依据企业总体发展战略，并且充分考虑员工的期望而制定的企业人力资源管理与开发的规划。

人力资源战略规划是企业人力资源开发与管理活动的重要指南，是企业发展战略的重要组成部分，也是企业发展战略实施的有效保障。

（2）人力资源管理的基本业务

岗位分析与岗位评价是企业人力资源管理的基本工作。

岗位分析是企业所有工作岗位的特征和任职要求进行界定和说明，岗位分析的结果是形成每一个工作岗位的职位描述、任职资格的要求、岗位业务规范：

岗位评价对企业各工作岗位的相对价值进行估计和判断，岗位评价的结果是形成企业不同工作岗位的工资体系。

岗位分析和岗位评价就好比说明书和产品标价，使员工明明白白工作，清清楚楚拿钱。

（3）人力资源管理的核心业务

包括招聘、培训、绩效考核、薪酬管理。

招聘是人力资源管理核心业务的首要环节，它是企业不断从租住外部吸纳人才的过程，它能保证源源不断的人力资源需求；培训是企业人力资源开发的重要手段，它包括对员工的知识、技能、心理素质、生涯规划等方面进行培训，它是企业提升员工的重要保障；绩效考核是指运用科学的方法和标准对员工完成工作数量、质量、效率及员工行为模式等方面的综合评价，从而进行相应的薪酬激励、人事晋升激励、岗位调整等，绩效考核是实施员工激励的重要基础；新手管理是企业人力资源管理的一个极为重要的方面，它主要包括薪酬制度与结构的设计、员工薪酬的计算与水平的整理、薪酬支付等内容，它是企业对员工物质激励的重要手段。

（4）人力资源管理的其他工作

企业人力资源管理还包括其他一些日常事务性业务内容，如人事统计、员工健康与安全管理、人事考勤、人事档案管理、员工合同管理等。

但是，现如今对人力资源管理的内容具有多种花划分，还有一种分法是这样的：

制定人力资源规划、人力资源成本会计工作、岗位分析与设计、人力资源的招聘与挑选、雇用管理与劳资关系、入场教育、培训和发展、工作绩效考核、帮做员工的职业生涯发展、员工工资报酬与福利保障设计、保管员工档案。

人力资源的管理的重要性

人力资源管理重要性的主要表现市场竞争中。

随着社会主义市场经济的快速发展，人力资源管理在企业管理中的作用也变得日益明显。

一个企业能否健康的发展在很大程度上取决于员工的素质，同时也取决于人力资源管理在企业管理中的受重视程度。

﹙1﹚人力资源管理对企业管理人员的要求

人力资源管理将作为一种重要资源加以开发、利用和管理，重点是开发人的潜能、激发人的活力，使员工能够积极主动地工作，并进行创造性地工作。

对于企业管理人员来说，要求管理人员在工作中充分发挥承上启下上通下达的纽带作用，帮助企业处理和协调各种关系。

一要合理的处理好人与事的关系，确保人事匹配；二要恰当地解决员工之间的关系，是他们和睦相处；三要充分调动员工的积极性、创造性。

使员工为企业创造更多的利润；四要对员工进行充分的培训，以提高员工的综合素质，保证企业的良好效益。

（2）人力资源管理能够提高员工的工作绩效、

根据企业目标和员工的个人状况，企业运用人力资源管理创造理想的组织气氛，为员工做好职业生涯规划，通过不断培训，进行横向和纵向职位的调整，量才使用，人尽其才，发挥个人的特长，体现个人的价值，促使员工形成主人翁的想法，发挥其创造力，营造和谐向上的工作气氛。

在具体运行中实行员工岗位轮换制，通过轮换发现员工的最适应的工作种类，确保企业组织结构和工作分工的合理性及灵活性，从而提高员工的工作绩效，全面提高企业的工作效率。

（3）人力资源管理是企业发展的需要

人是企业生存和发展的最根本要素。

这是由于企业管理目标是企业管理工作者制定、实施和控制的，但在工作过程中，管理者是通过员工的努力来实现工作目标的，这就要求员工必须具备良好的能力素质，掌握市场运作规律。

圆满贯彻管理者的意图。

只有恰当的选择员工才能实现企业的目标。

人力资源管理能够创造灵活的组织体系。

为员工充分发挥潜力提供必要的支持，让员工各尽其能，共同为企业服务，从而确保企业反应的灵敏性和强有力的适应性，协助企业实现竞争环境下的具体目标。

（4）人力资源管理是企业核心竞争力的重要要素

人是企业拥有的重要资源，也是企业的竞争核心所在。

目前，人力资源管理桌布被纳入到企业发展战略规划中，成为企业谋求发展壮大的核心因素，也是企业在市场竞争中立于不败之地的重要因素。

（5）人力资源管理是企业形成凝聚力和建设内部品牌优势的关键

当一个企业获得稳步发展欣欣向荣时，我们都不难发现，这个企业的内部入了和谐协调的合作状态，这种凝聚力使一个企业兴旺发达。

周所周知，根据划分的类型不同可以产生不同的划分结果，所以我们可以把人力资源的功能划分为硬功能和软功能，硬功能包括招聘、培训与开发、薪酬、绩效、福利等，但是软功能却被常常忽视，它包括沟通、冲突、矛盾、协调等。

而实际上人力资源管理是企业正常运行的润滑剂，良好的职能运作能使企业获得最宝贵的东西：

凝聚力和向心力，这种软功能产生的结果要比那些硬的生产力产生的结果要好得多。

在公司内部品牌建设中更多的可以通过人力资源管理提高员工的素质，建立员工的形象，使之成为遵守职业道德、社会公德的代表，这是企业内部品牌建设的过程，而人力资源管理是内部品牌建设的先锋。

传统人力资源管理技术及其不足

人力资源管理是适用性很强的一种管理，除了法律法规、制度保障和政策指导之外，是必须有一整套的管理技术和方法。

到目前为止人力资源管理应用的技术主要有以下四种，

（1）、统计技术

统计技术是指通过计算概率、总值、均差、方差等统计指标进行数据的比较分析。

该技术适合于人力资源管理的多个方面，尤其是处理定量数据。

统计技术的典型应用是薪酬管理部分。

（2）、计算经济学技术

计算经济学技术十一经济理论为前提，利用数学、统计技术建设数学模型，从而发现变量之间的关系，在人力资源管理中的典型应用是建设人力资源需求模型。

他可以根据企业一段时间内的产量X（或收入）和员工数Y建立一元回归模型Y=a+bX，说明该企业产量的变化对人力资源需求的影响程度。

当企业要求增加产量时，可以根据该模型进行预测，并作出决定。

（3）、调查技术

调查技术是管理者根据一定的管理目的，通过一定的程序，对人力资源管理活动相关现象进行系统而科学的考察，为认识管理活动的规律性提供全面材料的方法。

问卷调查是人力资源管理着经常采用的方法。

在职务分析中也常采用该方法。

其优点是在于速度款、分析的样本量大、内容涵盖面宽。

（4）、信息系统技术

信息系统技术是指人力资源管理部门通过使用计算机信息系统进行数据和工过程的管理。

除此之外，信息系统技术可以对人力资源的管理和决策提供支持，功能包括数据处理、事务处理和决策支持。

计算机的应用是人力资源管理现代化的标志，是人类脑力劳动的重要助手，并帮助人们完成以前所不能按城的工作。

以上四种技术已经在实践中得到应用并取得可良好的效果，是目前人力资源管理者采用的主要技术。

但是，它们让然不能完全解决人力资源管理领域的现有问题，而这些问题是人力资源管理者不能回避切迫切需要解决的。

首先，由于人的特性，人力资源管理的内容多为结构化数据，而定量数据占很小比重。

因此，人力资源管理者通常只进行定向分析，对于一些问题的原因不做解释或者只是进行语言行的描述，没有充分的数据支持。

这种偏重于定性分析而忽略定量分析的工作，往往容易造成偏差甚至错误，更缺乏有说服力的证据来充分论证自己的工作内容和业绩。

其次，由于定量分析的缺乏，容易造成人力资源管理中主观因素过多。

例如，在对员工进行绩效考核时，往往先有管理者确定评价内容和各自的权重，然后再根据更人的具体情况进行打分或比较，最后得出结论。

而权重的大小主要依据管理者的主观认知标准。

如果管理者人之全面客观，则评价结果能够真实地反映实际情况，否则，结果势必存在一定的偏差。

总之，减少人力资源管理中的主观因素十分重要，否则容易降低人力资源管理工作的可喜程度。

另外，在目前的人力资源管理理论中，如何高效的建设人力资源的具体模型还是一个空白。

这主要由于人本身的复杂性、多样性和易变性造成的。

但是，一个具体的人力资源模型不仅仅可以直观地反映人力资源状况，还可以从中发现其他方法难以察觉的内容。

因此，人力模型对管理工作具有指导作用，有待人们的研究。

引进新的人力资源管理方法

近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛应用，并且迫切需要将这些数据转化成有用的信息和知识。

获得的信息和知识可以广泛应用雨各种领域，包括商务管理、生产控制、市场分析、工程设计和科学探索等。

数据挖掘一种比较公认的定义是从数据中获取正确新颖、有潜在价值和最终可理解模式的非平凡的过程。

人力资源的管理目标是人，是一个复杂的、一边的对象，传统的分析方法已不能满足管理者的需求。

数据挖掘在最近几年刚刚出现，它在挖掘已有数据中隐含的规律以及解决具体问题方面，是其他技术所不能比拟的。

现在在实际领域得到广泛的应用，并且产生了良好的效益。

此外数据挖掘技术的优点:

可以集成到具体的MIS系统之中，从而利用已有信息系统存储的数据进行挖掘计算；利用计算机应用程序，把高度复杂的统计技术、挖掘算法封装起来，是人们不用掌握这些技术也能完成同样的功能，从而专注于自己所要解决的问题。

目前数据挖掘技术已经给商业界、公共服务行业等众多行业带来了惊人的利润，同样数据挖掘技术也可以为人力资源管理带来其他现代管理手段所不能带来的效益。

二.数据挖掘

数据挖掘理论

数据挖掘是一种新兴的信息处理技术，在信息的利用和提取中发挥着日益重要的作用。

数据挖掘理论可以用下图来解释。

现实中人类的社会和经济活动，总可以用数据（数学或符号）来描述和记录，经过对这些数据的分析，就会产生信息或知识，用这些信息、知识来指导实践，就可以作出相应的决策，这些决策又引发了新的一轮的社会和经济活动。

数据仓库的建设和数据挖掘模型是数据挖掘价值链上的两大技术要点。

一般来说，数据挖掘有如下方法：

描述统计、关联和相关、分类和聚类、预测、优化和结构方程模型。

而最常用的分类方法有有三种技术：

粗糙集、回归、神经网络。

但又因为粗糙集方法比模糊集方法或神经网络方法在得到的决策规则和推理过程方面更易于被正式和检测，所以我们采用决策树技术来分析人力资源管理。

决策树方法

决策树技术是用于分类和预测的主要技术，决策树学习是以实例为基础的归纳学习算法。

它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。

它采用自上而下的递推方式，在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支，然后进行剪枝，最后在决策树的叶节点得到结论。

所以从跟到叶节点就对应着一条合取规则，整棵树就对应着一组析取表达式规则，基于决策谁的分类有很多实现算法，ID3算法是较早提出并普遍使用的决策树算法。

三.基于数据挖掘的人力资源分析

ID3算法的决策属性

ID3算法的关键在于如何选择一个决策属性形成决策树的决策节点，并从当前节点生成决策分支。

在进行属性选择过程中，通常希望所选取的属性能够在最大程度上反应训练样本数据集繁荣分类特征。

在ID3算法中，决策节点属性的选择主要是运用了信息论中熵的概念来完成的。

这种属性选择方法中，选择具有最大信息增益（或最大熵减方向）的决策属性作为当前节点。

通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量，使得到的决策树冗余最小。

在ID3算法中，决策属性信息增益的计算方法如下：

设S是训练样本数据集，S中类别标示属性有m个独立的取值，也就是说，定义了m个类ci，i=1，2，…，m，Ri为数据集S中属于ci类的子集，用ri表示子集Ri中元组的数量。

集合S在分类中的期望信息量可以由以下公式给出：

I（r1，r2，…，rm）=-Σpilog2（pi）（i=1，2，…m）其中，pi是表示任意样本属于ci类的概率，pi=ri/|S|。

|S|为训练样本数据集中的元组数量。

假设属性A的取值共有v个不同的取值{a1，a2，…av}，则通过属性A的取值可将数据集S划分为v个子集，其中，Sj表示在数据集S中属性A的取值为aj的子集，j=1，2，…，v。

如果A被选择为决策属性，则这些子集将对应该节点的不同分枝。

如果用sij表示Sj子集中属性ci类的元组数量，则属性A对于分类ci（i=1，2，…，m）的熵（或称为属性A对于分类ci的期望信息量）可由下面公式计算：

E（A）=Σ（s1j+…+smj）/|S|I（s1j，…，smj），（j=1，2，…，v）令wj=（s1j+…+smj）/|S|，则wj为Sj子集的权重，表示Sj子集在数据集S中的比重，而属性A的每个取值队分类cj的期望信息量I（s1j，…，smj），可由下式给出：

I（s1j，…，smj）=-ΣPijllog2（pij），（i=1，2，…，m）。

式中，Pij=sij/|Sj|，它表示在Sj子集中属于cj类的比重。

通过上述计算准备，可得到对属性A作为决策分类属性的度量值（称为信息增益），由下式给出：

Gain=I（r1，r2，…，rm）-E（A）该算法需要计算每个决策属性的信息增益，具有最大信息增量的属性被选择作为给定数据集S的决策属性节点，并通过该属性的每一个取值建立由该节点引出的分枝。

ID3算法示例

例如某公司人事主管想了解该公司员工的基础信息及薪金模块中何为工资范围的决策属性，可以通过下列的过程来分析。

为了便于分析，将基础信息中的“年龄”及薪金模块中的“部门”，“职称级别”作为决策属性集，将薪金模块中的“工资范围”作为类别标示属性，从而进行信息增益最大的决策属性的判定。

员工基本信息

部门

职称级别

年龄

工资范围

销售部

高级

31-40

41k-55kC2

销售部

初级

21-30

26k-40kC3

销售部

初级

31-40

26k-40kC3

运营部

初级

21-30

41k-55kC2

运营部

高级

31-40

56K-70KC1

运营部

初级

21-30

41k-55kC2

运营部

高级

41-50

56K-70KC1

生产部

高级

31-40

41k-55kC2

生产部

初级

31-40

41k-55kC2

行政部

高级

41-50

26k-40kC3

行政部

初级

21-30

26k-40kC3

图1属性列表集

通过图1可以看出其中属性“年龄”与“工资范围”已经离散化，属性“工资范围”列中还给出了相应元组的类别归属。

根据示例中类别标示属性的取值，将该示例分为三类（即m=3），分别是c1，2，c3。

训练样本数据集S中，共有11个元组，其中c1，c2，c3类所对应的子集R1，R2，R3中元组的个数分别为r1=2，r2=5，r3=4。

为了计算每一个决策属性的信息增益，首先利用公式I（r1，r2，…，rm）=-Σpilog2（pi）（i=1，2，…m）计算得到集合S关于分类的期望信息量：

I（r1，r2，r3）=I（2，5，4）=-2/11log2（2/11）-5/11log2（5/11）-4/11log2（4/11）=。

对每一个决策属性计算其期望信息量（即熵值）。

对属性“部门”有：

当部门=“销售部”时，s11=0，s21=1，s31=2，I（s11，s21，s31）=

当部门=“运营部”时，s12=2，s22=2，s32=0，I（s12，s22，s32）=1

当部门=“生产部”时，s13=0，s23=2，s33=0，I（s13，s23，s33）=0

当部门=“行政部”时，s14=0，s24=1，s34=2，I（s14，s24，s34）=0

由此得出属性“部门”的熵值：

E（部门）=3/11I（s11，s21，s31）+4/11I（s21，s22，s32）+2/11I（s13，s23，s33）+2/11I（s14，s24，s34）=

因此，属性“部门”的信息增益为：

Gain（部门）=I（r1，r2，r3）-E（部门）=

同理，可以分别得到属性“职称级别”及“年龄”的信息增益：

Gain（职称级别）=

Gain（年龄）=

图2决策树生成

由于属性“部门”具有最大信息增益值，故选择该属性作为决策树的根节点。

对应每一个分枝，重复上述步骤，例如，对于分枝“属性部门=‘销售部’”来说，可以生成图3给出的子集，对该子集可重复上述属性选择操作。

依次对其它分枝进行相同操作，可得到一个完整的决策树，参见图2。

之后，就可以对该决策树进行剪枝操作。

职位

年龄

工资

销售部

高级

31-40

41k-55kC2

销售部

初级

21-30

26k-40kC3

销售部

初级

31-40

26k-40kC3

图3决策属性为“部门”的子集

决策树的剪枝

在决策树生成后，决策树中的许多分枝可能会反映样本训练集中存在的噪声等异常现象，为提高所提取的规则的可靠性，需要对生成的决策树进行进一步的处理，这一过程称为剪枝。

树的剪枝算法主要是针对训练样本数据集中不适合的数据进行的处理。

在通常情况下，树的剪枝可以分为先剪枝和后剪枝两种方法。

先剪枝是指在建树的过程中终止树的建立以达到对树进行剪枝的目的。

在这里，终止只是将该节点变成叶子节点，该节点可能包含训练子集中经常出现的类或这些样本的可能分布。

采用先剪枝对决策树进行修剪的过程中，通常采用统计显着性，x2及信息增益等方式来评估树的分枝的好坏。

如果在某个节点的分枝将会导致其结果低于预先设置好的阈值时，将终止给定子集的进一步划分。

在先剪枝中，选择合适的阈值是个关键问题，同时，也是该处理过程中的一个难点。

阈值过高会导致过于简单的决策树，而阈值过低又会导致决策树过细。

后剪枝是在决策树建立之后，对形成的决策树的分枝进行清理的过程。

代价复杂度剪枝算法是典型的后剪枝算法的例子。

在代价复杂度剪枝算法中，需要计算生成的决策树中每个非叶子节点被剪除后可能产生的期望出错率，同时，计算保留对应分枝所可能产生的期望出错率。

如果剪除该节点会产生较大的误差，该节点应被保留；否则，该节点将被剪掉。

剪枝后，最低层的未被剪枝的节点成为叶子节点，由剪枝前它的分枝中最常出现的类进行标识。

在对决策树进行剪枝后，选用一套独立的测试数据集去评估每一棵生成的决策树的精确度。

出错率最低的决策树是人们所希望得到的决策树。

先剪枝和后剪枝可以交叉使用，后剪枝算法比前剪枝算法需要更多的计算时间，然而会产生更可靠的决策树。

四结论

用基于ID3算法的决策树在人力资源管理中的应用具有计算较快、算法简单、容易实现等优点，但是，同时也存在许多不足之处。

首先它只能处理离散型属性，对于连续型属性，在分类前需要对训练样本数据中的对应项进行离散化；其次该技术主要采用信息论中的信息增益进行决策属性的选取，信息增益趋于很多值的属性的特点会直接影响ID3算法的运算效率及计算结果；第三，数据质量的好坏，体现在数据是否存在大量的冗余，数据属性之间的相关性过强以及数据缺损、不完整等，是影响数据挖掘效率及结果的主要原因，数据源的数据庞杂性会导致生成的决策树过于庞大；第四，数据存储方式的不同会直接影响ID3算法处理的灵活性和交互性。

参考文献

[1]毛国君：

数据挖掘原理与算法[M].北京：

清华大学出版社.2007-12

[2]王宏：

基于粗糙集数据挖掘技术的客户价值分析[M].北京：

经济科学出版社.2006-09

[3]彭剑锋：

人力资源管理概论[M].上海：

复旦大学出版社.2005-01

[4]孟庆伟：

人力资源管理通用工具[M].北京：

清华大学出版社.2007-04

[5]萧鸣政：

人员测试和选拔[M].上海：

复旦大学出版社.2005-02

[6]刘军胜：

薪酬管理实务手册[M].北京：

机械工业出版社.2005-01

[7]武欣：

绩效管理实务手册[M].北京：

机械工业出版社.2005-01

[8]Ian﹑EibeFrank:

数据挖掘实用机器学习技术[M].机械工业出版社，2002

[9]JiaweiHan、MichelineKamber：

数据挖掘概念与技术[M].机械工业出版社，2005

[10]陈大祥：

人力资源管理（第一版）[M].中山大学出版社，2001

展开阅读全文