R语言在数据挖掘中的运用.pdf-资源下载

R语言在数据挖掘中的运用.pdf

1、侯亚君(山西管理职业学院，山西临汾0 4 1 0 5 1)摘要：开源的R 语言集成了多种数据分析与可视化算法，具备良好的可扩展性，适用于数据挖掘。本文通过描述R 语言中K m e a n s、W e k a、I G R A P H、H o l t W i n t e r s4 种主要技术与算法，以及网站挖掘的应用实例介绍，突出R 语言在海量数据的采集处理、分类、统计分析、预测、可视化等方面的优势。关键词：R 语言；数据挖掘；算法中图分类号：T P 3 1 2 文献标识码：A 文章编号：1 6 7 4 5 0 7 8(2 0 1 4)0 2-0 0 6 3-0 3D O I：1 0 3 9 6

2、9 6 i s s n 1 6 7 4-5 0 7 8 2 0 1 4 0 2 0 2 0一、前言随着近年来电子商务、社交网站、移动终端应用开发等行业的兴起，企业对于用户基本数据、行为数据、网络痕迹数据等信息的掌握逐渐成为其在信息领域的核心竞争力，“用数据说话”、“用数据决策”等已经成为各大企业倡导的未来发展基石。然而，传统的数据全样抽取、数据的随机抽样等分析统计方法不仅时效性差，不适应对实时数据的处理，且由于分析手段的局限性，预测结果数据往往存在有效性差的问题，因此，如何利用海量的数据挖掘出有价值的信息，对于企业来说，是挑战，也是机遇。二、R 语言在数据挖掘应用中的几个主要技术(一k m e

3、 a n s图1 为自定义编写的k m e a n s 算法流程图，首先生成绘制函数p k m e a n s，然后为数据中的每个样本分配聚类i d 号，通过m i d 是中心数据，c c o r e用于对数据进行聚类的分类，各个聚类的中心坐标点位置由M i d c o r e 函数来进行计算，通过多个聚类中心点的计算，如果多次计算出的中心点，则停止函数的循环，否则继续循环，直到所有聚类的中心点都相同。(二)I G R A P HI G R A P H 主要适用于社交网站、电商平台等互动平台，通过对站点的相关图片信息进行分析处理，获取有价值的决策数据。首先通过线段与结点构建图片，并对线段和结点

4、进行赋值：如线段的指向权重，或无方向的权重分别为多少。I G R A P H 自带多种图片的创建策略。如“随机算法”是针对将任意两点进行连线生成图片(如图1 所示)，数据结构中的“最小生成树算法”也可应用到图片生成中，保证最小的连线权重。“穿插算法”会使得两个结点的连接线也穿透第三个结点，对于带方向的图片来说，两个结点连通的充分必要条件M 指向N，在无向图中，M 和N 必须互相指向才能称之为连通。“最短路径算法”是图片创建中最常使用的一种算法，如果图片中的权重值为负数，则会使用到B e l l m a n f o r d 算法，如果图片中的所有权重都一样，或者都为正数时会使用到D i j k

5、s t r a 算法。大量的连线和结点处理创建图片，对于图片的信息统计处理后即可看到图片包含的所有信息。如图片的连接线和结点的数量、图片的各个结点是连通还是孤立的状态、图片中任意结点之间的距离、图片的对称程度、图片的结点分布情况等等。以上信息对于进行图片的各类特征的统计提供基础数据，如图片的密集点分布特性、方向分布特性等，并找出之间的关联性。(三)W e k aW e k a 技术源于1 9 9 2 年开始的一个关于机器学习的新西兰政府项目，包含关于机器学习的多种算法介绍，并提供图形可视化编程环境，便于网络编程人员的学习，一方面可以将对数据的多个操作利用知识流功能进行组合，包括数据的输入输出、

6、数据的初始化、处理、数据的分类和回归、数收稿日期：2 0 1 3 一l l 一2 5作者简介：侯亚君(1 9 8 0 一)，女，山西长治人，讲师，硕士。主要研究方向为计算机语言一擘妻摹曩言荤差兰耋量王塑万方数据应用技术研究据的聚类、数据的关联设置、数据的预估、数据的可视化等操作，另一方面也提供用命令来执行另外一个命令的功能。：k。”。-。so 一厶。，r”。：；1 r 三1t；。j。0。，之。一r。一：图l(a)随机图片图l(b)偏好连接数据初始化操作步骤是用来选择数据的特征值，对数据进行格式的统一化。涉及的函数有N o r m a l i z e()，D i s c r e t i z e(

7、)，分别用于对标准化数据和离散型数据进行处理。数据的分类用c l a s s i f e r 实现，通过训练数据集、测试数据集、交叉校验等方法进行数据评价模型的搭建，最后通过R e s u l tl i s t 提供的可视化图面查看分类的历史数据，最终通过c l a s s i f e r 输出分类结果，并对结果进行验证，可清晰地查看正确分类与错误分类的样本信息，这个过程中涉及的关键算法有最相邻分类算法I B k()、源数据样本提取算法B a g g i n g()、决策树算法J 4 8()、向量分类算法S M O()。数据的聚类中关键的算法有以下几种：1 C o b w e b()：建立聚类

8、，然后通过查找数据来适应这个聚类，不适用于大型的数据库。2 F a r t h e s t F i r s t()、S i m p l e K M e a n s()：均值算法。3 X M e a n s()：k 均值优化法，能够进行类别数自定义。4 D B S c a n()：对于将数据库中含有噪声的各类形状形成聚类。数据的关联规则中关键的算法即A p r i o r i 0，可支持少量数据的处理。预测和评估中的p r e d i c t()算法用于基于分类和聚类分析结果预测新数据的情况。t a b l e()用于对任意两个对象进行比较，e v a l u a t e _ W e k a _

9、 c l a s s i f i e r()算法用于执行预估模型评估模型的执行。f 四)H o l t W i n t e r sH o l t W i n t e r s 是数据挖掘中一种基于时间序列的指数平常算法，时间序列是指以某个时间段为周期构成的趋势数据，如下降、保持或上升趋势，而这些历史数据则可以对未来的数据发展趋势提供分析基础。H o l t W i n t e r s 算法是通过一次和二次指数平滑算法进预测数据走势。一次指数平滑算法的递推关系为：m x=c b i+(1 一c)m x 一1，其中C是平滑参数，嗽是x 个数据的平滑值，当c 接近1的时候，计算后的数据就越接近当前的数

10、值，通过一次和二次指数，即可在坐标相应位置进行记录，通过累积三次指数的结果对于数据的季节性与趋势能够很好地保存，而通过将三次指数数据进行累积相乘所得的趋势信息更准确。三、R 语言在数据挖掘中的应用实例无论是电子商务网站、门户网站、在线游戏网站，还是社交网站，对于访问网站的用户群体、用户访问目的、访问停留的时间、网站跳出比例、网站的流量、网站的投入产出比情况等通过信息汇总后进行全面的了解，一方面帮助网站为用户提供更有针对性的服务，另外一方面也帮助网站运维人员发现问题。对于网站产生的大量数据，如果当在某个区间流量基本没有变化时，我们需要进行哪些操作与统计分析来获取决策数据呢。第一步，我们需要对于搜

11、集到的数据进行细分。此步骤可以使用专用分析工具A n a l y t i c s，能够对流量的来源、流量的类型(付费免费)、自主搜索的流量，推荐链接流量均有细致的报告，同时还针对关键词有细分数据报告，可对关键词的搜索频率有非常清晰的了解。第二步，需要对访问网站的用户群体进行分析，包括老用户的回访率、新用户的增长率，同时还可以自行创建用户群体类别，如按照性别、年龄段、学历、从事行业等。不同类别的比率对于新市场的开拓将有很大的帮助。第三步，对网站的流量有效性进行评估。当不同的时间段内统计的访问量相同的时候，需要对流量的有效性进行分析，即是部分老用户的反复回访造成，还是多个用户进行初次访问造成。这对

12、于网站制定推广宣传政策将有所帮助。如果提高网站的有效性，R 语言中提供了一种质量控制图方法，名为P 控制图，这种方法适用于已经确定的数据类型的分析，且主要用于判断“Y e s N o”，例如某个时间段内访问用户是否老用户、用户是否完成了购买操作、流量是否由于老用户的多次回访生成控制图绘制成功后呈现的状态判断以上这些类型的比率是否正常，如出现异常，则找出造城职业技术学院学报二。一四年第七卷第二期一总第三十四期一万方数据成异常的关键因子。这一方法要求数据足够多，且分布情况趋于正太时，需要突出一点的是，对于提供的数据，针对每组数据都可以为其设置上、下限。P 控制图的计算公式如下：c 卿；甓r=_?U

13、 C L k：p+3 幽Y，岫r 二=-l z L k；乒一3，幽Yn 第四步，对用户访问的目的进行分析，由于网站的访问量这个数字单独的意义并不大，例如有1 万次的访问量，达成购买和只是咨询访问是大相径庭的。因此需要对用户访问的目的进行详细分析，一是针对网站的重点内容的访问情况，二是对于站内的关键词的搜索频率情况，通过这两者的综合分析，将对网站改版、新服务的制订有所帮助。最后，需要对网站的投入产出比进行分析，即流量的成本与流量产生的价值的比率，在控制成本的前提下，最大限度地提高流量能产生的价值。应用技术研究四、总结优秀的数据挖掘工具一方面要求丰富的数据挖掘功能，另一方面也需要优化的算法和用户体

14、验，R 语言集成了多种改进后的数据挖掘算法和工具包，且具有开源的特点，交互方式提供可神化界面，还支持数据挖掘工作流的任务定义与执行，极大地简化了编程人员的操作，此外，可通过自定义脚本来进行分析功能及其它诸如C 语言、j a v a语言的调用等。综合以上优势，相信R 语言未来将在大数据的挖掘领域有更为广泛的应用。参考文献：1 葡 L u i sT o r g o 数据挖掘与R 语言 M 北京：机械工业出版社，2 0 1 3 2 邵峰晶，于忠清数据挖掘原理与算法 M 北京：中国水利水电出版社，2 0 0 3 3 薛毅，陈立萍统计建模与R 软件 M 北京：清华大学出版社，2 0 0 7 4 谢益辉基

15、于R 软件的包的分类与回归树应用 J 统计与信息论坛，2 0 0 7(5)5 W I L I A M SG R a t f l e：ad a t am i n i n gG U If o rR J T h eRj o 啪a l，2 0 0 9(1)O nt h eA p p l i c a t i o no fRL a n g u a g ei nD a t aM i n i n gH O UY a-j u n(S h a n x iM a n a g e m e n tV o c a t i o n a lC o l l e g e，L i 咖n0 4 1 0 5 1，C h i n a)A

16、 b s t r a c t：T h eRl a n g u a g eo fo p e ns o u r c ec o m b i n i n gav a r i e t yo fd a t aa n a l y s i sa n dv i s u a l i z a t i o na l g o r i t h m sh a v eag o o ds c a l a b i l i t ys u i t a b l ef o rt h ed a t am i n i n g T h i sp a p e rd e s c r i b e sf o u rk i n d so fm a i nt e c h n o l o g ya n da l g o r i t h mo ft h eRl a n g u a g e：K m e a n s，W e k a，I G R A P H，H o l t W i n t e r sa n dt h ea p p l i c a t i o ni nW e bM i n i n gt oh i g h l i g h tt h ea d v

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？