基于Kmeans聚类算法的校园网用户行为分析研究概要.docx

资源描述

基于Kmeans聚类算法的校园网用户行为分析研究概要.docx

《基于Kmeans聚类算法的校园网用户行为分析研究概要.docx》由会员分享，可在线阅读，更多相关《基于Kmeans聚类算法的校园网用户行为分析研究概要.docx（10页珍藏版）》请在冰豆网上搜索。

基于Kmeans聚类算法的校园网用户行为分析研究概要.docx

基于Kmeans聚类算法的校园网用户行为分析研究概要

第31卷第6期2010年6月微　计　算　机　应　用MICROCOMPUTERAPPLICATIONSVol131No16Jun12010

基于K-means聚类算法的校园网用户行为分析研究

丁　青1　周留根2　朱爱兵1　张义东1（1南京农业大学工学院网络中心　南京　210031　2南京农业大学研究生院　南京

摘要:

利用数据挖掘相关技术,针对后台计费服务器的数据库,-分析,提出了几个校园网用户行为分析的模型。

满足校园网用户个性化需求方面提供理论依据。

数据挖掘　s

ResearchofCustomerBehaviorAnalysisInCampusNetwork

BasedonK-meansClusteringAlgorithm

DINGQing1,ZHOULiugen2,ZHUAibing1,ZHANGYidong1

（1NetCenter,CollegeofEngineering,NanjingAgriculturalUniversity,Nanjing,210031,China,

2GraduateSchool,NanjingAgriculturalUniversity,Nanjing,210095,China

Abstract:

Thepaperpresentssomemodelsforcustomerbehavioranalysisofcampusnetworkbasedondataminingtechnology,whichisconstructedbyclusteringanalysisofbackgroundchargingserverdatabasewithbehaviorcharacteristicofhigh-schoolcustomersbasedonK-meansalgorithm1Themodelcanprovidegoodtheoreticalsupportfornetworkadministratorstodesigneffectivemanage2mentstrategytomeetindividualrequirementsofhigh-schoolcustomers1

Keywords:

data-mining,customerbehavior,clusteringalgorithm,K-means

用户行为主要是指用户在使用网络资源时所呈现出来的规律,可以用某些特征量的统计特征或特征量

的关联关系定量或定性的表示[1]。

而校园网用户行为的使用情况、行为特征更有其独特之处。

如今,通过

相关数据挖掘技术来分析校园网的用户行为,合理分配带宽,提高用户使用网络的效率己成为校园网络管理的一个重要课题[2]

。

目前国内的很多高校在校园网的运营管理上,都会使用一些应用服务器,主要用于认证计费、入侵检测、流量监控等方面。

在提供服务的同时,也产生了大量的日志数据存储于后台数据库中。

在这些数据中,不仅包含着整个校园网内部用户的使用状况,也记录了网络运行的全部信息。

如果能对这些数据进行科学有效分析,并对分析结果加以合理利用,将会对整个网络管理起到很大的推进作用。

我院从2006年开始基于认证上网,现有的认证计费服务器的后台数据库提供了相当丰富的数据资源。

以此为基础,运用数据挖掘技术,以校园网用户的上网数据为对象进行聚类分析用户上网的行为特征,有效的概括出若干个用户上网行为模型,从而全面的描述全院校园网的用户使用及网络运行状况。

这对于全面了解校园网用户的行为特征和校园网络的使用状况、及时调整网络带宽分布、改善校园网络性能和应用效本文于2010-03-18收到,2010-05-18收到修改稿。

3基金简介:

江苏省农机局科研启动基金（GXS06016。

　6期　丁　青等:

基于K-means聚类算法的校园网用户行为分析研究率等都具有重要作用。

1　聚类分析的理论基础

聚类（Clustering是数据挖掘中一种重要的挖掘方法,它是将物理或抽象对象进行分组并将相似对象归

为一类的过程[3]。

聚类分析将物理的或抽象的对象分为几个群体,在每个群体内部,对象之间具有较高的

相似性,而在群体之间相似性则比较低。

聚类算法大体可以划分为以下几类:

划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。

在各种方法里面都有其各自具有代表性的算法。

在本文所做的工作中,采用了分裂法当中的K-means算法。

K-means算法属于聚类方法中的一种划分方法,,适合处理大文档集。

K-means算法将一组物理的或抽象的对象,构成一组。

而不同聚类中的对象相似度较小。

111　K-means该算法形式可以描述为:

已知d维空间Rd,在Rd中定义一个评价函数E:

{p:

PC}→R+

给每个聚类一

个量化的评价,输入Rd中的对象集合C和一个整数k,要求输出C的一个划分:

C1,C2,…Ck,这个划分使得

评价函数E最小化。

不同的评价函数将产生不同的聚类结果,一般我们采用均方差作为评价函数,定义如下:

【6】

E=∑ki=1∑PECi|p-mi|2

上式中,E为数据库中所有对象的平方误差的综合,p为Rd

空间的点,表示给定的数据对象,mi为簇Ci的平均值（p和mi都是多维的,|p-mi|2表示数据对象与聚类中心之间的距离。

此评价函数使所获得的k个聚类具有以下特点:

各聚类之间本身尽可能紧凑,而各聚类之间尽可能分开。

112　K-means算法过程

K-means算法主要有三个过程组成:

首先是选取初始的聚类中心,其次是样本点分类,最后是聚类中心的调整,其中后两个过程迭代交替进行。

下面是k-means算法的流程描述:

输入:

簇的数目k和包含n个对象的数据库。

输出:

k个簇,使平方误差准则最小。

方法:

Step1　任意选择k个对象作为初始的簇中心;

Step2　对于所剩下其它对象,则根据它们与这些聚类中心的相似度（距离,分别将它们分配给与其最相似的聚类;

Step3　重新计算每个（有变化聚类的均值,根据新的每个聚类对象的均值,计算每个对象与这些新聚类中心对象的距离,并根据最小距离开始收敛为止;

Step4　循环第3步until不再发生变化。

如图1所示,当k=3时,即需要将数据对象C聚类为3个簇,根据以上算法描述,任意选择3个对象作为3个初始簇中心,簇中心在图中用“+”来标注。

根据与簇中心的距离,每个对象被分配给最近的一个簇,这样的分布形成了虚线所描绘的图形。

面对大规模数据集,该算法是相对可扩展的,并且具有较高的效率。

算法复杂度为O（NKt,其中,N为数据集中样本的数目,K为期望得到的簇的数目,t为迭代的次数。

　　　微　计　算　机　应　用　

2010

年图1　基于K-MEANS算法聚类过程

2　数据准备

211　理解数据

日常的用户日志数据主要存于登录记录数据库中User_log表中,,它的主要结构如表1所示:

表1　User_log表结构

字　段

名　称类　型长　度备　注TRANID

流水号IntACCOUNT

账号STRING50校园网用户账号LOGON_TIME

登录时间DATELOGOUT_TIME

注销时间DATEUSED_TIME

使用时长（MINLONGIP_ADDRESS

IP地址STRING15FLOW_DOWN

使用流量（MBDouble小数点后三位CHARGE

收费（RMBDouble小数点后两位USERNAME用户名称

String20…………………………

要研究校园网用户的上网行为,就必须先建立一个能反映用户特征的多维数据特征项,用户日志数据表中提供的23个字段成为分析校园网用户行为的基础,在仔细考察各项参数后,确定用户行为特征项为tranid、Logon_time、Logout_time、Used_time、Flow_up、Ip_address,分别为流水号,用户登陆时间,注销时间,使用时长,上行流量,IP地址6项数据。

以提取单月的日志数据为例,由于用户登录日志中主要记录的是每一次登录时的用户行为数据,也就是说同一用户对应着多条登录记录。

所以要实现对全校园网用户的整体分析,必须按照登录上来的IP地址进行聚合统计。

同时要实现对某用户月使用流量的分析,必须提取他的Flow_up（使用流量字段,并进行累加;而对在线时长的分析主要是提取Used_time（每次在线时长字段,并将该用户一个月内所有使用时长累加起来并除以该月天数。

由于以上的数据分析工作都是根据关键字IP地址进行提取,所以原日志内用户每一次登录的登录时间和注销时间便失去意义。

接下来我们主要是利用使用时长和月均流量对用户行为进行聚类分析,看是否能产生具有代表性的用户行为模式。

212　利用SQL2005的ETL工具对用户数据进行处理

我们依然从日志数据库中抽取一个月的数据,以2009年6月为例,该月用户登录日志达215681条数。

根据生成数据的要求,我们只需要三个字段,IP_ADDRESS（IP地址、USED_HOUR（每天在线时长、FLOW_

　6期

　丁　青等:

基于K-means聚类算法的校园网用户行为分析研究SUM（流量和。

213　利用数据流处理数据过程

我们设计了如图2的一个数据流,并通过SQLSever2005的SSIS工具生成了聚类分析所需要的数据,形成了聚类的初始输入文件,命中的记录数为3381行,也就说明在6月份活跃的IP数达到了3381条,IP地址作为该聚类文件唯一性的关键字段

。

图2　数据流过程

通过ETL工具我们将符合以上条件的用户行为数据进行

抽取[4]

最终获得训练用户样本数据3381条,准备做样本的模

型的建立。

3　调整算法参数

由于K-means算法是属于硬聚类,k果[5]。

在S,关键参数:

311　Clustering_Method参数

该参数指出使用哪一个算法来决定聚类的成员,根据我们

所选的算法选择3。

（1可伸缩的EM算法

（2普通的（不可伸缩的EM算法

（3可伸缩的K-means算法

（4普通的（不可伸缩的K-means算法

312　Cluster_Count参数

该参数是指K-means算法中的k值,它指出聚类算法要

找出多少个聚类,如果将这个参数的值设为0,则聚类算法将

会在数据中启发式地猜测合适的聚类个数。

经过对比和调整

我们最终选择k=3,这样的分类最为独立。

4　生成并理解聚类模型聚类非常适合于按属性的分数提取数据并且把数据进行

分组。

因为每一个聚类不能被看作是相互独立的,所以理解最后得到的分组可能比较困难,聚类只有与所有其他聚类联系起来才可以理解。

而在SQLServerAnalysisServer提供了一个查看器,该查看器有4个以选项卡形式出现的聚类视图,分别是分类剖面图视图、分类关系图视图、分类特征视图和分类对比视图。

通过这几个视图我们可以对聚类结果有比较好的理解。

（1分类关系图视图

该图直观的显示分类之间的强弱连接,可以看到三个分类之间连接强度各异,较强连接的分类中参数之间确实有很多相似之处,这里最强的两个连接是分类1与分类2。

（2剖面图和特征图

通过这两种图我们可以根据输入的参数了解所得到每个分类的基本信息。

从图3可以看出三种分类各占据不同范围的区间,直观地可以看出分类1的各项字段的值范围较小,而分类2处于中间,分类3则数值范围较大。

微　计　算　机　应　用

　2010

年

图3　

（3

我们可以将分类1和分类2做一下对比

。

图4　强连接分类之间的对比

可以看出这两个聚类中最具差异性的就是FlowSum与UsedHour参数,分类1的FlowSum参数更多倾向于（0,9区间,而分类2则数值更大,处于（9,571区间;分类1的UsedHour参数倾向于（0,416区间,而分类2则处于（416,23区间。

411　聚类结果

通过这样的比较,我们得出在我院校园网中用户行为主要有三种表现形式:

第一种行为模型:

计1876条,占到总体的5515%,每天上网时段通常会持续300分钟以内,这一类用户的月均使用流量约为0~10G以内。

第二类用户行为模型:

计1470条,占总体的4315%,每天上网时段通常在10-20个小时以内,这类用户的网络使用流量约为8G-100G以内。

第三类用户行为模型:

计35条,占总体的1%,每天上网时段通常超过20个小时,这类用户使用流量约为100G以上。

可以看出第一第二类用户无论是相似度或是关联度都非常强,第三类用户则与其他类距离较远。

得出这样的结果,非常有利于网络管理者制定相关的流量计费策略以使网络带宽得到最高效率的利用。

412　聚类结果分析

我们的校园网用户账号分类主要分成学生用户和教工用户,通过聚类算法我们得出校园网的三种用户行为模型,为了进一步探究各类模型的用户组成,我们利用数据钻取功能读取出每类用户具体数据。

由于我院学生的IP地址利用NAT技术进行了地址转换,这类用户都是使用了172116/12专用地址段的地址。

6期　　丁　等:

基于K-means聚类算法的校园网用户行为分析研究青79而教工用户的IP地址则从属于21118711/21这个地址块,所以根据IP地址我们就可以抽取出相应的数据集,见表2。

表2　三种分类中学生和教工数据的占用比例情况百分比分类21224246分　类学生教工合计分类11525351百分比分类30百分比1876从表中我们可以看出分类1和分类2中学生用户占了大多数,在分类3中,则全由教工用户组成。

同时通过统计,分类2中学生和教工用户每天使用时长相似,但月使用流量非常迥异,学生的月使用流量基本在8-11G。

而对应的教工用户月使用流量普遍在10G以上,最多的用户达到97G。

如果对分类2再次进行聚类,应该会发现更多的用户模型。

教工用户账号中还分成办公区账号、电子阅览室账号、南苑家属区账号,而实际上办公区网段中除了各系部和机关办公室,还包含部分研究生实验室。

我们在对各个分类中教工用户进行再次分类统计,看占用比例情况如何。

表3　三种分类中教工各种用户占用比例情况百分比23%47%30%教工分类分类181南苑家属区办公区165105351电子阅览室总计在表3中,可以看出各类用户绝大多数还是分属于分类1和分类2,只不过占有比例略有不同,而在分类3中,有家属区和办公区用户组成。

电子阅览室由于只有白天工作时间开放,不能达到每天在线时长20小时以上,则不属于第三类用户模型。

而分类3中命中的用户主要还是办公区的实验室用户和少量的家属区用户,这两种用户在线时间过长,月使用网络流量过多,说明该用户对网络有上瘾倾向,要引起关注,对其制定相对严格的上网行为管理策略。

综上所述,从聚类实验的结果我们可以看出,同类之间的距离较小,而不同类之间的距离较大,符合“聚类”的最终目标,而这样的知识发现就使得网络管理者可以对不同类的用户制定不同的网络应用策略,使得带宽能到最为合理有效的利用。

5　结束语将K-means聚类算法应用于校园网用户行为分析是一种新的尝试,它的聚类结果可以给网络管理人员对用户的行为有所了解从而考虑制定相应的网络策略。

K-means算法的优点是对属性类型没有局限性,[6]而且通过簇内主要点的位置来确定选择中心点,对孤立点的敏感性小。

不过K-means算法存在一个缺陷,就是用户必须事先指定聚类k的个数,如果聚类个数定义不准确将会使聚类结果不合理。

本文中所使用的南京农业大学工学院认证计费系统后台数据库目前已经大面积的推广,记录涉及全院用户。

因此下一步的工作是进一步细化,对数据进行更多时间维度的分析,以此对用户数据全面进行统计,制定更加合理的网络策略。

总之,校园网用户行为分析是改善校园网运行质量的一个有效途径,虽然对用户行为分析本身并不能改变网络结构或者优化网络,但是它为网络的管理者提供决策的依据,并对相关研究提供一些重要的借鉴。

因此对网络用户的行为规则进行更有效的分析,对今后校园网络智能化的实现有8113%1817%1470分类279百分比32%42%26%104632468312%1618%3535100%分类32百分比6%33094%35

　80着重大的意义。

　　微　　　　　计算机应用2010年　参考文献作者简介[1]程光,龚俭,丁伟网络测量及行为学研究综述[J]1计算机工程与应用,2004,40（27:

1-7[6]梁循1数据挖掘算法与应用[M]1北京:

北京大学出版社,2006:

193-194[2]缪红保,李卫1基于数据挖掘的用户安全行为分析[J]1计算机应用研究,2005,22（2:

105-112[4]朱德利1SQLServer2005数据挖掘与商业智能完全解决方案[M]1北京:

电子工业出版社,20071[3]叶良艳1基于改进后的K-means聚类算法的网吧用户行为聚类[J]1安徽科技学院学报,2009,23（4:

27-30[5]ZhaoHui,TangJamieMacLennan1数据挖掘原理与应用—SQLServer2005数据库[M]1北京:

清华大学出版社,20071[7]李满天,尤佳莉等1PZP网络中基于K-means聚类的用户在线行为分析[J]1微计算机应用,2009,30（11:

24-27丁青,女,（1981-,江苏省扬州市人,网络工程师,硕士,主要研究方向为网络管理,数据挖掘。

展开阅读全文