K最临近分类算法论文Word格式文档下载.docx-资源下载

K最临近分类算法论文Word格式文档下载.docx

1、methodofpatternrecognition,whichisonethebestalgorithmsfordealingwithtextcategorization,playinganimportantroleinmachinelearningclassificationanditsimplestlearning.Withtodayssociety,widespreadusecomputers,continuousfile, howaboutthesenologic,levelsort,classifyfilesondoperfectorder,hierarchybright?Text

2、automaticaccordingtoabovesituation,usingmachine,throughcertainconstraintconditionsometraversefiles,soasrealizeclassify.Somachinesinsteadpeopleread,finishreplacingworkersnotonlyreduceburdenstaff, andgreatlysavestimestaffmoremeaningfulthings.Thecoreideabeclassified, thedistanceofdatacalculatedeachtrai

3、ningsample,datafromnearestKsamples, whichcategorysamplesamplesinthemajority, areclassifiedbelongswhichcategory. This article is for the purpose ofdata mining using K-Nearest Neighbour.Key words：algorithm, Textclassification, Classificationalgorithms, data mining1.研究背景及现状国际权威的学术组织the IEEE Internation

4、al Conference on Data Mining （ICDM） 2006年12月评选出了数据挖掘领域的十大经典算法： C4.5，k-Means， SVM， Apriori,，EM， PageRank， AdaBoost，kNN，Naive Bayes,，and CART。国外对于文本分类的研究开展较早，20世纪50年代末，H.P.Luhn3对文本分类进行了开创性的研究将词频统计思想应用于文本分类，1960年，Maro发表了关于自动分类的第一篇论文，随后，K.Spark，GSalton，R.M.Needham，M.E.Lesk以及K.S.Jones等学者在这一领域进行了卓有成效的研究。目

5、前，文本分类已经广泛的应用于电子邮件分类、电子会议、数字图书馆、搜索引擎、信息检索等方面4。至今，国外文本分类技术在以下一些方面取得了不错的研究成果。KNN算法是对NN（nearestneighbor）算法即近邻算法的改进，最初的近邻算法是由T.M.Cover,在其文章”RatesConvergenceNearestNeighborProcedures,”中提出的，是以全部训练样本作为带标点，计算测试样本与所有样本的距离并以最近邻者的类别作为决策，后学者们对近邻算法进行了各方面的改进。KNN算法最初由Cover和Hart于1968年提出8，是一个理论上比较成熟的方法。2.数据及来源1）数据理

6、解选择第二包数据Iris Data Set，共有150组数据,考虑到训练数据集的随机性和多样性，选择rowNo模3不等于0的100组作为训练数据集，剩下的50组做测试数据集。（1）每组数据有5个属性，分别是：1. sepal length in cm 2. sepal wrowNoth in cm 3. petal length in cm 4. petal wrowNoth in cm 5. class: - Iris Setosa - Iris Versicolour - Iris Virginica（2）为了操作方便，对各组数据添加rowNo属性,且第一组rowNo=1。2）数据清理

7、现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。（a）缺失值：当数据中存在缺失值是，忽略该元组（注意：本文选用的第二组数据Iris Data Set的Missing Attribute Values: None）。（b）噪声数据：本文暂没考虑。3）数据来源：数据堂。3.方法及基本原理KNN（k Nearest Neighbors）算法又叫k最临近方法，假设每一个类包含多个样本数据，而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类， KNN就是计算每个样本数据到待分类数据的距离，如果一个样本在特征空间中的k

8、个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。因此，采用这种方法可以较好地避免样本的不平衡问题。另外，由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。该方法的不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先

9、对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。（1）算法思路：K-最临近分类方法存放所有的训练样本，在接受待分类的新样本之前不需构造模型，并且直到新的（未标记的）样本需要分类时才建立分类。K-最临近分类基于类比学习，其训练样本由N维数值属性描述，每个样本代表N维空间的一个点。这样，所有训练样本都存放在N维模式空间中。给定一个未知样本，k-最临近分类法搜索模式空间，找出最接近未知样本的K个训练样本。这K个训练样本是未知样本的K个“近邻”。“临近性”又称为相异度（Dissimilarity）

10、，由欧几里德距离定义，其中两个点 X（x1,x2,xn）和Y（y1,y2,yn）的欧几里德距离是：未知样本被分配到K个最临近者中最公共的类。在最简单的情况下，也就是当K=1时，未知样本被指定到模式空间中与之最临近的训练样本的类。（2）算法步骤：step.1-初始化距离为最大值step.2-计算未知样本和每个训练样本的距离diststep.3-得到目前K个最临近样本中的最大距离maxdiststep.4-如果dist小于maxdist，则将该训练样本作为K-最近邻样本step.5-重复步骤2、3、4，直到未知样本和所有训练样本的距离都算完step.6-统计K-最近邻样本中每个类标号出现的次数st

11、ep.7-选择出现频率最大的类标号作为未知样本的类标号4.计算及结果1）算法源代码/ KNN.cpp K-最近邻分类算法#include stdio.hmemory.hstring.hiostream.hmath.hfstream.h/ 宏定义#define ATTR_NUM 4 /属性数目#define MAX_SIZE_OF_TRAINING_SET 1000 /训练数据集的最大大小#define MAX_SIZE_OF_TEST_SET 100 /测试数据集的最大大小#define MAX_VALUE 10000.0 /属性最大值#define K 7/结构体struct dataVector int ID; /ID号 char classLabel15; /分类标号 double attr

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？