模式识别最近邻法和k近邻法MATLAB实现.docx

资源描述

模式识别最近邻法和k近邻法MATLAB实现.docx

《模式识别最近邻法和k近邻法MATLAB实现.docx》由会员分享，可在线阅读，更多相关《模式识别最近邻法和k近邻法MATLAB实现.docx（13页珍藏版）》请在冰豆网上搜索。

模式识别最近邻法和k近邻法MATLAB实现.docx

模式识别最近邻法和k近邻法MATLAB实现

学号：

02105120姓名：

吴林一.基本概念：

最近邻法：

对于未知样本x，比较x与N个已知类别的样本之间的欧式距离，并决策x与距

离它最近的样本同类。

K近邻法：

取未知样本x的k个近邻，看这k个近邻中多数属于哪一类，就把x归为哪一类。

K取奇数，为了是避免k仁k2的情况。

2.问题分析：

要判别x属于哪一类，关键要求得与x最近的k个样本（当k=1时，即是最近邻法），然后

判别这k个样本的多数属于哪一类。

可采用欧式距离公式求得两个样本间的距离s=sqrt（（X1-X2）A2+（y1-y2）A2）

3.算法分析：

该算法中任取每类样本的一半作为训练样本，其余作为测试样本。

例如iris中取每类样本

的25组作为训练样本，剩余25组作为测试样本，依次求得与一测试样本x距离最近的k个样本，并判断k个样本多数属于哪一类，则x就属于哪类。

测试10次，取10次分类正确率的平均值来检验算法的性能。

4.MATLAB弋码：

最近邻算实现对Iris分类

clc;

totalsum=0;

forii=1:

data=load（''）;

data1=data（1:

50,1:

4）;%任取Iris-setosa数据的25组

rbow1=randperm（50）;

trainsample1=data1（rbow1（:

25）,1:

4）;

rbow1（:

26:

50）=sort（rbow1（:

26:

50））;%剩余的25组按行下标大小顺序排列

testsample1=data1（rbow1（:

26:

50）,1:

4）;

data2=data（51:

100,1:

4）;%任取Iris-versicolor数据的25组

rbow2=randperm（50）;

trainsample2=data2（rbow2（:

25）,1:

4）;rbow2（:

26:

50）=sort（rbow2（:

26:

50））;

testsample2=data2（rbow2（:

26:

50）,1:

4）;

data3=data（101:

150,1:

4）;%任取Iris-virginica数据的25组

rbow3=randperm（50）;

trainsample3=data3（rbow3（:

25）,1:

4）;rbow3（:

26:

50）=sort（rbow3（:

26:

50））;

testsample3=data3（rbow3（:

26:

50）,1:

4）;trainsample=cat（1,trainsample1,trainsample2,trainsample3）;%包含75组数据的样本

集

testsample=cat（1,testsample1,testsample2,testsample3）;

newchar=zeros（1,75）;sum=0;

[i,j]=size（trainsample）;%i=60,j=4

[u,v]=size（testsample）;%u=90,v=4forx=1:

fory=1:

iresult=sqrt（（testsample（x,1）-trainsample（y,1））A2+（testsample（x,2）-trainsample（y,2））A2+（testsample（x,3）-trainsample（y,3））A2+（testsample（x,4）-trainsample（y,4））A

2）;%欧式距离

newchar（1,y）=result;

end;

[new,Ind]=sort（newchar）;

class1=0;

class2=0;

class3=0;

ifInd（1,1）<=25

class1=class1+1;

elseifInd（1,1）>25&&Ind（1,1）<=50class2=class2+1;

else

class3=class3+1;

end

ifclass1>class2&&class1>class3

m=1;

ty='Iris-setosa';

elseifclass2>class1&&class2>class3

m=2;

ty='Iris-versicolor';

elseifclass3>class1&&class3>class2

m=3;

ty='Iris-virginica';

else

m=0;

ty='none';

end

ifx<=25&&m>0

%$类',rbow1（:

x+25）,ty））;

%$类',rbow1（:

x+25）,'none'））

%$类',50+rbow2（:

x）,ty））;

%$类',50+rbow2（:

x）,'none'））

%$类',100+rbow3（:

x-25）,ty））;

disp（sprintf（'第％4组数据分类后为

elseifx<=25&&m==0

disp（sprintf（'第％4组数据分类后为

end

ifx>25&&x<=50&&m>0

disp（sprintf（'第％4组数据分类后为

elseifx>25&&x<=50&&m==0

disp（sprintf（'第％4组数据分类后为

end

ifx>50&&x<=75&&m>0

disp（sprintf（'第％4组数据分类后为

elseifx>50&&x<=75&&m==0

end

if（x<=25&&m==1）||（x>25&&x<=50&&m==2）||（x>50&&x<=75&&m==3）sum=sum+1;

end

disp（sprintf（'第％畝分类识别率为％',ii,sum/75））;

totalsum=totalsum+（sum/75）;

end

disp（sprintf（'10次分类平均识别率为%',totalsum/10））;

测试结果：

第3组数据分类后为第5组数据分类后为第6组数据分类后为第7组数据分类后为第10组数据分类后为第11组数据分类后为第12组数据分类后为第14组数据分类后为第16组数据分类后为第18组数据分类后为第19组数据分类后为第20组数据分类后为第23组数据分类后为第24组数据分类后为第26组数据分类后为第28组数据分类后为第30组数据分类后为第31组数据分类后为第34组数据分类后为第37组数据分类后为第39组数据分类后为第41组数据分类后为第44组数据分类后为第45组数据分类后为第49组数据分类后为第51组数据分类后为

Iris-setosa类

Iris-versicolor类

类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类类

第53组数据分类后为第54组数据分类后为第55组数据分类后为第57组数据分类后为第58组数据分类后为第59组数据分类后为第60组数据分类后为第61组数据分类后为第62组数据分类后为第68组数据分类后为第70组数据分类后为第71组数据分类后为第74组数据分类后为第75组数据分类后为第77组数据分类后为第79组数据分类后为第80组数据分类后为第84组数据分类后为第85组数据分类后为第92组数据分类后为第95组数据分类后为第97组数据分类后为第98组数据分类后为第99组数据分类后为第102组数据分类后为第103组数据分类后为第105组数据分类后为第106组数据分类后为第107组数据分类后为第108组数据分类后为第114组数据分类后为第118组数据分类后为第119组数据分类后为第124组数据分类后为第125组数据分类后为第126组数据分类后为第127组数据分类后为第128组数据分类后为第129组数据分类后为第130组数据分类后为第133组数据分类后为第135组数据分类后为第137组数据分类后为第138组数据分类后为

Iris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-virginicaIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-virginicaIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolorIris-versicolor

Iris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-versicolorIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginicaIris-virginica

第142组数据分类后为第144组数据分类后为第148组数据分类后为第149组数据分类后为第150组数据分类后为

■・・・・、」/••

Iris-virginica类

■・・・・、」/••

Iris-virginica类

■・・・・、」/••

Iris-virginica类

■・・・・、」/••

Iris-virginica类

■・・・・、」/••

Iris-virginica类

k近邻法对wine分类：

clc;

otalsum=0;

forii=1:

10%循环测试10次

data=load（''）;%导入wine数据data1=data（1:

59,1:

13）;%任取第一类数据的30组

rbow1=randperm（59）;

trainsample1=data1（sort（rbow1（:

30））,1:

13）;

rbow1（:

31:

59）=sort（rbow1（:

31:

59））;%剩余的29组按行下标大小顺序排列

testsample1=data1（rbow1（:

31:

59）,1:

13）;

data2=data（60:

130,1:

13）;%任取第二类数据的35组

rbow2=randperm（71）;

trainsample2=data2（sort（rbow2（:

35））,1:

13）;rbow2（:

36:

71）=sort（rbow2（:

36:

71））;

testsample2=data2（rbow2（:

36:

71）,1:

13）;data3=data（131:

178,1:

13）;%任取第三类数据的24组

rbow3=randperm（48）;

trainsample3=data3（sort（rbow3（:

24））,1:

13）;rbow3（:

25:

48）=sort（rbow3（:

25:

48））;

testsample3=data3（rbow3（:

25:

48）,1:

13）;

train_sample=cat（1,trainsample1,trainsample2,trainsample3）;%包含89组数据的样本

集

test_sample=cat（1,testsample1,testsample2,testsample3）;

k=19;%19近邻法newchar=zeros（1,89）;

sum=0;

[i,j]=size（train_sample）;%i=89,j=13

[u,v]=size（test_sample）;%u=89,v=13

forx=1:

fory=1:

result=sqrt（（test_sample（x,1）-train_sample（y,1）F2+（test_sample（x,2）-train_sample（y,2）F2+（test_sample（x,3）-train_sample（y,3））A2+（test_sample（x,4）-train_sample（y,4））A2+（test_sample（x,5）-train_sample（y,5））A2+（test_sample（x,6）-train_sample（y,6））A2+（test_sample（x,7）-train_sample（y,7））A2+（test_sample（x,8）-train_sample（y,8））A2+（test_sample（x,9）-train_sample（y,9））A2+（test_sample（x,10）-train_sample（y,10））A2+（test_sample（x,11）-train_sample（y,11））A2+（test_sample（x,12）-train_sample（y,12））A2+（test_sample（x,13）-train_sample（y,13））A2）;%欧式距离

newchar（1,y）=result;

end;

[new,Ind]=sort（newchar）;

class1=0;

class2=0;

class3=0;

forn=1:

ifInd（1,n）<=30

class1=class1+1;

elseifInd（1,n）>30&&Ind（1,n）<=65

class2=class2+1;

else

class3=class3+1;

end

ifclass1>=class2&&class1>=class3

m=1;

elseifclass2>=class1&&class2>=class3

m=2;

elseifclass3>=class1&&class3>=class2

m=3;

end

ifx<=29

disp（sprintf（'第％4组数据分类后为第％4类’，rbow1（:

30+x）,m））;

elseifx>29&&x<=65

disp（sprintf（'第％4组数据分类后为第％4类',59+rbow2（:

x+6）,m））;

elseifx>65&&x<=89

disp（sprintf（'第％4组数据分类后为第％4类',130+rbow3（:

x-41）,m））;

end

if（x<=29&&m==1）||（x>29&&x<=65&&m==2）||（x>65&&x<=89&&m==3）sum=sum+1;

end

disp（sprintf（'第％畝分类识别率为％',ii,sum/89））;

totalsum=totalsum+（sum/89）;

end

disp（sprintf（'10次分类平均识别率为%',totalsum/10））;

第2组数据分类后为第1类

第4组数据分类后为第1类

第5组数据分类后为第3类

第6组数据分类后为第1类

第8组数据分类后为第1类

第10组数据分类后为第1类

第11组数据分类后为第1类

第14组数据分类后为第1类

第16组数据分类后为第1类

第19组数据分类后为第1类

第20组数据分类后为第3类

第21组数据分类后为第3类

第22组数据分类后为第3类

第26组数据分类后为第3类

第27组数据分类后为第1类

第28组数据分类后为第1类

第30组数据分类后为第1类

第33组数据分类后为第1类

第36组数据分类后为第1类

第37组数据分类后为第1类

第43组数据分类后为第1类

第44组数据分类后为第3类

第45组数据分类后为第1类

第46组数据分类后为第1类

第49组数据分类后为第1类

第52组数据分类后为第1类

第54组数据分类后为第1类

第56组数据分类后为第1类

第57组数据分类后为第1类

第60组数据分类后为第2类

第61组数据分类后为第3类

第63组数据分类后为第3类

第65组数据分类后为第2类

第66组数据分类后为第3类

第67组数据分类后为第2类

第71组数据分类后为第1类

第72组数据分类后为第2类

第74组数据分类后为第1类

第76组数据分类后为第2类

第77组数据分类后为第2类第79组数据分类后为第3类第81组数据分类后为第2类第82组数据分类后为第3类第83组数据分类后为第3类第84组数据分类后为第2类第86组数据分类后为第2类第87组数据分类后为第2类第88组数据分类后为第2类第93组数据分类后为第2类第96组数据分类后为第1类第98组数据分类后为第2类第99组数据分类后为第3类第102组数据分类后为第2类第104组数据分类后为第2类第105组数据分类后为第3类第106组数据分类后为第2类第110组数据分类后为第3类第113组数据分类后为第3类第114组数据分类后为第2类第115组数据分类后为第2类第116组数据分类后为第2类第118组数据分类后为第2类第122组数据分类后为第2类第123组数据分类后为第2类第124组数据分类后为第2类第133组数据分类后为第3类第134组数据分类后为第3类第135组数据分类后为第2类第136组数据分类后为第3类第139组数据分类后为第3类第140组数据分类后为第3类第142组数据分类后为第3类第144组数据分类后为第2类第145组数据分类后为第1类第146组数据分类后为第3类第148组数据分类后为第3类第149组数据分类后为第2类第152组数据分类后为第2类第157组数据分类后为第2类第159组数据分类后为第3类第161组数据分类后为第2类第162组数据分类后为第3类第163组数据分类后为第3类第164组数据分类后为第3类第165组数据分类后为第3类第167组数据分类后为第3类第168组数据分类后为第3类第173组数据分类后为第3类第174组数据分类后为第3类

五：

问题和收获：

该算法的优缺点总结为：

优点：

算法简单且识别率较高；缺点：

算法需要计算未知样本x与周围每个样本的距离，然后排序选择最近的k个近邻，计算量和时间复杂度高。

书本上有好多优化的k近邻法，比如，快速搜索近邻法、剪切近邻法、压缩近邻法等，但就个人能力而言，上述优化的算法不太容易编程实现。

在日后的学习中，自己也要加强优化算法的能力。

展开阅读全文