聚类算法与应用资料下载.pdf

上传人:b****3 文档编号:16124767 上传时间:2022-11-20 格式:PDF 页数:46 大小:13.98MB
下载 相关 举报
聚类算法与应用资料下载.pdf_第1页
第1页 / 共46页
聚类算法与应用资料下载.pdf_第2页
第2页 / 共46页
聚类算法与应用资料下载.pdf_第3页
第3页 / 共46页
聚类算法与应用资料下载.pdf_第4页
第4页 / 共46页
聚类算法与应用资料下载.pdf_第5页
第5页 / 共46页
点击查看更多>>
下载资源
资源描述

聚类算法与应用资料下载.pdf

《聚类算法与应用资料下载.pdf》由会员分享,可在线阅读,更多相关《聚类算法与应用资料下载.pdf(46页珍藏版)》请在冰豆网上搜索。

聚类算法与应用资料下载.pdf

把比较“接近”的样本放到一个cluster里,总共得到K个cluster4月机器学习算法班7/47聚类算法o没有给定标记的y,我们有什么途径?

l聚类唯一会使用到的信息是:

样本与样本之间的相似度l聚类就是根据样本相互之间的相似度“抱团”的o怎么评判聚类好坏?

l直观上就是“抱团紧不紧,异族远不远”l学术上叫做高类间距,低类内距高类内相似度,低类间相似度4月机器学习算法班8/47聚类算法o“相似度”评定对于聚类至关重要o“相似度”与“距离”负相关4月机器学习算法班9/47聚类算法o通常我们会使用“距离”衡量样本远近o不同的场景,不同的评定内容l图片检索:

图片内容相似度l图片分割:

图片像素(颜色)相似度l网页聚类:

文本内容相似度l社交网络聚类:

(被)关注人群,喜好,喜好内容l电商用户聚类:

点击/加车/购买商品,行为序列4月机器学习算法班10/47聚类算法o不管用什么样的评定内容o最终都会把样本表示成向量o向量的距离怎么表示?

o最常用的距离判定:

o欧式距离o曼哈顿距离o余弦距离?

o核函数映射后距离4月机器学习算法班11/47聚类算法o左边用欧氏距离,右边用核函数映射后距离4月机器学习算法班12/47聚类算法分类o有些聚类算法得到的clustero是一个独立于另外一个的o比如K-means,高斯混合模型o有些聚类算法o可以看做树状层叠o无需初始输入聚类个数4月机器学习算法班13/47K-means聚类o提出非常早,使用非常频繁的聚类算法输入linput1:

N个样本linput2:

拟定的聚类个数K初始化随机初始化K个D维的向量选取K个不同的样本点作为初始聚类中心迭代直至收敛对于每个样本xn都指定其为离其最近的聚类中心的cluster重新计算聚类中心4月机器学习算法班14/47K-means聚类o迭代收敛怎么定义?

聚类中心不再有变化每个样本到对应聚类中心的距离之和不再有很大变化o比如以下样本点要聚成2类4月机器学习算法班15/47K-means聚类4月机器学习算法班16/47K-means聚类4月机器学习算法班17/47K-means聚类4月机器学习算法班18/47K-means聚类4月机器学习算法班19/47K-means聚类4月机器学习算法班20/47K-means聚类4月机器学习算法班21/47K-means聚类4月机器学习算法班22/47K-means聚类4月机器学习算法班23/47K-means聚类o有损失函数吗?

答:

有假定为K个聚类中心用表示xn是否属于聚类k则损失函数这如下这样定义的l表征了散度(混乱度)l最小化损失函数的过程是一个NP问题l那上面的迭代?

对,它是一个收敛到局部最低点的过程4月机器学习算法班24/47K-means聚类o那,怎么办呢?

这个算法真的是初始聚类中心敏感的我们可以有一些办法缓解初始第一个聚类中心为某个样本点,初始第二个聚类中心为离它最远的点,第三个为离它俩最远的多初始化几遍,选所有这些聚类中损失函数(到聚类中心和)最小的。

优化的初始化聚类方法(Arthur和Vassilvitskii提出的K-means+)4月机器学习算法班25/47K-means聚类o关于K的选定?

选的不好确实会出现下面的状况4月机器学习算法班26/47K-means聚类o关于K的选定?

很经典的“肘点”法选取不同的K值,画出损失函数曲线选取“肘点”值4月机器学习算法班27/47K-means聚类o不同的K取值与图像分割(聚类很多时候也是业务相关的)4月机器学习算法班28/47K-means聚类oK-means的局限性属于“硬聚类”,每个样本只能有一个类别。

其他的一些聚类方法(GMM或者模糊K-means允许“软聚类”)K-means对异常点的“免疫力”很差,我们可以通过一些调整(比如中心不直接取均值,而是找均值最近的样本点代替)对于团状的数据点集区分度好,对于带状(环绕)等“非凸”形状不太好。

(用谱聚类或者做特征映射)4月机器学习算法班29/47层次聚类o好多同学表示K-means里面的K太难确定了o有!

没!

有!

不!

用!

定!

K!

的聚类?

4月机器学习算法班30/47层次聚类4月机器学习算法班31/47层次聚类oclusterR和clusterS之间的距离怎么界定?

最小连接距离法最大连接距离法平均连接距离法4月机器学习算法班32/47层次聚类4月机器学习算法班33/47聚类对比oK-meansVS层次聚类?

K-means这种扁平聚类产出一个聚类结果(都是独立的)层次聚类能够根据你的聚类程度不同,有不同的结果K-means需要指定聚类个数K,层次聚类不用K-means比层次聚类要快一些(通常说来)K-means用的多,可以用K-Median4月机器学习算法班34/47高斯混合模型4月机器学习算法班35/47高斯混合模型4月机器学习算法班36/47高斯混合模型4月机器学习算法班37/47高斯混合模型4月机器学习算法班38/47高斯混合模型4月机器学习算法班39/47高斯混合模型4月机器学习算法班40/47高斯混合模型4月机器学习算法班41/47高斯混合模型4月机器学习算法班42/47高斯混合模型oGMM的优势?

可理解性好看做多个分布的组合速度快因为EM这种高效的算法在,时间复杂度O(tkn)学术上比较直观最大数据似然概率其实可以拓展到多个其他分布的混合多个多项式分布做类别判定4月机器学习算法班43/47高斯混合模型oGMM的劣势?

初始化要慎重,不然可能掉到局部最优里去需要手工指定K(高斯分布)的个数对于我们提到的“非凸”分布数据集,也无能为力o总结一下,怎么做的?

根据当前的参数指定概率分布根据概率分布重新估计参数4月机器学习算法班44/47总结和对比4月机器学习算法班45/47聚类之示例详见课程提供的ipythonnotebook4月机器学习算法班46/47感谢大家!

恳请大家批评指正!

4月机器学习算法班

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 哲学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1