数据挖掘第三版第三章课后习题答案.doc-资源下载

数据挖掘第三版第三章课后习题答案.doc

1、2.1再给三个用于数据散布的常用特征度量（即未在本章讨论的），并讨论如何在大型数据库中有效的计算它们答：异众比率：又称离异比率或变差比。是非众数组的频数占总频数的比率应用：用于衡量众数的代表性。主要用于测度定类数据的离散程度，定序数据及数值型数据也可以计算。还可以对不同总体或样本的离散程度进行比较计算：标准分数：标准分数（standard score）也叫z分数（z-score）,是一个分数与平均数的差再除以标准差的过程。用公式表示为： z=(x-)/。其中x为某一具体分数，为平均数，为标准差。 Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为

2、负数，反之则为正数。计算：Z=（x-)/ 其中 = E( X) 为平均值、² = Var( X) X的概率分布之方差若随机变量无法确定时，则为算术平均数离散系数：离散系数，又称“变异系数”，是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比。计算：CV=/极差（全距）系数：Vr=R/X ；平均差系数：Va，d=A.D/X；方差系数：V方差=方差/X ；标准差系数：V标准差=标准差/X；其中，X表示X的平均数。平均差：平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零，离差的平

3、均数不能将离差和除以离差的个数求得，而必须讲离差取绝对数来消除正负号。平均差是反应各标志值与算术平均数之间的平均差异。平均差异大，表明各标志值与算术平均数的差异程度越大，该算术平均数的代表性就越小；平均差越小，表明各标志值与算术平均数的差异程度越小，该算术平均数的代表性就越大。计算：平均差=(|x-x|)n,其中为总计的符号，x为变量，x为算术平均数，n为变量值的个数。2.2假设所分析的的数据包括属性age，它在数据元组中的值（以递增序）为13,15,16,16，19,20,21,22,22,25,25,25,25,25，30,33,33,35,35,35,35,36,40,45,46,52,

4、70.a.平均值29.963中位数是25b.众数是25及35数据的模态是二模c. 最大数和最小数的均值 =(70+13)/2=41.5d. 第一个四分位数在(N+1)/4=（27+1）/4=7 处：Q1=20。而第三个四分位数在3(N+1)/4=21 处：Q3=35e. 最小值、第一个四分位数、中位数、第三个四分位数、和最大值是：13、20、25、35、70。f.箱线图为g. 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。但分位数分位数图用纵轴表示一种单变量分

5、布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线（y=x）可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2.4C.Q-Q图为散点图为2.5.简要概述如何计算被如下属性描述的相异性a.标称属性两个对象i和j之间的相异性可以根据不匹配率来计算：其中，m是匹配的数目（即i和j取值相同状态的属性数），而p是刻画对象的属性总数。我们可以通过赋予m较大的权重，或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。b.非对称的二元

6、属性给定两个非对称的二元属性，两个都取值1的情况（正匹配）被认为比两个都取值0的情况（负匹配）更有意义。因此，这样的二元属性经常被认为是“一元的”（只有一种状态）。基于这种属性的相异性被称为非对称的二元相异性，其中负匹配数t被认为是不重要的，因此在计算时被忽略c.数值属性最流行的距离度量是欧几里得距离（即，直线或“乌鸦飞行”距离）。令i=（xi1，xi2，xip）和j=（xj1，xj2,，xjp）是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为：另一个著名的度量方法是曼哈顿（或城市块）距离，之所以如此命名，是因为它是城市两点之间的街区距离（如，向南2个街区，横过3个街区，共计

7、5个街区）。其定义如下：d.词频属性在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）对于在某一特定文件里的词语 ti 来说，它的重要性可表示为：以上式子中 ni,j 是该词在文件dj中的出现次数，而分母则是在文件dj中所有字词的出现次数之和。2.6a.欧几里得距离为450.5b.哈曼吨距离为11c.闵可夫斯基距离为2331/3d.上确定界距离为62.8a.利用公式，得到以下的距离为欧几里得距离0.140.670.280.220.61余弦相似性距离0.99990.99570.99990.99900.9653基于欧几里得距离距离,排名顺序是x1,x4;x3,x5,x2。基于余弦相似度的点排位是x1,x3,x4,x2,x5。b.规则化的数据为：0.65850.66160.72500.66440.62470.83210.75260.74980.68870.74740.78090.5547.欧几里得距离0.00410.09220.00780.04410.2632

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？