完整版数据挖掘概念与技术第三版部分习题答案文档格式.docx

资源描述

完整版数据挖掘概念与技术第三版部分习题答案文档格式.docx

《完整版数据挖掘概念与技术第三版部分习题答案文档格式.docx》由会员分享，可在线阅读，更多相关《完整版数据挖掘概念与技术第三版部分习题答案文档格式.docx（25页珍藏版）》请在冰豆网上搜索。

完整版数据挖掘概念与技术第三版部分习题答案文档格式.docx

数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析

2.3假设给定的数据集的值已经分组为区间。

区间和对应的频率如下。

―――――――――――――――――――――――――――――――――――――

年龄频率

1~5200

5~15450

15~20300

20~501500

50~80700

80~11044

计算数据的近似中位数值。

解答：

先判定中位数区间：

N=200+450+300+1500+700+44=3194；

N/2=1597

∵200+450+300=950<

1597<

2450=950+1500；

∴20~50对应中位数区间。

∴median=32.97岁。

2.2假定用于分析的数据包含属性age。

数据元组的age值（以递增序）是：

13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。

（a）该数据的均值是什么？

中位数是什么？

均值=（13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70）/27

=29.96

中位数应是第14个,即x14=25=Q2。

（b）该数据的众数是什么？

讨论数据的峰（即双峰、三峰等）。

这个数集的众数有两个：

25和35,发生在同样最高的频率处,因此是双峰众数。

（c）数据的中列数是什么？

数据的中列数是最大数和最小数的均值。

即：

midrange=（70+13）/2=41.5。

（d）你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q3）吗？

数据集的第一个四分位数应发生在25%处，即在（N+1）/4=（27+1）/4=7处。

所以：

Q1=20。

而第三个四分位数应发生在75%处,即在3×

（N+1）/4=21处。

Q3=35

（e）给出数据的五数概括。

一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。

它给出了分布形状良好的汇总+并且这些数据是：

13、20、25、35、70。

（f）画出数据的盒图。

（g）分位数—分位数图与分位数图的不同之处是什么？

分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。

这样,他可以展示所有数的分位数信息,而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。

但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。

两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。

一条线（y=x）可画到图中+以增加图像的信息。

落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。

反之,对落在该线以下的点则低。

2.4假设医院检测随机选择的18个成年人年龄和身体脂肪数据，得到如下结果：

（a）计算年龄和脂肪百分比的均值、中位数和标准差.

年龄均值=（23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61）/18=836/18=46.44,

中位数=（50+52）/2=51,

标准差=方差的平方根=开根号（1/n[∑（Xi）2-1/n（∑Xi）2]）=开根号1/18[2970.44]=12.85.

脂肪百分比均值=28.78,中位数=30.7,标准差=8.99.

（b）绘制年龄和脂肪百分比的盒图

（c）根据这两个属性,绘制散布图,各q-q图

q-q图散布图

（d）根据z-score规范化来规范化这两个属性（P46）

（e）计算相关系数（皮尔逊积矩系数）.这两个变量是正相关还是负相关?

ra,b=∑（ai-A）（bi-B）/NσAσB=（∑（aibi）-NAB）/NσAσB=（∑（aibi）-18*46.44*28.78）/18*12.85*8.99=0.82