数据仓库与数据挖掘技术 第四章 数据预处理.docx

上传人:b****5 文档编号:7195419 上传时间:2023-01-21 格式:DOCX 页数:8 大小:240.87KB
下载 相关 举报
数据仓库与数据挖掘技术 第四章 数据预处理.docx_第1页
第1页 / 共8页
数据仓库与数据挖掘技术 第四章 数据预处理.docx_第2页
第2页 / 共8页
数据仓库与数据挖掘技术 第四章 数据预处理.docx_第3页
第3页 / 共8页
数据仓库与数据挖掘技术 第四章 数据预处理.docx_第4页
第4页 / 共8页
数据仓库与数据挖掘技术 第四章 数据预处理.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

数据仓库与数据挖掘技术 第四章 数据预处理.docx

《数据仓库与数据挖掘技术 第四章 数据预处理.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术 第四章 数据预处理.docx(8页珍藏版)》请在冰豆网上搜索。

数据仓库与数据挖掘技术 第四章 数据预处理.docx

数据仓库与数据挖掘技术第四章数据预处理

第4章数据预处理

4.1数据预处理概述

4.1.1原始数据中存在的问题

1.不一致

2.重复

3.不完整

4.含噪声

5.维度高

6.数据不平衡

4.1.2数据预处理的方法和功能

1.数据清洗(datacleaning)

2.数据集成(dataintegration)

3.数据变换(datatransformation)

4.数据归约(datareduction)

4.2数据清洗

4.2.1属性选择与处理

1.尽可能赋予属性名和属性值明确的含义

2.统一多数据源的属性值编码

3.处理唯一属性

4.去除重复属性

5.去除可忽略字段

6.合理选择关联字段

4.2.2空缺值处理

1.忽略该记录

2.去掉属性

3.写空缺值

4.使用默认值

5.使用属性平均值

6.使用同类样本平均值

7.预测最可能的值

4.2.3噪声数据处理

1.分箱(binning)

2.聚类(clustering)

图4-1用聚类方法去掉噪声

3.回归(regression)

4.2.4不平衡数据的处理

4.3数据集成和变换

4.3.1数据集成

1.模式匹配

2.数据冗余

3.数据值冲突

4.3.2数据变换

1.平滑(smoothing)

2.聚集(clustering)

3.数据概化(generalization)

4.规范化(normalization)

5.属性构造

4.4数据归约

4.4.1数据归约的方法

4.4.2数据立方体聚集

图4-2销售数据立方体

图4-3聚集后的销售数据立方体

4.4.3维归约

1.逐步向前选择

2.逐步向后删除

3.向前选择和向后删除结合

4.判定树(dicisiontree)归纳

图4-4用判定数进行属性归约

5.基于统计分析的归约

4.4.4数据压缩

4.4.5数值归约

1.直方图(histogram)

图4-5购买数据的单桶直方图

图4-6购买数据的等宽直方图(箱宽5)

2.聚类

3.抽样(sampling)

图4-7示例数据集

图4-8用户数据按年龄分层抽样

4.线性回归

5.非线性回归

4.4.6离散化与概念分层生成

图4-9分箱产生的概念分层和离散化

1.数值数据的离散化与概念分层生成

图4-103-4-5规则产生的概念分层

图4-11数据集D的分布曲线

图4-12在置信区间[5%,95%]上的第一层划分

图4-13对缺失区间补充的划分

图4-14对图4-13进一步分层

2.分类数据的概念分层生成

图4-15对属性组:

year,month,day的概念分层

习题4

1.列举实际业务操作数据中存在的问题以及这些问题产生的原因。

2.数据预处理涉及哪些方法,这些方法分别用于解决数据中的哪方面的问题?

3.说明属性选取的原则。

4.说明填补空缺值的方法和这些方法的优缺点。

5.下面是一个超市某种商品连续24个月的销售数据(百元):

21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17

使用统一权重、统一区间、和自定义区间方法对数据分箱,做出各种分箱方法得到的直方图。

6.对上题中分箱后的数据采用平均值、边界值或中值等方法进行平滑。

7.如果挖掘算法需要把第5题中的商品销售数据规范化到区间[0,1]上,采用最小-最大规范化方法,请写出规范化后的结果。

8.试采用一种分箱方法,对以下某种商品连续30周的销售利润数据进行归约(千元):

3,2,5,7,4,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4,6,3,4,7,8,3,6,4,2,3

9.解释本章中提到的几种数据抽样方法。

10.用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)进行离散化,使得每箱宽度不大于5,形成概念分层。

11.对连续数值型数据集D,取值范围为0~70,试用3-4-5规则对其进行离散化。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 研究生入学考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1