数据挖掘.docx

上传人:b****3 文档编号:27501457 上传时间:2023-07-02 格式:DOCX 页数:33 大小:2.55MB
下载 相关 举报
数据挖掘.docx_第1页
第1页 / 共33页
数据挖掘.docx_第2页
第2页 / 共33页
数据挖掘.docx_第3页
第3页 / 共33页
数据挖掘.docx_第4页
第4页 / 共33页
数据挖掘.docx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

数据挖掘.docx

《数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据挖掘.docx(33页珍藏版)》请在冰豆网上搜索。

数据挖掘.docx

数据挖掘

第二章:

假定用于分析的数据包含属性age。

数据元组中age值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.

按箱平均值和边界值平滑对以上数据进行平滑,箱的深度为3.

使用最小-最大规范化,将age值35转换到[0.0,1.0]区间

使用z-Score规范化转换age值35,其中age的标准差为12.94年。

使用小数定标规范化转换age值35。

画一个宽度为10的等宽直方图。

该数据的均值?

中位数?

众数?

数据的峰?

中列数?

Q1Q3

给出数据的五数概括

画出数据的盒图

第三章

假定数据仓库包含三个维:

timedoctor和patient;两个度量:

count和charge;其中charge是医生对病人一次诊治的收费。

画出该数据仓库的星型模式图。

由基本方体[day,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作。

如果每维有4层(包括all),该立方体包含多少方体(包括基本方体和顶点方体)?

第五章

数据库有4个事务。

设min_sup=60%,min_conf=80%

TIDItmes_bought

T100{K,A,D,B}

T200{D,A,C,E,B}

T300{C,A,B,E}

T400{B,A,D}

分别使用Apriori和FP-增长算法找出频繁项集。

列出所有的强关联规则(带支持度s和置信度c)与下面的元规则匹配

超级市场的事务数据。

假定发现关联规则”hotdog=>hamburgers”。

给定最小支持度阈值25%,最小置信度阈值50%,该关联规则是强的么?

根据给定的数据,买hotdog独立亍买hamburgers么?

如果丌是,二者存在何种“相关”关系?

第六章

该元组status的朴素贝叶斯分类是什么?

department

status

age

salary

Sales

Senior

31…35

46K…50K

Sales

Junior

26…30

26K…30K

Sales

Junior

31…35

31K…35K

Systems

Junior

21…25

46K…50K

Systems

Senior

31…35

66K…70K

Systems

Junior

26…30

46K…50K

Systems

Senior

41…45

66K…70K

Marketing

Senior

36…40

46K…50K

Marketing

Junior

31…35

41K…45K

Secretary

Senior

46…50

36K…40K

Secretary

Junior

26…30

26K…30K

给出学生的期中和期末考试成绩。

预测其中成绩为86分学生期末成绩。

第七章

将如下的八个点聚类为三个簇。

A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)。

假设初始我们选择A1,B1和C1分别为每个簇的中心,用k均值算法给出在第一轮执行后的三个簇中最后的三个簇

什么激发了数据挖掘

数据爆炸,数据丰富,但信息匮乏

解决方案:

数据仓库、数据挖掘

联机事务处理OLTPonlinetransactionprocessing

数据仓库和联机分析处理OLAPonlineanalyticalprocessing

从大型数据库中挖掘有趣知识(规则、模式)

OLTP

关系型数据库的主要应用

基本的事务处理,eg.银行交易

关系技术作为大量数据存储、检索、管理的主要工具

OLAP

数据仓库主要应用

支持复杂分析操作

侧重决策支持

直观易懂的查询结果

具有汇总、合并、聚集、不同角度观察信息功能,支持多维分析决策

区别

OLTP

OLAP

面向

顾客,事物和查询处理

市场,数据分析

管理

当前数据

历史数据,提供汇总聚集机制

DB设计

实体关系模型,面向应用

星型/雪花型,面向主题

视图

关注当前数据

关注历史数据、不同组织数据

访问模式

访问由短的原子事务组成

系统需要并行、恢复机制

访问大部分是只读操作

数据挖掘:

从大量数据中提取/挖掘知识的过程

从海量数据中提取出有用的、非常识性的、隐藏的、当前未知的、潜在有益的模式/知识

是数据库技术的自然进化,在很多应用中有巨大需求

知识发现:

数据清理、集成、选择、变换、挖掘、模式评估、知识表示

数据挖掘可以基于多种类型的数据库

数据挖掘功能:

概念/类描述,关系规则,分类、预测、聚类、孤立点检测、趋势分析

数据挖掘系统和构架

数据挖掘中的主要问题

相近名词:

知识发现KDDknowledgediscoveryindatabases,知识提取knowledgeextraction,数据/模式分析data/patternanalysis,数据考古dataarcheology、数据捕捞datadredging

KDD步骤;

数据清理消除噪声、不一致数据

数据集成多种数据源组合

数据选择检索分析相关数据

数据变换数据变换/统一成适合挖掘的形式,eg.汇总、聚集操作

数据挖掘智能方法提取数据模式

模式评估根据兴趣度度量,识别表示知识的有趣模式

知识表示可视化知识表示技术,向用户提供挖掘的知识

典型数据挖掘系统

为什么要数据挖掘?

-潜在应用

数据分析、决策支持

市场分析管理目标市场、CRM、超市购物篮分析、市场划分

公司分析&风险管理公司规划、资产评估、资源计划、竞争分析

欺诈检测、异常模式检测聚类&欺诈模型构造,离群点分析

其他应用文本、web、流数据挖掘,DNA、生物数据分析

数据挖掘基于何种数据?

关系数据库

数据仓库

事物数据库

高级数据库、信息库:

对象-关系数据库,空间时间,时间序列数据库、流数据、多媒体数据库,文本数据库、异构、遗产数据库、万维网

数据挖掘功能:

概念/类描述:

数据特征化、数据区分,关联规则,分类和预测,聚类分析,离群点分析,演变分析

数据挖掘涉及:

数据库技术、统计学、信息科学、可视化、机器学习……

数据挖掘系统分类:

一般功能:

描述性、预测性数据挖掘

数据库:

关系数据库、数据仓库、数据流、对象-关系数据库

知识:

关联规则、分类、聚类、趋势分析、离群点分析

技术:

数据库、OLAP、统计、可视化、机器学习

应用分类:

零售电信银行欺诈分析股市分析web挖掘

数据挖掘查询语言DMQLdataminingquerylanguage

数据挖掘DM系统,数据库管理系统DBMS,数据仓库DW系统集成方案

不耦合DM系统不利用DB或DW系统的任何功能

松散耦合DM系统使用DB或DW系统的某些设施,提取数据、数据挖掘、存储

半紧密耦合:

除了将DM系统连接到一个DB/DW系统,还可以提供数据挖掘原语的实现

数据挖掘的主要问题:

数据挖掘技术与用户交互问题

挖掘不同类型知识

多层交互知识挖掘

结合背景知识

数据挖掘查询语言和特定的数据挖掘

数据挖掘结果表示显示

处理噪声和不完整数据

模式评估

性能问题

数据挖掘算法的有效性和可伸缩性

并行,分布式和增量挖掘算法

数据库类型的多样性

关系和复杂数据类型的处理

异构数据库和全球信息系统挖掘信息

 

第二章数据预处理

为什么要预处理

真实世界的数据是脏的不完整、噪声(错误、离群值)、不一致

没有高质量的数据就没有高质量的挖掘结果

如何衡量数据质量

准确性、完整性、一致性、时间无关性、可解释性、可访问性

数据预处理中的主要任务:

数据清理填充缺失值、平滑噪声数据、鉴别/移除离群点、纠正不一致

数据集成从多数据库、数据立方或文件中集成

数据变换规范化和聚集

数据归约减少数据的字段数目,但仍产生相同或相似分析结果

数据离散化数据归约的一部分但是对数值性数据很重要

描述性数据汇总

获得数据的总体印象

识别数据的典型性质,凸显噪点或离群点

度量

中心趋势度量均值、中位数、众数、中列数(max+min)/2

离中心趋势度量四分位数四分位数极差方差

度量数据的离散程度

Range极差max-min

Quartiles四分位数Q1(25percentile)Q3(75percentile)

中间四分位数极差IQR=Q3-Q1

五数概括minQ1medianQ3max

盒图Q1Q3端点median盒内线标记minmax延长线离群点单独表示<>1.5*IQR

度量数据的离散程度方差s²和标准差s

数据清理如何应对空缺值

忽略、人工、全局常量、avg、同类所有样本avg、最可能的值填充

如何处理噪声数据

分箱数据排序、分箱、按箱avg、中心值、边界值等平滑技术平滑数据

聚类检测/移除离群点

回归回归函数平滑数据

分箱等宽划分w=(max-min)/n

缺点:

离群点影响表示,倾斜的数据不能很好的处理

等深划分各间隔包含的样本数目大致相同,有良好的数据扩展性

数据集成

数据集成多数据源数据结合存放在一致的数据存储中

模式集成从不同数据源集成元数据

数据冲突的检测处理不同数据源属性值、表达方式、度量标准不同

处理数据集成中的冗余数据

多数据库数据集成,产生冗余数据

对多数据源中的数据进行仔细数据集成,可以减少/避免冗余和矛盾,提高挖掘速度和质量

相关系数

数据变换

平滑去掉噪声数据

聚集数据汇总聚集

数据泛化使用概念分层高层次概念替换低层次原始数据

规范化属性数据按比例缩放,是指落入一个小的特定区间

属性构造有给定的属性构造新的属性,并添加到属性集

数据归约:

得到数据集的归约表示,规模小,但能产生同样的分析结果

数据归约策略:

数据立方体聚集最底层基本方体最高层顶点方体中间层方体

属性子集选择通过删除不相关或冗余属性减少数据集

维度归约(数据压缩)

无损压缩(串压缩只允许有限数据操作)

有损压缩(音频、图像压缩)

小波变换

离散小波变换DWT线性信号处理技术

近似压缩技术只保存一小部分最强的小波系数

类似于离散傅里叶变换DFT但DWT是更好的有损压缩

数值归约参数方法(假设数据符合模型eg对数线性模型)非参数方法(不必假设模型,eg直方图、聚类和选样)

离散化和概念分层产生

聚类

数据集分成聚类,使类内数据相似类间数据不相似,只存储聚类的表示

数据有噪声时会失去有效性

可以层次聚类且被存储在多维索引树结构

离散化

通过将一个连续型的属性划分成少数几个建个范围从而降低取值数目间隔的标签用于表示该字段的真实值

概念分层

将低级的概念(eg数值形式表示年龄字段)转化为高级别概念(eg中年、青年、老年表示年龄字段)

 

第三章数据仓库和OLAP技术

基于事物数据库的决策支持系统DSSdecisionsupportsystem缺陷

1数据缺乏组织性

2业务数据本身大多以原始形式存储,难以转换为有用信息

3服务于联机事务处理OLTP的关系数据库是面向操作而不是面向分析

DSS期望的理想数据源

数据格式统一

独立该数据库与事物数据库隔离是只读型数据库

继承了某一主题所需的全部数据

在DSS分析期间相对稳定

保持与具体应用同步的最新数据

数据仓库定义

与操作数据库分别维护的决策支持数据库

为统一的历史数据分析提供坚实的平台,对信息处理提供支持

是一个面向主题的,集成的,非易失,时变的数据集合,支持管理决策

数据仓库系统

数据仓库技术为基础

联机分析处理OLAP数据挖掘DM等工具为手段进行数据分析处理的一整套解决方案

数据仓库和异源DBMS

数据仓库:

使用更新驱动的方法,为集成异源DBMS带来高性能

将来袭异源的信息预先集成,存储于数据仓库,供直接查询分析

数据仓库的概念性模型

星型模式:

雪花模式:

数据进一步分解到附加的维表中

区别:

雪花模型维表规范化,减少冗余,但大量连接操作降低查询性能

事实星座模式:

多个事实表共享维表

数据仓库

收集关于整个组织的主题信息

通常使用事实星座模式,因为能对过多个相关主题建模

数据集市

数据仓库的一个部门子集,针对选定的主题,是部门范围的

通常使用星型或雪花模式,只对单个主题建模

概念分层

OLAP操作

上卷、下钻、切片、切块、转轴

SDB统计数据库用于支持统计应用的数据库系统

OLAPvsSDB

相同:

使用多维数据模型、概念分层、与维关联的度量以及上卷和下钻概念

不同点:

SDB趋向于关注社会经济应用OLAP商务应用

SDB关注概念分层的保密性

OLAP需要有效处理海量数据

星型网查询模型

数据仓库设计

使用自顶向下、自底向上或混合方法设计

软件工程观点:

瀑布式、螺旋式

数据仓库设计过程:

选取待建模商务,若该商务涉及多个复杂对象,选用数据仓库模型,如果关注某一类商务,选择数据集市

选择商务处理粒度

选取用于每个事实记录的维

选取安放在事实表中的度量

三层数据仓库结构

数据仓库体系结构:

数据源

数据提取、转换、加载

数据的存储、管理

OLAP服务器

前端工具和应用

三种数据仓库模型

企业仓库搜集关于主题的所有信息

数据集市包含企业范围数据的一个子集

虚拟仓库操作数据库上试图的集合

数据仓库开发推荐方法

从联机分析处理OLAP到联机分析挖掘OLAM

为什么进行OLAM?

数据仓库中数据的高质量

环绕数据仓库的有价值的信息处理基础设施

基于OLAP的探测式数据分析

数据挖掘功能的联机分析选择

集成的OLAM和OLAP结构

位索引

第五章挖掘频繁模式关联和相关

频繁模式:

数据集中频繁出现的模式

动机找到数据间的内在规律

应用购物篮分析、交叉市场分析、web日志分析、DNA序列分析

关联规则

极大项集:

频繁项集P使得p的任何超项集都不是频繁的

关联规则:

支持度和置信度分别满足用户给定阈值的规则

发现关联规则步骤:

找出所有频繁项集

由频繁项集生成满足最小置信度阈值的规则

Apriori算法

建立FP-tree

挖掘FP-tree主要步骤

1从FP-tree到条件模式基

2建立条件FP-tree

对任意模式基

计算其中每一项的支持度、为模式基中的频繁项建立FP-tree

3生成条件FP-tree

4递归挖掘条件FP-tree

单一FP-tree路径的产生

挖掘各种关联规则

1多层关联规则多个抽象层上挖掘数据产生的关联规则

2多维关联规则

3量化关联规则涉及维间具有隐含排序数值规则

兴趣度度量

客观度量:

支持度置信度

主观度量:

一个规则(模式)是有趣的:

非预期、可控制

支持度和置信度的缺点

基于约束的频繁模式挖掘

1反单调的如果违反了规则c则进一步的挖掘将被终止

2单调的如果满足了C则后续挖掘不必再检验该规则

3简洁的C必须被满足可以从满足C的数据集开始挖掘

4可转变的C不是单调或反单调的但可以被转换成单调的或反单调的

5不可转变的C不是单调或反单调的也不可以被转换

 

第六章分类和预测

分类:

预测分类标号,在分类属性中的训练样本集合值的基础上分类数据,并使用它分类新数据

预测:

为连续值函数建模,预测未知的或缺省值

分类步骤1模型构造2使用模型进行分类

构造模型

使用模型进行预测

评估分类模型:

准确率

速度:

构造、使用模型的时间

鲁棒性:

处理噪声和缺失值的能力

可伸缩性:

给定大量数据,有效构造模型的能力

可解释性:

涉及学习模型提供的理解和洞察的水平

决策树

输出一个针对bugs_computer的决策树

Pi=si/s

 

为连续值属性计算信息增益

因为P(X)对于所有类是常量,所以仅有

需要被最大化。

贝叶斯信念网络

IF-THEN形式表示知识

IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”

IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”

IFage=“31…40”THENbuys_computer=“yes”

IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”

IFage=“<=30”ANDcredit_rating=“fair”THENbuys_computer=“no”

多层前向反馈神经网络

线性回归

分类器评估度量:

准确率和误差率

灵敏性真正率

特效性真负率

正确性

完整性

第七章聚类分析

聚类的应用场景:

空间数据分析

图形处理

经济学

城市规划

气候研究

www文档分类对web日志进行聚类

离群点检测

簇间距离

主要聚类方法

划分方法

层次方法

基于密度的方法

基于网格的方法

基于模型的方法

K-Means聚类方法

p是空间中的点,mi是簇ci的平均值

K-Means聚类方法

优点:

复杂度o(nkt)对象数目n簇的数目k迭代次数t

相对可伸缩和高效

局部最优结束

缺点:

只有在簇的平均值被定义的情况下才能使用,涉及分类属性的数据时无法处理

需要事先给出K

对噪点和离群点数据敏感

不适合发现非凸形状的簇或者大小差别很大的簇

层次聚类

BIRCH

 

CHAMELEON总体框架

第八章高维索引结构

提高查询速度的方法-减小磁盘访问代价

聚类:

划分数据

近似:

压缩数据

降质:

不追求精确查询结果

降维:

压缩数据

并行:

进行粗粒度并行处理

上述各种方法的有机组合

(资料素材和资料部分来自网络,供参考。

可复制、编制,期待你的好评与关注)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 理化生

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1