数据挖掘.docx - 冰豆网

资源描述

数据挖掘.docx

《数据挖掘.docx》由会员分享，可在线阅读，更多相关《数据挖掘.docx（33页珍藏版）》请在冰豆网上搜索。

数据挖掘.docx

数据挖掘

第二章：

假定用于分析的数据包含属性age。

数据元组中age值如下（按递增序）：

13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70.

按箱平均值和边界值平滑对以上数据进行平滑，箱的深度为3.

使用最小-最大规范化，将age值35转换到[0.0,1.0]区间

使用z-Score规范化转换age值35，其中age的标准差为12.94年。

使用小数定标规范化转换age值35。

画一个宽度为10的等宽直方图。

该数据的均值？

中位数？

众数？

数据的峰？

中列数？

Q1Q3

给出数据的五数概括

画出数据的盒图

第三章

假定数据仓库包含三个维：

timedoctor和patient；两个度量：

count和charge；其中charge是医生对病人一次诊治的收费。

画出该数据仓库的星型模式图。

由基本方体[day,doctor,patient]开始，为列出2004年每位医生的收费总数，应当执行哪些OLAP操作。

如果每维有4层（包括all），该立方体包含多少方体（包括基本方体和顶点方体）？

第五章

数据库有4个事务。

设min_sup=60%,min_conf=80%

TIDItmes_bought

T100{K,A,D,B}

T200{D,A,C,E,B}

T300{C,A,B,E}

T400{B,A,D}

分别使用Apriori和FP-增长算法找出频繁项集。

列出所有的强关联规则（带支持度s和置信度c）与下面的元规则匹配

超级市场的事务数据。

假定发现关联规则”hotdog=>hamburgers”。

给定最小支持度阈值25%，最小置信度阈值50%，该关联规则是强的么？

根据给定的数据，买hotdog独立亍买hamburgers么？

如果丌是，二者存在何种“相关”关系？

第六章

该元组status的朴素贝叶斯分类是什么？

department

status

age

salary

Sales

Senior

31…35

46K…50K

Sales

Junior

26…30

26K…30K

Sales

Junior

31…35

31K…35K

Systems

Junior

21…25

46K…50K

Systems

Senior

31…35

66K…70K

Systems

Junior

26…30

46K…50K

Systems

Senior

41…45

66K…70K

Marketing

Senior

36…40

46K…50K

Marketing

Junior

31…35

41K…45K

Secretary

Senior

46…50

36K…40K

Secretary

Junior

26…30

26K…30K

给出学生的期中和期末考试成绩。

预测其中成绩为86分学生期末成绩。

第七章

将如下的八个点聚类为三个簇。

A1（2,10），A2（2,5），A3（8,4），B1（5,8），B2（7,5），B3（6,4），C1（1,2），C2（4，9）。

假设初始我们选择A1，B1和C1分别为每个簇的中心，用k均值算法给出在第一轮执行后的三个簇中最后的三个簇

什么激发了数据挖掘

数据爆炸，数据丰富，但信息匮乏

解决方案：

数据仓库、数据挖掘

联机事务处理OLTPonlinetransactionprocessing

数据仓库和联机分析处理OLAPonlineanalyticalprocessing

从大型数据库中挖掘有趣知识（规则、模式）

OLTP

关系型数据库的主要应用

基本的事务处理，eg.银行交易

关系技术作为大量数据存储、检索、管理的主要工具

OLAP

数据仓库主要应用

支持复杂分析操作

侧重决策支持

直观易懂的查询结果

具有汇总、合并、聚集、不同角度观察信息功能，支持多维分析决策

区别

OLTP

OLAP

面向

顾客，事物和查询处理

市场，数据分析

管理

当前数据

历史数据，提供汇总聚集机制

DB设计

实体关系模型，面向应用

星型/雪花型，面向主题

视图

关注当前数据

关注历史数据、不同组织数据

访问模式

访问由短的原子事务组成

系统需要并行、恢复机制

访问大部分是只读操作

数据挖掘：

从大量数据中提取/挖掘知识的过程

从海量数据中提取出有用的、非常识性的、隐藏的、当前未知的、潜在有益的模式/知识

是数据库技术的自然进化，在很多应用中有巨大需求

知识发现：

数据清理、集成、选择、变换、挖掘、模式评估、知识表示

数据挖掘可以基于多种类型的数据库

数据挖掘功能：

概念/类描述，关系规则，分类、预测、聚类、孤立点检测、趋势分析

数据挖掘系统和构架

数据挖掘中的主要问题

相近名词：

知识发现KDDknowledgediscoveryindatabases，知识提取knowledgeextraction，数据/模式分析data/patternanalysis，数据考古dataarcheology、数据捕捞datadredging

KDD步骤；

数据清理消除噪声、不一致数据

数据集成多种数据源组合

数据选择检索分析相关数据

数据变换数据变换/统一成适合挖掘的形式，eg.汇总、聚集操作

数据挖掘智能方法提取数据模式

模式评估根据兴趣度度量，识别表示知识的有趣模式

知识表示可视化知识表示技术，向用户提供挖掘的知识

典型数据挖掘系统

为什么要数据挖掘？

-潜在应用

数据分析、决策支持

市场分析管理目标市场、CRM、超市购物篮分析、市场划分

公司分析&风险管理公司规划、资产评估、资源计划、竞争分析

欺诈检测、异常模式检测聚类&欺诈模型构造，离群点分析

其他应用文本、web、流数据挖掘，DNA、生物数据分析

数据挖掘基于何种数据？

关系数据库

数据仓库

事物数据库

高级数据库、信息库：

对象-关系数据库，空间时间，时间序列数据库、流数据、多媒体数据库，文本数据库、异构、遗产数据库、万维网

数据挖掘功能：

概念/类描述：

数据特征化、数据区分，关联规则，分类和预测，聚类分析，离群点分析，演变分析

数据挖掘涉及：

数据库技术、统计学、信息科学、可视化、机器学习……

数据挖掘系统分类：

一般功能：

描述性、预测性数据挖掘

数据库：

关系数据库、数据仓库、数据流、对象-关系数据库

知识：

关联规则、分类、聚类、趋势分析、离群点分析

技术：

数据库、OLAP、统计、可视化、机器学习

应用分类：

零售电信银行欺诈分析股市分析web挖掘

数据挖掘查询语言DMQLdataminingquerylanguage

数据挖掘DM系统,数据库管理系统DBMS,数据仓库DW系统集成方案

不耦合DM系统不利用DB或DW系统的任何功能

松散耦合DM系统使用DB或DW系统的某些设施，提取数据、数据挖掘、存储

半紧密耦合：

除了将DM系统连接到一个DB/DW系统，还可以提供数据挖掘原语的实现

数据挖掘的主要问题：

数据挖掘技术与用户交互问题

挖掘不同类型知识

多层交互知识挖掘

结合背景知识

数据挖掘查询语言和特定的数据挖掘

数据挖掘结果表示显示

处理噪声和不完整数据

模式评估

性能问题

数据挖掘算法的有效性和可伸缩性

并行，分布式和增量挖掘算法

数据库类型的多样性

关系和复杂数据类型的处理

异构数据库和全球信息系统挖掘信息

第二章数据预处理

为什么要预处理

真实世界的数据是脏的不完整、噪声（错误、离群值）、不一致

没有高质量的数据就没有高质量的挖掘结果

如何衡量数据质量

准确性、完整性、一致性、时间无关性、可解释性、可访问性

数据预处理中的主要任务：

数据清理填充缺失值、平滑噪声数据、鉴别/移除离群点、纠正不一致

数据集成从多数据库、数据立方或文件中集成

数据变换规范化和聚集

数据归约减少数据的字段数目，但仍产生相同或相似分析结果

数据离散化数据归约的一部分但是对数值性数据很重要

描述性数据汇总

获得数据的总体印象

识别数据的典型性质，凸显噪点或离群点

度量

中心趋势度量均值、中位数、众数、中列数（max+min）/2

离中心趋势度量四分位数四分位数极差方差

度量数据的离散程度

Range极差max-min

Quartiles四分位数Q1（25percentile）Q3（75percentile）

中间四分位数极差IQR=Q3-Q1

五数概括minQ1medianQ3max

盒图Q1Q3端点median盒内线标记minmax延长线离群点单独表示<>1.5*IQR

度量数据的离散程度方差s²和标准差s

数据清理如何应对空缺值

忽略、人工、全局常量、avg、同类所有样本avg、最可能的值填充

如何处理噪声数据

分箱数据排序、分箱、按箱avg、中心值、边界值等平滑技术平滑数据

聚类检测/移除离群点

回归回归函数平滑数据

分箱等宽划分w=（max-min）/n

缺点：

离群点影响表示，倾斜的数据不能很好的处理

等深划分各间隔包含的样本数目大致相同，有良好的数据扩展性

数据集成

数据集成多数据源数据结合存放在一致的数据存储中

模式集成从不同数据源集成元数据

数据冲突的检测处理不同数据源属性值、表达方式、度量标准不同

处理数据集成中的冗余数据

多数据库数据集成，产生冗余数据

对多数据源中的数据进行仔细数据集成，可以减少/避免冗余和矛盾，提高挖掘速度和质量