北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx

上传人:b****9 文档编号:43338 上传时间:2022-10-01 格式:DOCX 页数:63 大小:1.06MB
下载 相关 举报
北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx_第1页
第1页 / 共63页
北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx_第2页
第2页 / 共63页
北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx_第3页
第3页 / 共63页
北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx_第4页
第4页 / 共63页
北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx_第5页
第5页 / 共63页
点击查看更多>>
下载资源
资源描述

北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx

《北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx》由会员分享,可在线阅读,更多相关《北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx(63页珍藏版)》请在冰豆网上搜索。

北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作.docx

第1讲数据挖掘概述

–数据与知识的区别与联系?

数据:

对象(被描述的单元)+属性(描述对象某一方面的特征)数据是将不同类型的属性经数据处理数据化得到的结果

知识能保障我们达成既定目标

数据是挖掘的基础。

数据记录了现象,通过现象总结出知识。

–列举几项你所知道的数据挖掘应用,并论述数据挖掘在其中的作用?

(1)分类,根据特征判断对象属于哪个类别,有指导学习。

预测肿瘤细胞是良性还是恶性;识别信用卡交易是否合法还是欺诈;电信客户流失分析;图片、音频、视频标签;蛋白质结构功能分类等。

(2)聚类,给对象归类使得同组对象尽可能相似,不同组对象尽可能不相似,无指导学习。

把相关文档归并方便浏览;市场分割,细分为不同的客户群;获取价格波动相似的股票有助于决策;相关案件放在一起寻找嫌疑人的特征。

(3)关联分析,给定一组记录,分析项目之间的依赖关系。

购物分析,用于促销、货价管理存货管理;医疗信息发现与某种疾病与症状的关联以便通过症状诊断病症

(4)顾客分类,数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)

识别顾客需求,对不同的顾客识别最好的产品,使用预测发现什么因素影响新顾客。

汽车保险检测假造事故骗取保险赔偿的人。

检测电话欺骗,通话距离、通话时间,每天或每周通话次数

–数据挖掘方法过程是什么?

数据库-->数据清理-->数据仓库-->任务相关数据-->数据挖掘-->模式评估-->知识具体在PPT上有一个流程图

书上的:

数据清理(消除噪声、不一致数据)-->数据集成(多种数据源可以组合在一起)-->数据选择(从数据库中检索与分析任务相关的数据)-->数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)-->数据挖掘(基本步骤,使用智能方法提取数据模式)-->模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)-->知识表示

(使用可视化和知识表示技术,向用户提供挖掘的知识)

–数据挖掘与机器学习的区别与联系?

机器学习为数据挖掘提供理论方法:

分类、聚类

所处理的数据在量上的差距:

机器学习数据规模相对小;数据挖掘数据规模相对大

数据挖掘目标适中,自动化繁琐的挖掘工作,而非达到人的智能行为;辅助用户决策,而非代替用户决策

–数据挖掘与统计的区别与联系?

目标类似:

统计也是希望从数据中发现令人感兴趣的信息

前提不同:

统计学要求有数据分布模型的先验假设;数据挖掘没有上述要求处理数据规模不同

相互促进:

数据挖掘可以作为统计分析的初步分析阶段统计理论方法和技术可以应用于数据挖掘

–数据挖掘与数据管理的区别与联系?

数据库:

演绎推理(deductive)

先定义好模式,按照模式查询数据(SQL)数据挖掘:

归纳推理(inductive)

给定特定数据,归纳一般模式;数据挖掘是数据库功能的延伸

第2讲认识数据

–数据属性有哪些类别,不同类别的属性有哪些作用?

属性:

数据的字段/维度,说明数据内容含义数据属性有:

数据说明、取值说明、单位/量纲

属性分类:

标称属性、二元属性、序数属性、数值属性

(1)标称属性

与名称相关,用于描述,取值常为字符串,每个值代表某种类别、编码或状态,枚举型,不具备有意义的序,可被用于分类,数值计算无实际意义,但可以用来寻找众数

例如:

颜色、婚姻状况等

(2)二元属性

布尔属性,一个二元属性只有两种状态,0或1。

对称的二元属性指属性的两个状态具有同等价值,相同权重,如性别。

不对称的二元属性中,属性的两个状态的重要性是不同的,如HIV阳性和HIV阴性。

天生的分类属性,无计算含义,类似标称变量

对称性有特殊含义和作用

(3)序数属性

序数型属性的值之间是有顺序关系的,如讲师、副教授、教授可以比较,但是无法表达差异大小

众数、中位数等有含义,但是均值没有含义可用于连续数值的离散化

标称、二元和序数属性都是定性的

(4)数值属性定量的

区间标度属性比例标度属性

–如何对属性的区间标度变量和二元变量进行相似度度量?

区间标度变量:

最简单的计算——求差

区间标度变量距离:

欧几里得距离、曼哈顿距离二元变量的相似度度量分对称、非对称两种

–基本统计描述有哪些?

1)总量描述:

总量、总数

2)中心趋势描述:

均值、中位数、众数、中列数

3)相对描述

结构相对指标:

部分比总体

比例相对指标:

总体中的A比总体中的B

比较相对指标:

不同对象同属性比较

强度相对指标:

有关系的两个总量指标对比动态相对指标:

统计期比基期

4)变异描述

又称标志变动度,综合反映各个单位标志值差异的程度变异指标反映总体各单位标志值的分布趋势

标志变异越大,平均数的代表性越小;标志变异越小,平均数的代表性越大

–基本统计描述该如何使用?

使用简单统计方法:

总数、平均数、中位数、占比、标准差、方差等环比、同比、超过阈值的变化、跟以前若干统计期的平均数相比

相关分析

•找到两个变量之间的关联关系回归分析

•对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个一直量来推测另一个未知量

•通过定性分析来确定哪个是自变量,哪个是因变量

–为什么要进行数据可视化?

可以借助图形化手段,清晰有效的传达和沟通信息。

可以帮助人们理解分析数据。

–数据可视化的七个阶段是什么?

获取、分析、过滤、挖掘、表达、修饰、交互

–数据可视化的解决的重点问题是什么?

可视化的七个重点问题:

数据来源、数据结构、关注信息、分析处理、视觉模型、清晰易读、操作控制

–什么是ETL,ETL包括哪些主要步骤?

–数据的抽取(Extract)、转换(Transform)、装载(Load)的过程目标:

–数据优化。

以最小代价(包括对日常操作的影响和对技能的要求)将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据

–执行ETL需要考虑哪些原则?

–应尽量利用数据中转区对运营数据进行预处理。

保证数据的安全性、集成与加载的高效性。

–ETL的过程应是主动“拉取”,而不是从内部“推送”,其可控性将大为增强。

–流程化的配置管理和标准协议

–数据质量的保证

–数据质量问题包括哪些,由什么原因导致?

–正确性(Accuracy):

数据是否正确体现在现实或可证实的来源

–完整性(Integrity):

数据之间的参照完整性是否存在或一致

–一致性(Consistency):

数据是否被一致的定义或理解

–完备性(Completeness):

所有需要的数据是否都存在

–有效性(Validity):

数据是否在企业定义的可接受的范围之内

–时效性(Timeliness):

数据在需要的时间是否有效

–可获取性(Accessbility):

数据是否易于获取、易于理解和易于使用数据质量原因

–业务系统不同时期数据模型不一致

–业务系统不同时期业务过程有变化

–各个源系统之间相关信息不一致

–遗留系统和新业务、管理系统数据集成不完备带来的不一致性

–源系统缺少输入验证过程,不能阻止非法格式的数据进入系统

–可以验证但不能改正数据,验证程序不能发现格式正确但内容不正确的错误

–源系统不受控制的更改,而这种更改不能及时的传播到受影响的系统

–数据由多个交叉的访问界面,难以统一管理数据质量问题

–缺少参照完整性检查低劣的源系统设计

–数据转换错误,比如ETL过程错误或数据迁移过程的错误

–源系统与数据仓库系统的数据组织方式完全不同

–ETL的常见问题包括哪些?

–字符集问题

–缓慢变化维处理

–增量、实时同步的处理

–错误数据的检测

–变化数据的捕获

–抽取异常中止的处理

–数据库和数据仓库有什么区别?

–数据仓库有哪些特性?

数据仓库是一个面向主题的、集成的、非易失的(不可修改)且随时间变化的数据集合,用来支持管理人员的决策。

面向主题:

–主题是在较高层次上对数据抽象

–面向主题的数据组织分为两步骤

•抽取主题

•确定每个主题所包含的数据内容

–每个主题在数据仓库中都是由一组关系表实现的集成:

–数据仓库的数据是从原有的分散数据库数据中抽取来的

–消除数据表述的不一致性(数据的清洗)

–数据的综合数据不可更改

–数据仓库的主要数据操作是查询、分析

–不进行已有数据的修改

–删除过期数据、添加新数据以批量方式周期性进行

–时间窗

–数据仓库强化查询、淡化并发控制和完整性保护等技术随时间变化

–不断增加新的数据内容

–不断删除旧的数据内容

–定时综合

–数据仓库中数据表的键码都包含时间项,以标明数据的历史时期

–建立数据仓库要考虑哪些问题?

–主题域

l针对特定目标

l业务驱动/导向

l按需确定

l长期规划/短期针对性方案

–粒度层次

l是指数据仓库的数据单位中保存数据的细化或综合程度的级别

l粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多

l粒度影响数据仓库中数据量的大小

l粒度问题是设计数据仓库的一个重要方面

–分割策略

l是指把数据分散到各自的物理单元中去,以便能分别独立处理,提高数据处理效率

l是粒度之后的第二个主要设计问题

l两个层次的分割

n系统层:

DBMS,一种定义

n应用层:

开发者,多种定义

l多种分割的标准

n日期:

最常用的

n地理位置

n组织单位

–数据组织形式

l简单堆积

l轮转综合

n数据按一定的格式进行轮转的累加

l简化直接

n按一定的时间间隔,对数据进行提取,是操作型数据的一个快照

l连续

n把新的快照追加到以前的连续数据上去

–数据追加策略

•数据仓库的数据初装完成以后,再向数据仓库输入数据的过程称为数据追加

–体系化环境

–是在一个企业或组织内部,由各面向应用的OLTP数据库及各级面向主题的数据仓库所组成的完整的数据环境

–什么是数据维度,针对数据维度有哪些操作?

数据存在多个维度

–维:

数据的业务解释角度

•时间、item、地理„

–维的层次:

维度可能存在细节程度不同的多个描述方面,称为维的层次

•时间:

年、季度、月、周维度分析的基本动作

–切片

•选取特定的维度

–旋转

•自变量-因变量

–上卷

•粒度由低变高

–下钻

•粒度由高变低

–星型模式和雪花模式的异同有哪些?

星型模式

–事实表(facttable),存放基本数据,相关主题的数据主体(BCNF)

–维(dimension),影响、分析主体数据的因素

–量(measure),事实表中的数据属性

–维表(dimensiontable),表示维的各种表

–维是量的取值条件,维用外键表示

–以事实表为中心,加上若干维表,组成星型数据模式

•雪花模式

–维一般是由若干层次组成

–把维按其层次结构表示成若干个表

–规范化、节省存储空间

–但需多做连接操作

–数据分析模型有哪些?

•绝对模型

–静态数据分析

–只能对历史数据进行值的比较,描述基本事实

–用户交互少

•解释模型

–静态数据分析

–在当前多维视图的基础上找出事件发生的原因

•思考模型

–动态数据分析

–多维分析

–在决策者的参与下,找出关键变量

–需要高级数据分析人员的介入

•公式模型

–动态性最高的一类

–自动

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1