作业集合1.docx

资源描述

作业集合1.docx

《作业集合1.docx》由会员分享，可在线阅读，更多相关《作业集合1.docx（24页珍藏版）》请在冰豆网上搜索。

作业集合1.docx

作业集合1

数据挖掘（datamining，DM）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据仓库与数据挖掘关系密切数据仓库和数据集市是数据挖掘的一种数据源，数据仓库促进数据挖掘的发展，数据挖掘可以看作是联机分析处理的高级阶段，是数据仓库的一个应用。

（1）数据仓库并不是数据挖掘的必要条件：

1.数据挖掘库可能是数据仓库的一个子集，而不一定非的是物理上单独的数据库。

2.为了数据挖掘也不一定要建立数据仓库

（2）基于在开发数据仓库过程中所进行的数据集成、清洗和准备，才使数据仓库对于数据挖掘有着重要的价值。

（3）可以说，数据仓库为数据挖掘提供了更广阔的活动空间。

数据仓库完成数据的收集、集成、存储、管理等工作，数据挖掘面对的是经初步加工的数据，使得数据挖掘能更专注于知识的发现。

又由于数据仓库所具有的新特点，对数据挖掘技术提出了更高的要求。

另一方面，数据挖掘为数据仓库提供了更好的决策支持，同时促进了数据仓库技术的发展。

因此，数据挖掘和数据仓库技术要充分发挥潜力，就必须结合起来。

1、ETL的概念：

ETL是指数据的提取、转换、加载。

数据提取通常是指由多个、异种、外部数据源收集数据。

数据清理：

监测数据中的错误，能及时纠正它们。

数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些商务规则的计算，主要是将不一致数据转换，数据粒度的转换，商务规则的计算。

ETL的意义：

ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据挖掘的基础。

ETL是数据仓库中的非常重要的一环。

它是承前启后的必要的一步。

相对于关系数据库，数据仓库技术没有严格的数学理论基础，它更面向实际工程应用。

所以从工程应用的角度来考虑，按着物理数据模型的要求加载数据并对数据进行一些系列处理，处理过程与经验直接相关，同时这部分的工作直接关系数据仓库中数据的质量，从而影响到联机分析处理和数据挖掘的结果的质量。

2、元数据的概念：

元数据是指描述数据仓库内数据的结构和建立方法的数据，是关于数据的数据，是对数据的结构、内容、键码、索引等的一中描述。

元数据的意义：

元数据在于以拥有的中心信息仓库告知用户数据仓库中有什么、它们来自何处、它们在谁的管辖之下以及更多其它信息。

也可以通过使用查询工具对元数据进行访问而得知数据仓库中有什么、在哪里找到它、哪些人被授权可以访问它以及已经预先求出的汇总数据有哪些。

具体用途有：

A、起到辅助决策分析过程中定位数据仓库的目录作用。

B、数据从业务环境向数据仓库环境传送时数据仓库的目录内容。

C、指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择。

3、粒度的概念：

粒度指数据仓库的数据单位中保存数据的细化或综合程度的级别。

粒度可以分为两种形式，第一种粒度是对数据仓库中的数据的综合程度高低的一个度量，它既影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的种类。

细化程度越高，粒度级就越小，综合程度越低，回答查询的种类越多；粒度越高，综合程度越高，查询的效率也越高。

另一种粒度形式是样本数据库。

它根据给定的采样率从细节数据库中抽取出一个子集。

这样样本数据库中的力度就不是根据综合程度的不同来划分的，而是将有采样率的高低来划分，采样粒度不同的样本数据库可以具有相同的数据综合程度。

粒度的意义：

在数据仓库环境中粒度之所以是主要的设计问题，是因为它深深地影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答的查询类型。

在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。

4、数据分割的概念

数据分割是把数据分散到各自的小物理单元中去，以便能分别独立处理，提高数据处理效率，它是对数据仓库中的数据进行第二个主要的设计。

数据分割的意义任何给定的数据单元属于且仅属于一个分割它们能够独立的处理，分割后的小的数据单元具有比大物理单元更大的灵活性，能够实现重构、索引、顺序扫描、重组、恢复和监控等功能。

数据分割的常用标准：

按时间、商业行业、地理位置、组织单位等。

这些标准都是由开发人员来选择，且还要选择是在应用层上进行分割，还是在系统层上进行分割。

5、快照的概念快照是为一些时间的发生而产生的。

这些事件一类是随机发生的离散活动，这些离散活动如收到货物，需要记录下来；另一类事件是在规定的时间点，快照就会触发。

由事件触发快照的，其基本结构由四部分构成：

键码（key）、时间单元、只和关键码相关联的初始数据、与初始数据或关键码无直接关系的二次数据。

其中时间单元一般指快照描述事件已经发生的时刻，有时捕捉数据的时刻。

快照的意义：

快照主要是能够进行在线备份与当存储设备发生应用故障或者文件损坏时可以进行快速的数据恢复，将数据恢复某个可用的时间点的状态。

快照的另一个作用是为存储用户提供了另外一个数据访问通道，当原数据进行在线应用处理时，用户可以访问快照数据，还可以利用快照进行测试等工作。

所有存储系统，不论高中低端，只要应用于在线系统，那么快照就成为一个不可或缺的功能。

6、轮转综合数据存的概念：

轮转综合数据存储是数据按一定的格式进行轮转的累加并存储。

只有在轮转综合文件中的数据才能被输入到不同的结构形式中，而从操作型数据导数据仓库环境中的数据处理方法同简单的堆积结构相同。

轮转综合数据存储的意义：

首先，每天进行数据综合。

再每周累加，月底再将每周的数据加到一起，并放于第一个每月响应的数据位置处，然后每周数据位置清零。

到了年底，将每月数据累加，放入第一个年度响应的数据位置处，然后每月数据位置清零。

它的特点是非常集中、一些有细节丢失火提取越久的数据越不详细。

1、数据清理、数据集成、数据变换、数据规约各自的目的是什么？

有哪些常用方法？

数据清理的目的：

去掉噪声和无关数据，用其例程通过填写空缺的值，平滑噪声数据，识别，删除孤立点，并解决不一致来清理数据。

常用的方法：

处理空缺值;可用以下方法：

忽略该记录、去掉属性、手工填写空缺值、使用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值。

噪声数据的处理:

噪声数据是一个测量变量中的随机错误或偏差。

可用以下方法：

分箱：

按箱平均值平滑，按箱中值平滑，按箱边界平滑等；聚类：

聚类将相似的值组织成群或类，落在群或类外的值就是孤立点，也就是噪声数据；回归，让数据适合一个函数（如回归函数）来平滑数据。

数据集成的目的：

将多个数据源中的数据结合起来存放在一个一致的数据存储中.。

常用的方法：

模式集成：

主要是实体识别问题，利用元数据（关于数据的数据），这可以避免模式集成中的错误。

数据变换的目的：

把原始数据转换成为适合数据挖掘的形式。

常用的方法：

用平滑消除噪声数据、聚类来对数据进行汇总、数据概化使用高层次概念替换低层次“原始”数据来进行概念分层、规范化将属性数据按比例缩放，使之落入一个小的特定区间、属性构造（特征构造）来帮助提高精度和对高维数据结构的理解。

、数据归约的目的：

用产生数据的归约表示，使数据的范围减小，减少数据量。

常用的方法：

、数据立方聚集、维归约、数据压缩、数值归约、离散化和概念分层等。

2、对数据挖掘的数据为什么要进行预处理？

数据挖掘过程模型是为应用数据挖掘技术提供一种系统化的技术实施方法。

围绕数据挖掘过程需要涉及：

问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所建的模型等。

数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数，或者是处理一些不好的数据，从而改善实例数据的质量和提高数据挖掘的速度

（1）现实世界的数据是“肮脏的”，很容易受噪声数据，空缺数据和不一致数据的侵扰，所以在用数据挖掘系统对数据进行挖掘时，必须对数据进行预处理，去掉含噪声，空缺的，和不一致的数据。

不完整的——数据内涵出现不一致情况，含噪声的——感兴趣的属性没有值，不一致的——数据中存在着错误、或异常（偏离期望值）的数据，重复、维度高

（2）没有高质量的数据，就没有高质量的挖掘结果：

高质量的决策必须依赖高质量的数据，数据仓库需要对高质量的数据进行一致地集成。

所谓数据清理，就是用其例程通过填写空缺的值，平滑噪声数据，识别，删除孤立点，并解决不一致来清理数据。

数据清洗——处理空缺值数据并不总是完整的；在分析一个商场销售数据时，发现有多个记录中的属性值为空，如：

顾客的收入属性对于为空的属性值

引起空缺值的原因设备异常，与其他已有数据不一致而被删除，因为误解而没有被输入的数据，在输入时，有些数据应为得不到重视而没有被输入，对数据的改变没有进行日志记载。

空缺值要经过推断而补上1.忽略该记录2.去掉属性3.手工填写空缺值4.使用默认值5.使用属性平均值6.使用同类样本平均值7.预测最可能的值

等深分箱法（统一权重）：

按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱的权重，也称箱子的深度。

例：

客户收入属性income排序后的值（人民币元）：

800100012001500150018002000230025002800300035004000450048005000

设定权重（箱子深度）为4，上述例子分箱后的结果如下：

箱1：

800100012001500

箱2：

1500180020002300

箱3：

2500280030003500

箱4：

4000450048005000

等宽分箱法（统一区间）：

在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

例：

客户收入属性income排序后的值（人民币元）：

800100012001500150018002000230025002800300035004000450048005000

设定区间范围（箱子宽度）为1000元人民币，分箱后：

箱1：

80010001200150015001800

箱2：

20002300250028003000

箱3：

350040004500

箱4：

48005000

用户自定义区间：

用户根据需要自定义区间。

例：

客户收入属性income排序后的值（人民币元）：

800100012001500150018002000230025002800300035004000450048005000

用户自定义：

如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组，分箱后

箱1：

800

箱2：

100012001500150018002000

箱3：

2300250028003000

箱4：

35004000

箱5：

450048005000

最小熵：

使在各区间分组内的记录具有最小的熵。

■熵——信息的度量（利用概率来度量）

■信息量的直观定义：

信息量的大小取决于信息内容消除人们认识的“不确定程度”，所消除的不确定程度越大，则所包含的信息量就越大。

■数据集的熵越低，说明数据之间的差异越小。

最小熵法就是为了使每箱中的数据具有最好的相似性。

■分箱后对数据进行平滑处理

①按平均值平滑：

对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。

■设定区间范围（箱子宽度）为1000元人民币，分箱后的结果

箱1：

80010001200150015001800

箱2：

20002300250028003000

箱3：

350040004500

箱4：

48005000

•对上面的结果按平均值平滑：

箱1：

130013001300130013001300

箱2：

25202520252025202520

箱3：

400040004000

箱4：

49004900

②按边界值平滑:

用距离较小的边界值替代箱中每一数据。

■设定区间范围（箱子宽度）为1000元人民币，分箱后的结果

箱1：

80010001200150015001800

箱2：

20002300250028003000

箱3：

350040004500

箱4：

48005000

•对上面的结果按边界值平滑：

箱1：

800800800180018001800

箱2：

20002000200030003000

箱3：

350035004500

箱4：

48005000

③按中值平滑：

取箱子的中值，用来替代箱子中的所有数据。

■设定区间范围（箱子宽度）为1000元人民币，分箱后的结果

箱1：

80010001200150015001800

箱2：

20002300250028003000

箱3：

350040004500

箱4：

48005000

•对上面的结果按中值平滑：

箱1：

135013501350135013501350

箱2：

25002500250025002500

箱3：

400040004000

箱4：

49004900

第六章

分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类。

决策树，就是一个类似流程图的树型结构，其中树的每个内部结点代表对一个属性（取值）的测试，其分支就代表测试的每个结果；而树的每个叶结点就代表一个类别。

树的最高层结点就是根结点。

ID3算法：

1、决策树方法在分类中有什么作用？

答：

决策树是以实例为基础的归纳学习算法，决策树方法在分类中具有可理解性和直观性（结构简单、效率高）的优点。

使用决策树进行分类，就是采用自顶向下的递归方式，在内部结点上根据推理出的分类规则选用一个属性进行分割，每个分支都是分割的一部分，叶子结点表示一个分部；此外，通过树的修剪，去掉一些可能是噪音或者异常的数据。

决策树方法在分类中的作用如下：

（1）速度快：

计算量相对较小，且容易转化成分类规则。

只要沿着树根向下一直走到叶，沿途的分裂条件就能够唯一确定一条合取规则。

（2）准确性高：

决策树挖掘出的分类规则准确性高，便于理解，可以清晰的显示哪些字段比较重要。

2、根据案例中叙述，基于ID3算法构造的决策树，ID3算法的核心和具体步骤如何？

并就案例说明如何通过决策树的构造，建立相应的营销方案和决策策略。

答：

ID3算法的核心——在决策树各级节点上选择属性时，用信息增益作为属性的选择标准，以使得在每一个非叶节点进行测试时能获得关于被测试记录最大的类别信息。

ID3算法的具体步骤如下：

1）检测所有属性的信息增益，选择信息增益最大的属性作为根结点，具体方法如下：

①计算给定的训练集分类的信息期望②计算属性A，每个取值的信息期望I（A=aj），j=1,2,……，n③计算属性A信息熵E（A）④计策属性A的信息增益Gain（A）

2）由根节点属性的不同取值建立分支；3）采用递归的方法，对各分支的子集递归调用上述方法建立决策树结点的分枝，直到所有子集仅包含同一类别的数据为止，最后得到一棵决策树，它可以用来对新的样本进行分类。

3、不同经营风格的决策者在作决策时，是否会有什么不同？

答：

决策风格对决策效果具有重大的影响，只有把适当的风格运用于特定的决策任务中，才能选择正确的行动方案。

不同经营风格的人之间的差异主要表现在：

1.对决策制定的方式与步骤有不同的偏好。

2.对行动的迫切性有不同的反应。

3.对待风险的态度与处理办法互有差异。

由于信息的不完整性，其做出决策遵循的是“满意原则”，而不是“最优原则”。

经营风格又决定了决策者决策倾向，主要分为以下三种类型：

冒险型：

只要能带来巨额的经决策者总是愿意冒险。

这种经营风格的人最善于在两种难分上下的行动方案中做决策，因为冒险风格的人对于行动方案的正面后果特别敏感，只注意到这些行动方案成功的可能性，而对其负面后果则视而不见。

但巨大的常常伴随着巨大的损失，冒险风格的人随时都有破产的可能，突出表现为大起大落。

谨慎型：

这种经营风格的主要特征是使损失的危险降到最小，谨慎决策不仅安全，而且可以带来虽不巨大但很稳定的收益。

决策者不愿意冒险，不受潜在奖励的诱惑，时刻注意到事情可能变坏的趋向，并且选择能够避免导致毁灭性结局的决策。

但容易错失良机，忽视了潜在的收益。

防御型：

这种风格的人在做决策时主要考虑的是，不让自己以后感到后悔，他们既力求把损失降到最小，又力求不使自己坐失良机，既不愿意冒遭受巨大损失的，又不想放弃可能得到的收益。

在没有足够信息确保决策的正确的时候，防御型的人可以做出最佳选择。

如果对问题疑惑不解的话，那么，采取一种折衷的决策常常是最安全和最成功的。

倘若这种决策是错误的，那么，损失被降到最小；倘若这种决策是正确的，收益仍然可以得到。

4、目前基于决策树方法的数据挖掘工具有哪些？

主要应用在哪些方面？

答：

目前已经有许多开发商可以提供支持决策树方法的软件产品。

微软公司也提供了决策树算法和软件工具。

Isoft已与BussinessObjects公司达成合作协议，根据协议，BussinessObjects公司将负责销售包含有Isoft决策树方法的数据挖掘模块。

SPSS公司向市场上销售的是一种基于SI-CHAID算法的数据挖掘产品。

其他许多开发商则采用了将几种算法组合到一起的方法以增强其产品的性能。

此外，还有许多综合数据挖掘方法的软件包也都可以支持决策树算法，这类产品的例子包括：

IBM公司的IntelligentMiner和Clementine,ThinkingMachine公司的Darwin以及SiliconGraphic公司的Mineset等。

基于决策树较为流行的数据挖掘工具有KnowledgeSEEKER。

KnowledgeSEEKER是一个由Angoss公司卡发的基于决策树的数据分析程序。

该程序具有相当完整的分类树分析功能。

KnowledgeSEEKER采用了两种著名的决策树分析算法：

CHAID和CART算法。

此外，基于决策树方法的数据挖掘工具还有：

LMDT，OCI，SE-Learn，SIPINA-W，AC2，C4.5，IND，KATE-Tools，KnowledgeSEEKER，SPSSCHAID，CART、DecisionPro3.0，LitigationRiskAnalysis、LitigationRiskAnalysis，SAS和SGI等公司的数据挖掘系统。

其中，KnowledgeSEEKER主要应用与用户界面设计。

决策树方法主要应用在以下领域：

商业领域：

决策树所能解决的典型商业问题有：

客户关系管理、数据库营销、客户群体划分、交叉销售等市场分析行为，以及客户流失分析、客户信用计分及欺诈发现，工业领域：

故障诊断、工业生产过程控制等。

医学领域：

疾病诊断治疗、基因与高分子序列分析、医院信息系统挖掘及医疗政策分析等。

贝叶斯分类器是一个统计分类器。

它们能够预测类别所属的概率，如：

一个数据对象属于某个类别的概率。

●

从理论上讲与其他分类器相比，贝叶斯分类器具有最小的错误率。

●但实际上由于其所依据的类别独立性假设和缺乏某些数据的准确概率分布，从而使得贝叶斯分类器预测准确率受到影响。

●但各种研究结果表明：

与决策树和神经网络分类器相比，贝叶斯分类器在某些情况下具有更好的分类效果。

●贝叶斯分类器的另一个用途就是它可为那些没有利用贝叶斯定理的分类方法提供了理论依据。

●例如在某些特定假设情况下，许多神经网络和曲线拟合算法的输出都同贝叶斯分类器一样使得事后概率取最大

关联规则的优缺点

优点：

可以产生清晰有用的结果；支持间接数据挖掘；可以处理变长的数据；计算的消耗量是可以预见的；

缺点：

当问题变大时，计算量增长得厉害；难以决定正确的数据；容易忽略离群数据；

提高Apriori的有效性：

散列hash；抽样；减少交易的个数；动态的项目集计数；层次结构；序列模式；依据日历的购物篮分析；

中国银行广东分行数据仓库成功应用案例

1、中国银行广东分行数据仓库案例中研究的主题是什么？

数据仓库主题规划有什么重要性？

答：

（1）案例中研究的主题是以客户为中心的信用卡业务分析系统。

其中包括客户消费行为分析、个人信用评估、特约商户分析、透支风险分析、授权交易分析、交易动态分析、业务发展分析、效益综合分析、国际卡分析功能、金卡分析、客户关系管理以及一对一个性化营销等应用领域。

（2）数据仓库的主题是一个抽象的概念，它是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象名词，每一个主题都是决策者所关心的问题。

数据仓库中的数据是面向主题进行的数据组织。

数据源的选择要与建立的数据仓库主题相对应，所建立的多维事实表都是面向这个主题，整个系统也是按照这个主题对数据进行查询、分析。

简而言之，数据仓库主题规划是建立数据仓库系统的前提与方向。

2、中国银行广东分行数据仓库的商业价值是什么？

答：

中国银行广东分行数据仓库的商业价值是专门针对信用卡业务的商业智能应用。

它整合了银行内部信用卡相关的所有重要数据，通过对数据进行快速而准确的分析和挖掘，以及提供的“成本收益、风险控制、绩效评估、客户管理、营销战役”等全方位、方面多层次的辅助决策支持手段，帮助银行领导在短时间内对市场变化及趋势做出更好的战略性商业决策，以挖掘重点客户、提高服务质量、减少运作成本，并达到风险管理和控制、客户关系管理与个性化服务、商户分析与市场策略、费用控制与利润分析四大应用目标，为银行带来有利的市场竞争优势。

3、根据该数据仓库的体系结构，谈谈数据仓库系统主要由哪几部分组成？

答：

该数据仓库的体系结构建在企业级数据仓库基础上，它整合了银行内部信用卡相关的所有重要数据。

具体地，该数据仓库系统由硬件和软件两大部分组成：

在硬件层面，系统采用一台IBMRS6000M80小型机分两个LPAR，一个LPAR作为数据存储服务器和ETL服务器，一个LPAR作为应用服务器和Web服务器，这些服务器通过局域网连接各类相关的分析客户端；在软件层面，系统采用DB2UDB作为数据存储和管理软件，ETL开发工具采用UNIXSHELL结合DB2SQLProcedure，前端数据分析工具使用HyperionIntelligence。

根据以上分析，数据仓库的体系结构主要通过以下几个组成部分：

1.数据源。

包括了最底层的企业级运作数据库系统（如信用卡、国际卡、财会等系统）及其它所有重要的外部数据。

（2）ETL。

对数据进行提取、转化和加载，集成数据，成为联机分析处理、数据挖掘的基础；作为BI/DW的核心和灵魂，能够按照统一的规则集成并提高数据的价值，是实施数据仓库的重要步骤。

（3）数据存储。

通过数据库管理系统（DBMS）、数据集市实现。

（4）分析模型。

为信用卡业务有关各级管理人员、统计分析人员、风险监控人员，特别是业务发展人员为提供灵活有效的实时数据分析/决策支持环境。

如可进行业务经营分析、客户分析、商务分析和国际卡分析四大部分。

2.数据实现。

运用数据挖掘技术、联机分析技术（OLAP）以及先进的决策支持与报表工具，辅助决策人员、管理人员、分析人员和业务人员能够便捷地获得并分析客户特征信息、各交易要素信息以及市场统计信息，从而支持成本收益、风险控制、绩效评估、客户管理、营销战役等决策目标的实现。

4、通过案例的讨论分析，谈谈你对数据仓库技术应用的体会。

答：

数据仓库技术能帮助企业将原来事务处理的数据转变为决策

展开阅读全文