数据挖掘重点版.docx-资源下载

数据挖掘重点版.docx

1、数据挖掘重点版题型：1、单项选择题（每小题1分，共10分） 2多项选择题（每小题2分，共20分）3简答题（每小题15分，共30分） 4、算法实现（每小题20分，共40分）重点1、企业资源的要素组成企业资源包括如下要素。有形资源：(1) 人：人力资源。(2) 财：资金资源。 (3) 物：包括材料、设备和能源在内的资源。无形资源：数据、信息和知识2、】3、数据资源的要素组成数据资源由以下3 个要素组成 (1) 有用的数据。(2) 作为企业神经系统的信息基础设施(Information Infrastructure)，如计算机硬件、软件以及网络系统。(3) 人的因素，如系统人员和用户。4、数据资源管

2、理生命周期的各个过程(1) 数据获取：确保能够收集到必要的原始数据。（销售小票、员工工资单）(2) 数据加工：将原始数据加工成为有用的信息。（统计报表、工作总结）(3) 数据利用：确保能够在适当的时间、以适当的形式得到必要的数据和信息；从数据中发现决策所需要的知识。（发展战略、销售计划）(4) 数据报废：在适当的时候废弃过时的数据，并代之以及时、准确的数据。5、数据资源管理的技术框架,(1) 面向业务操作的数据资源管理：包括数据库、事务处理系统(TPS)以及管理信息系统(MIS)。(2) 面向决策分析的数据资源管理：包括数据仓库以及与之紧密相关决策支持系统(DSS)。(3) 知识资源的管理

3、和利用：包括知识库以及基于知识的系统。6、数据库与数据仓库的区别7、数据仓库的关键特征数据仓库关键特征一面向主题面向主题(subject-oriented)，数据仓库显著区别于关系数据库系统的一个特征数据仓库关键特征二数据集成数据仓库的集成性(integrated)：是指根据决策分析的要求，将分散于各处的源数据进行抽取、筛选、清理、综合等工作，使数据仓库的数据具有集成性。数据仓库关键特征三随时间而变化数据仓库是从历史的角度提供信息数据仓库关键特征四数据不易丢失8、商务智能的四大部分包含：商务分析、OLAP、数据挖掘和数据仓库四大部分9、多维数据模型的存储形式在多维数据模型中，数据以数据

4、立方体(data cube) 的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联，称为维表。多维数据模型围绕中心主题组织，该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量10、数据仓库应用的关键步骤1、数据源数据仓库的数据源是指存储在数据仓库中的数据来源，数据仓库在使用过程中所涉及的数据来源，主要包括：（业务数据历史数据办公数据 Web数据外部数据数据源元数据2、数据准备数据的标准化处理数据的过滤与匹配数据的净化处理标明数据的时间戳确认数据质量.元数据抽取和创建3、数据重整

5、数据的集成与分解数据的概括与聚集数据的预算与推导数据的翻译与格式化数据的转换与映射4、数据仓库创建数据仓库的建模数据的概括数据的聚集数据的调整与确认建立结构化查询5、建立数据集市知识挖据库6、数据仓库的数据存取与使用11、数据仓库的概念模型数据仓库概念模型的设计是给出一个数据仓库的粗略蓝本，以此为设计图纸来确认数据仓库的设计者是否已经正确地了解数据仓库最终用户的决策信息需求。在概念模型的设计中，必须将注意力集中在对商务的理解上，要保证管理者的所有决策信息需要都被归纳进概念模型。在构建数据仓库的概念模型时，可以采用在业务数据处理系统中经常应用的实体联系模型：E-R图12、数据仓库的粒

6、度模型在蔡博课件3的第97-103页13、元数据元数据描述了数据仓库的数据和环境, 即关于数据的数据 (data about data)。它描述了数据的结构、内容、码、索引等项内容。-传统数据库中的数据字典是一种元数据, 但在数据仓库中, 元数据的内容比数据库中的数据字典更丰富、更复杂14、OLAP 与 OLTP 的对比OLAP 是以数据仓库为基础的, 其最终数据来源与OLTP 一样均来自底层的数据库系统, 但由于二者面对的用户不同, OLTP 面对的是操作人员和低层管理人员, OLAP 面对的是决策人员和高层管理人员, 因而数据的特点与处理也明显不同。用户和系统的面向性面向顾客（事务）

7、VS. 面向市场（分析）数据内容当前的、详细的数据VS. 历史的、汇总的数据数据库设计实体联系模型(ER)和面向应用的数据库设计VS. 星型/雪花模型和面向主题的数据库设计数据视图当前的、企业内部的数据VS. 经过演化的、集成的数据访问模式事务操作VS. 只读查询（但很多是复杂的查询）任务单位简短的事务VS. 复杂的查询访问数据量数十个VS. 数百万个用户数数千个VS. 数百个数据库规模 100M-数GB VS. 100GB-数TB设计优先性高性能、高可用性VS. 高灵活性、端点用户自治度量事务吞吐量VS. 查询吞吐量、响应时间OLTPOLAP数据库数据数据库或数据仓库数据细

8、节性数据综合性数据当前数据历史数据经常营更新不更新, 但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理用户数量大用户数据相对较少面向操作人员,支持日常操作面向决策人员,支持管理需要！面向应用, 事务驱动面向分析, 分析驱动15、多维分析的基本分析动作切片(Slice) 、切块(Dice) 、旋转(Pivoting)1、切片(Slice)定义1 在多维数组的某一维上选定一组成员的动作称为切片，即在多维数组 (维1, 维2, , 维n, 变量) 中选一维，即维i，并取其一维成员(设为“维成员Vi” )，所得的多维数组的子集(维1, , 维成员Vi, , 维n, 变量)

9、称为在维i 上的一个切片。定义2 选定多维数组的一个二维子集的动作叫作切片，即选定多维数组 (维1, 维2, , 维n, 变量)中的两个维：维 i 和维j, 在这两个维上取某一区间或任意维成员，而将其余的维都取定一个维成员，则得到的就是多维数组在维i 和维j 上一个二维子集，称这个二维子集为多维数组在维i 和维j 上的一个切片，表示为：(维i，维j，变量)。2、切块(Dice)定义1 在多维数组的某一维上选定某一区间的维成员的动作称为切块，即限制多维数组的某一维的取值区间。显然，当这一区间只取一个维成员时，即得到一个切片 (切片的定义1)。定义2 选定多维数组的一个三维子集的动作称为切块。即

10、选定多维数组(维1, 维2, , 维n, 变量)中的三个维：维 i、维j 和维r，在这三个维上取某一区间或任意的维成员, 而将其余的维都取定一个维成员, 则得到的就是多维数组在维 i、维j 和维r上一个三维子集, 称该三维子集为多维数组在维 i、维j 和维r上的一个切块, 表示为：(维i,维j, 维r, 变量)。3、旋转(Pivoting)旋转即是改变一个报告或页面显示的维方向。4、下钻/上探下钻（drill down）：从汇总数据深入到细节数据进行观察或增加新维。例如，用户分析 “各地区、城市的销售情况”时，可以对某一个城市、某一年度的销售额，可以继续细分为各个季度的销售额。通过下钻的功能

11、，使用户对数据能更深入了解，更容易发现问题，做出正确的决策上探（roll up）：是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；是指自动生成汇总行的分析方法。通过向导的方式，用户可以定义分析因素的汇总行，例如对于各地区各年度的销售情况，可以生成地区与年度的合计行，也可以生成地区或者年度的合计行。16、Codd 关于 OLAP 产品的十二条评价准则（少了第十二条）准则1 OLAP 模型必须提供多维概念视图准则2 透明性准则准则3 存取能力准则准则4 稳定的报表性能准则5 客户客/服务器体系结构、准则6 维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户

12、支持能力准则准则9 非受限的跨维操作准则10 直观的数据操纵准则11 灵活的报表生成17、知识发现KDD的过程18、数据挖掘工具与传统数据分析工具的比较19、数据挖掘技术的分类（1）、根据数据挖掘任务，可以分为关联规则挖掘、数据分类规则挖掘、聚类规则挖掘、依赖性分析和依赖性模型发现，以及概念描述、偏差分析、趋势分析和模式分析等；（2）、根据所挖掘的数据库对象来看，可以分为关系型数据库、面向对象型数据库、空间型数据库、时间型数据库、多媒体型数据库和异构型数据库等；（3）、按挖掘方法分类：包括统计方法，机器学习方法，神经网络方法和数据库方法（4）其它分法：经常将数据挖掘技术分为统计分析类

13、、知识发现类和其他类型的数据挖掘技术三大类。有时也将数据挖掘技术分为预测模式和知识性模式的验证驱动（Verification-driven)和发现驱动（Discovery-driven)两大类。20、数据挖掘系统的组成)数据库、数据仓库或其它信息库：它表示数据挖掘对象是由一个（或组）数据库、数据仓库、数据表单或其它信息数据库组成。通常需要使用数据清洗和数据集成操作，对这些数据对象进行初步的处理；数据库或数据仓库服务器：这类服务器负责根据用户的数据挖掘请求，读取相关的数据；知识库：此处存放数据挖掘所需要的领域知识，这些知识将用于指导数据挖掘的搜索过程，或者用于帮助对挖掘结果的评估。挖掘算法

14、中所使用的用户定义的阈值就是最简单的领域知识；数据挖掘引擎：这是数据挖掘系统的最基本部件，它通常包含一组挖掘功能模块，以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等挖掘功能模式评估模块：该模块可根据趣味标准（interesting measure ），协助数据挖掘模块聚焦挖掘更有意义的模式知识。当然该模块能否与数据挖掘模块有机结合，与数据挖掘模块所使用的具体挖掘算法有关。显然若数据挖掘算法能够与知识评估方法有机结合将有助提高其数据挖掘的效率；可视化用户界面：该模块帮助用户与数据挖掘系统本身进行沟通交流。一方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统，以及提供挖掘

15、搜索所需要的相关知识；另一方面系统通过该模块向用户展示或解释数据挖掘的结果或中间结果；此外该模块也可以帮助用户浏览数据对象内容与数据定义模式、评估所挖掘出的模式知识，以及以多种形式展示挖掘出的模式知识。21、数据挖掘的过程数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看，数据挖掘过程主要由三个部分组成，即数据整理、数据挖掘和结果的解释评估。（1）定义商业问题|（2）建立数据挖掘库（3）分析数据（4）准备数据（5）建立模型（6）评价和解释（7）实施22、数据预处理的主要方法数据清洗（数据清理）填写空缺的值，平滑噪声数据，识别

16、、删除孤立点，解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约（消减）得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果!包括：数据聚合、消减维数、压缩数据、数据块消减等。数据离散化数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要2.Clementine中常用的建模节点神经网络、C&RT、QUEST、CHAID、Kohonen、KMeans、TwoStep、Apriori、GRI、Carma、序列、主成份/因子分析、特征选择、回归、Logistic算法：1、关联规则（Apriori算法）Apriori算法是最有影

17、响的关联规则挖掘算法之一。它的中心思想是首先通过对事务数据库进行扫描,找出支持度不小于最小支持度的所有项目,即频繁1 - 项集. 接下来的工作是循环的,每次循环分2步进行: 1)连接，对频繁k - 项集中的项进行连接. 2)减枝，在减枝这一步主要根据一个频繁项目集的任何一个子集都应该是频繁的这一思想对连接后的项目集进行筛选,删除那些子集不是频繁集的项目集,得出候选( k + 1) -项集.即对数据库进行扫描, 计算候选项的支持度,从候选集中删除支持度小于最小支持度的候选项, 进而得出频繁( k + 1) -项集. 循环的终止条件是频繁k - 项集为空, 也就是说再也找不出相关联的项目了.连

18、接: 用Lk-1 自连接得到Ck 修剪: 一个k-项集，如果他的一个k-1项集（他的子集）不是频繁的，那他本身也不可能是频繁的。伪代码:Ck : Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk != ; k+) do beginCk+1 = candidates generated from Lk ;for eachtransaction t in database doincrement the count of all candidates in Ck+

19、1that are contained in tLk+1 = candidates in Ck+1 with min_supportendreturn k Lk ; #Apriori算法由连接和剪枝两个步骤组成。连接：为了找Lk，通过Lk-1与自己连接产生候选k-项集的集合，该候选k项集记为Ck。Lk-1中的两个元素L1和L2可以执行连接操作的条件是Ck是Lk的超集，即它的成员可能不是频繁的，但是所有频繁的k-项集都在Ck中（为什么）。因此可以通过扫描数据库，通过计算每个k-项集的支持度来得到Lk 。为了减少计算量，可以使用Apriori性质，即如果一个k-项集的(k-1)-子集不在Lk-1中

20、，则该候选不可能是频繁的，可以直接从Ck删除。2、聚类分析（二元变量相异度）二元变量（binary variable）一个二元变量只有两种状态：0或1； . smoker来表示是否吸烟一个对象可以包含多个二元变量。二元变量的可能性表：如何计算两个二元变量之间的相似度如何计算两个二元变量之间的相似度一种差异计算方法就是根据二值数据计算差异矩阵。如果认为所有的二值变量的权值均相同，那么就能得到一个 22 条件表，如图所示；表中q表示在对象i和对象j中均取1的二值变量个数；r表示在对象i取1, 但在对象j中取0的二值变量个数；s表示在对象i中取0 而在对象j中取1 的二值变量个数；t则表示在对象i和对象j中均取0 的二值变量个数。二值变量的总个数为p，那么就有： p=q+r+s+t对称的VS. 不对称的二元变量对称的二元变量指变量的两个状态具有同等价值，相同权重；. 性别基于对称的二元变量的相似度称为恒定的相似度，可以使用简单匹配系数评估它们的相异度：不对称的二元变量中，变量的两个状态的重要性是不同的；. HIV阳性VS HIV阴性基于不对称的二元变量的相似度称为非恒定的相似度，可以使用Jaccard系数评估它们的相异度例: 二元变量之间的相异度（病人记录表）Name是对象标识gender是对称的二元变量其余属性都是非对称的二元变量

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？