ImageVerifierCode 换一换
格式:DOCX , 页数:32 ,大小:63.38KB ,
资源ID:5900918      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5900918.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(参考答案of数据挖掘.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

参考答案of数据挖掘.docx

1、参考答案of数据挖掘第一章以下属于数据挖掘任务的是 根据性别划分公司的顾客计算公司的总销售额预测一对骰子的结果利用历史记录预测公司的未来股价可以在不同维度合并数据,从而形成数据立方体的是 数据库数据源数据仓库数据库系统目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是 数据清洗数据集成数据变换数据归约下述四种方法哪一种不是常见的分类方法 决策树支持向量K-Means 聚类朴素贝叶斯分类以下任务中,属于数据挖掘技术在商务智能方面应用的是 欺诈检测垃圾邮件识别根据因特网的搜索引擎查找特定的 Web页面定向营销异常检测的应用包括 网络攻击预测某股票的未

2、来价格计算公司的总销售额根据性别划分公司顾客将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务 频繁模式挖掘分类和预测数据预处理数据流挖掘KDD1 数据挖掘与知识发现 以下有关离群点的分析错误的选项是 一般情况下离群点会被当作噪声而丢弃离群点即是噪声数据在某些特殊应用中离群点有特殊的意义信用卡在不常消费地区突然消费大量金额的现象属于离群点分析范畴以下关于模式识别的相关说法中错误的选项是 模式识别的本质是抽象出不同事物中的模式并由此对事物进行分类医疗诊断属于模式识别的研究内容之一 的指纹解锁技术不属于模式识别的应用自然语言理解也包含模式识别问题不属于数据挖掘的应用领域。商务智能信息识别

3、搜索引擎医疗诊断目前数据分析和数据挖掘面临的挑战性问题不包括 数据类型的多样化高维度数据离群点数据分析与挖掘结果可视化常见的机器学习方法有 监督学习、无监督学习、半监督学习数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。频繁模式是指数据集中频繁出现的模式离群点是指全局或者局部范围内偏离一般水平的观测对象联机分析处理是数据仓库的主要应用分类是指通过建立模型预测离散标签,回归是通过建立连续值模型推断新的数据的某个数值型属性。数据库是面向事务,数据仓库是面向 主题数据挖掘主要侧重解决的四类问题: 分类、聚类、关联、预测数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概

4、括和总结。特征化是一个目标类数据的一般特性或特性的汇总。无监督学习可以在没有标记的数据集上进行学习。 对聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比拟相似而不同组对象间差异较大。 对事务数据库的每个记录代表一个事务。 对数据仓库和数据库其实是相同的,都是数据或信息的存储系统。 错区分是将目标类数据对象的一般特性与一个或多个比照类对象的一般特性进行比拟。 对离群点因偏离一般水平而不需要考虑和研究。 错聚类过程的输入对象有与之关联的目标信息。 错数据挖掘的主要任务是从数据中发现潜在的规那么,从而能更好的完成描述数据、预测数据等任务。 对数据挖掘的目标不在于数据采集策略,而在于对于已

5、经存在的数据进行模式的开掘。 对数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。 错数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息的过程。对数据分析的定义:数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具, 对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。 对数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 错说的是数据仓库第二章下面哪个不属于数据的属性类型 标称序数区间相异属于定量的属性类型是 标称序数区间相异一所大学内的

6、各年纪人数分别为: 一年级200人,二年级160人,三年级130人,四年级110人。那么年级属性的 众数是 一年级二年级三年级四年级假设属性in come的最大最小值分别是12000元和98000元。利用最大最小标准化的方法 将属性的值映射到0至1的范围内。对属性in come的73600元将被转化为 考虑数据集12 24 33 24 55 68 26 ,其四分位数极差 是 3124553光年所属的属性类型为 标称属性序数属性区间标度属性比率标度属性某班数学期末考成绩分组数据如下,那么数据的 中位数区间是 AtJIIIt86空静并901 m1 60至69分70至79分80至89分90至100分

7、军衔所属的属性类型为 标称属性序数属性二元属性数值属性计算p12,1,4,10和p23,0,3,8两个对象之间的 曼哈顿距离 425用AM和PM表示的时间的属性类型是标称序数 二元 区间属性可分为标称、序数、二元和数值四类中心趋势度量包括众数、均值、中位数和中列数假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 那么数据的近似分组中位数是 。*1-3*卜轉4MU-2K-l某部门的月薪情况如下单位:千元,30,33,48,50,53,53,57,60,64,68,70,70,90, 那么该部门员工的月薪的均值为 。数据集5,10,11,13,15,15,35,50,55,72,92,2

8、04,215 的中位数为 ,众数为 。35 15假设小明某一学期的考试成绩及每门课的学分如下表所示,那么小明本学期的加权平均成绩为maan-UuJH1414给定两个对象的元组x=4,3,5,1与y=1,6,7,3,它们之间的余弦相似度为 。小明参加数学竞赛选拔赛,他十次测试成绩为:76,84,90,86,81,87,86,82,85,83 。那么小明同学十次测试成绩的方差是 。点A的空间坐标为6,30,9,点B的空间坐标为10,35,2,那么A与B之间的切比雪夫距离为 。7只有非零值才重要的二元属性被称作 。非对称二元属性某组同学的成绩评定结果如下, 那么A与B, A与C, B与C之间的相异性

9、是 、 和 。矗字A D)ft (All (ClaA ct C 给定两个词向量元祖 A6,2,5,8和B4,5,2,6,那么这两个对象之间的闵可夫斯基距离其中h=4是 。假定用于分析的数据包含属性 age,数据元组中age的值如下按递增序:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,45,52,70 。那么该组数据的中歹U数是 。人的血型属于标称属性。对酒店的星级属于数值属性。错序列某品种玉米苗中抽取10株,测得它们的株高为:21,42,39,14,19,22,37,41,40,25 单位:cm

10、,那么玉米苗株高的标准差为 对离散属性总是具有有限个值。错标称属性的值提供了足够的信息用于区分对象。 对数值属性的值提供足够的信息确定对象的顺序。 错欧几里得距离、曼哈顿距离、闵可夫斯基距离和切比雪夫距离均满足非负性、同一性和三角不等式。 对余弦相似性利用向量空间中两个向量夹角的余弦值来衡量两个个体间的差异。余弦值越接近 0,夹角越大,向量之间匹配越大小。余弦值越接近1,夹角越小,向量之间匹配越小。 错二元属性的相异性有两种,一种是对称的二元相异性,另一种是非对称的二元相异性。 对点X的空间坐标为3,4,2,点Y的空间坐标为1,6,1,那么X与Y的欧几里得距离为3。对计算由不对称的二元变量描述

11、的对象间的相异度可以使用 Jaccard系数;计算用分类变量描述的对象间的相异度可以采用属性值匹配的方法 属性值匹配,相似度为1,否那么为0;对第三章下面属于维归约常用的线性代数技术的有主成分分析特征提取特征加权离散化将原始数据进行 集成、变换、维度规约、数值规约 是在以下哪个步骤的任务频繁模式挖掘分类和预测数据预处理数据流挖掘假设12个销售价格记录组已经排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215成四个箱。等频等深划分时,15在第几个箱子内第一个第二个第三个第四个数据清理不包括以下哪些处理 缺失值的处理噪声的处理重复数据的处理不一

12、致数据的处理数据标准化方法包括 数据归约数据泛化数据集成最小最大标准化给定一组二维样本 S,S = S1, S2, S3, S4, S5= 1,2,3,0,4,3,5,7,1,6,的阈值局部p大于等于3时的噪声数据为 欧几里得距离S4, S551,S452,S5S1, S5两组向量 x=6,4,7,10,8,y=5,6,1,4,12 的协方差为 covx,y=Exy-ExEy=Ex-Exy-Ey假定用于分析的数据包含属性 age,数据元祖中age的值如下按递增序:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,

13、36,40,45,46,52,70。对age值35进行小数定标标准化转换,转换后的值为 使用如下每种方法将它们划分在距离阈值d大于等于4、非邻点样本0.35 某工厂车间工人的年终奖,其均值为 34 349元,标准差为16 928元,对于观测值为57 000元,使用z-score方法对其进行标准化为 假定用于分析的数据包含属性 age,数据元祖中age的值如下按递增序:。 使用 min-max 标准化,将 age值 35 转换 d 至I0.0,1.0区间的值为 以下数据变换类型及方法 正确的选项是 数据平滑:去噪,将连续数据离散化,增加粒度数据聚集:对数值属性进行监督或无监督离散化特征构造:构造

14、出新的属性数据标准化:使数据按照比例缩放,落入特定区域数据变换的类型包括 数据预处理数据泛华数据离散化特征构造数据规约的技术包括维规约、数量规约、数据压缩下面哪些属于数据预处理的方法 变量代换离散化聚集估计遗漏值在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法正确的有 忽略元组从数据中挑选一个数据填写使用属性的平均值填写空缺值使用与给定元组属同一类的所有样本的平均值数据清理的原那么包括 相异性原那么连续性原那么唯一性原那么空值原那么高质量数据的要求有准确性、完整性、一致性数据预处理的技术手段包括数据清理、数据变换、数据集成、数据规约假定用于分析的数据包含属性 age,

15、数据元祖中age的值如下按递增序:。age的标准偏差为年,使用z-score标准化对age值35进行转换,转换后得到的值为 。删除数据对象或属性、估计遗漏值、忽在现实世界的数据中,元组在某些属性上的缺失值是常有的。处理该问题的常用方法有略遗漏值对数据进行偏差检测的3个原那么分别是 唯一性原那么、连续性原那么、空值原那么数据归约技术包括维归约、数量归约、数据压缩在使用分箱法实现特征离散化时,可以用每个箱中的 中值_或平均值 替换箱中所有的值。某工厂车间工人的年终奖金结果如下已按照递增排序: 15 750, 20 000, 25 000, 36 000, 48 000, 50 000, 52 00

16、0, 56 000,57 000 , 68 000 , 10 000 , 135 000 元。使用最小-最大值标准化将奖金 57 000转换到0.0, 1.0 区间为 0.35 ;使用小数定标标准化将奖金 57 000转换到-1,1区间为 数据清理一般需要对缺失值_ 和一噪声_进行处理。我们要进行数据预处理,是因为原始数据大多都是“ 脏数据。四种处理缺失数据的方法是 、 、 、 。人工填写、使用全局常量填充缺失值、直接删除缺失属性的记录、使用属性的中心趋势度量值填充缺失值数据平滑的方法包括 、 和 。分箱、回归、聚类噪声是指被测量的变量产生的错误或误差。错数据规约技术可以得到数据集的规约表示,

17、虽然小,但仍大致保持原数据的完整性。对数据变换是通过平滑聚集、数据概化、标准化等方式将数据转换成适用于数据挖掘的形式。对数据预处理的任务包括数据清理、数据集成、数据规约和数据泛化。错唯一性原那么是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。对数据变换策略主要包括光滑、聚集、数据泛化、标准化、属性构造和离散化。对每个属性的最大值和最小值之间没有缺失值既满足连续性原那么。错数据挖掘所处理的数据必须具有准确性、完整性、一致性、时效性、可信性和可解释性。错数据规约就是指对数据集进行简化表示。对数据集成有助于减少结果数据集的冗余和不一致,可以提高集成之后的挖掘过程的准确性和速度。对在确定数

18、据中的离群点时,一般不必检查整个数据集。对第四章数据仓库是随着时间变化的,下面的描述不正确的选项是 捕捉到的新数据会覆盖原来的快照数据仓库随时间的变化不断增加新的数据内容数据仓库随着事件变化不断删去旧的数据内容数据仓库中的综合数据会随着时间的变化不断地进行重新综合关于根本数据的元数据是指 根本元数据包括与企业相关的管理方面的数据和信息根本元数据包括日志文件和简历执行处理的时序调度信息根本元数据包括数据源,数据仓库和应用程序等结构相关的信息根本元数据包括关于装载和更新处理,分析处理以及管理方面的信息下面关于数据粒度的描述不正确的选项是 数据越详细,粒度就越小,级别也就越高粒度是指数据仓库小数据单

19、元的详细程度和级别数据综合度越高,粒度也就越大,级别也就越高粒度的具体划分将直接影响数据仓库中的数据量以及查询质量有关数据仓库的开发特点,不正确的描述是 数据仓库开发要从数据出发数据仓库使用的需求在开发时就要明确数据仓库的开发是一个不断循环的过程,是启发式的开发在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模 式在有关数据仓库测试,以下说法不正确的选项是 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试在数据仓库进行测试之前一般不必要制定非常详细的测试方案系统测试需要对数据仓库的组件进行大量的功能测试和回归测试当数据仓库的每个

20、单独组件完成后,就需要对他们进行单元测试OLAP技术的核心是 多维分析关于OLAF和OLTP的说法,以下不正确的选项是 OLAP管理大量历史数据,OLTF仅管理当前数据OLAP主要用于事务和查询处理,而 OLTP用于数据分析OLAP中综合提炼的数据主要来自 OLTP所依赖的底层数据库OLAP数据较之OLTP数据要进行更多的数据维护或预处理的操作数据仓库设计的三级数据模型不包含 概念模型逻辑模型关系模型物理模型改变数据立方体维次序的操作是 旋转在给定的数据立方体的一个维度上进行的选择操作为 切片以下选项中关于粒度描述错误的选项是:粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别;粒度影不

21、响存放在数据仓库中的数据量的大小粒度影响数据仓库所能答复查询问题的细节程度;粒度组织数据的方式有:简单堆积结构;轮转综合结构;简单直接结构;连续结构。 简述数据仓库设计的三级模型及其根本内容 , 不正确的选项是概念模型设计:对问题域内事务进行描述,是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域;逻辑模型设计:对概念模型细化,定义实体属性及其关系,主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策 略、定义关系模式、定义记录系统;物理数据模型设计:在数据库中建立表及索引,主要内容包括确定数据存储结构、确定数据存放位置、确定存储分配以及确定 索引策略等。三种模型

22、设计时主要考虑的因素有 I/O 存取时间、空间利用率和维护代价等。关于OLAP的特性,下面正确的选项是 集成性快速性多维性可分析性数据模型是数据仓库建设的根底,一个完整、灵活、稳定的数据模型对数据仓库工程的成功起到的重要作用有 利于数据的整合消除数据仓库的冗余数据排除数据描述的不一致性为整个系统建设提供导航图根据使用情况的不同,元数据可以分为 技术元数据;业务元数据关于数据仓库的逻辑模型,正确的说法有 是数据仓库设计中的核心根底 对概念数据模型的分解和细化对物理模型设计和实现具有指导作用 为全局效劳,集成全方位数据形成统一蓝图 关于OLAF和OLTP的区别描述,正确的选项是 OLAP是信息处理

23、,OLTP是操作处理OLAP面向底层管理人员,OLTP面向高层决策人员OLAP管理大量历史数据,OLTP主要关注当前数据OLAP数据是细节性数据,OLTF数据那么是综合性数据OLAP按照数据存储格式划分,实现方式有 _MOLAP_、_ROLAP_g HOLAPE种根据使用情况的不同,元数据可以分为 _技术元数据 _和业务元数据;根据数据状态的区别又可分为 _静态元数据 _和动态元数据。数据仓库按照设计顺序,依次分为 _概念模型设计 、_逻辑模型设计和一物理模型设计_三个设计步骤OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术开展之后迅猛开展起来的一种新技术。错数据

24、仓库中间层OLAP效劳器只能采用关系型 OLAP错 数据仓库系统的组成局部包括数据仓库,仓库管理,数据抽取,分析工具等四个局部。错 数据仓库测试工作中主要包括单元测试和系统测试。对改变数据立方体维度的操作称为下钻。错数据仓库实际的三级模型中的概念模型不是对软件实际的描述。对 数据仓库就是一个面向什么的数据集合?主体、集成、非易失、时变 数据仓库体系结构通常采用一种三层体系结构,底层、中间层、顶层分别通常为什么? OLAP效劳器、数据仓库效劳器、前端工具/、第五章 回归分析中使用的距离是点到直线的垂直坐标距离,最小二乘准那么是指 。使各 Yt-Yt 平均值之和最小回归分析的步骤为 。 确定变量

25、建立预测模型 进行相关分析 计算预测误 确定预测值 以下变量之间的关系是函数关系的是 二次函数y = ax2+bx+c,其中a,c是常数,取b为自变量,因变量是这个函数的判别式 = b2 4ac。光照时间和果树亩产量 降雪量和交通事故发生率 每亩施用肥料量和粮食产量对于回归分析,以下说法错误的选项是 在回归分析中,变量间的关系假设是非确定性关系,那么因变量不能由自变量唯一确定 线性相关系数可以是正的,也可以是负的回归分析中,如果r2=1,说明x与y之间完全相关样本相关系数r -1,1某地区调查了 29岁儿童的身高,由此建立的身高 y cm与年龄x 岁的回归模型为 ,以下表达正确的选项是 。该地

26、区一个儿童的身高为 该地区 29岁的儿童每年的身高约增加 该地区 9 岁儿童的平均身高是 利用这个模型可以准确地预测该地区每个 29 岁儿童的身高对一组观察值做出散点图后确定具有线性相关关系,假设对于 y=bx+a,求得b=0.51 , - x? =61.75 , - ,那么线性回归方程为 。 y = 0.51x + 下表是x和y之间的一组数据,那么y关于x的回归方程必过 点2.5, 4 平均值反映由模型中解释变量所解释的那局部离差大小 的是 。总离差平方和回归平方和残差平方和可决系数总离差平方和TSS残差平方和RSS与回归平方和ESS三者的关系是 。TSS= RS9 ESS决定系数R2的取值

27、范围是 。0R244IDDT3Bim1411| iJt it为研究某市家庭收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下,那么回归直线方程为 。相关系数显著性检验法;t检验法;F检验法在回归分析中,检验线性相关显著性常用的三种检验方法,包含回归方程y=1.5x-15 ,那么以下说法不正确的有 y=1.5x - 1515是回归系数a 是回归系数ax=10 时,y=0以下关系中具有相关关系的是人的年龄与他拥有的财富之间的关系 曲线上的点与该点的坐标之间的关系苹果的产量与气候之间的关系森林中的同一种树木,其断面直径与高度之间的关系以下变量中,属于正相关的是 。收入增加,储蓄额增加产量增加,生产费用增加收入增加,支出增加价格下降,消费增加回归分析按照涉及变量的多少,分为:一元回归分析,多元回归分析假设线性回归方程中的回归系数 b = 0,那么相关系数r为:0某化工厂为预测产品的回收率 y,需要研究它和原料有效成分含量 x之间的相关关系,现取 8对观测值,计算得聲山-皿 臨扎.為雷质,那么其线性回归方程为系数保存两位小数 _关于某

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1