数据导入与预处理期末习题Word文档下载推荐.docx-资源下载

数据导入与预处理期末习题Word文档下载推荐.docx

1、B、相关性、时效性C、可信性、可解释性D、以上都是6、数据归约的方法有（D ）A、维归约B、数量归约C、数据压缩D、以上都是7、以下说法错误的是（C ）A、主成分分析、属性子集选择为维归约方法.B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。8、下列方法不是数据变换的有（ B） A、光滑B、抽样C、规范化D、属性

2、构造二、填空题1、在下表中，用同类样本属性的中心度量方法填充空缺值，空缺值应为9000。客户编号客户名称风险等级收入1张三350002李四8000王五100004赵六150005李木6王权160002、假定属性income 的最小与最大值分别为25000 和 3000，根据最小最大规范化方法将 income 10000 映射到0,1范围内，值为0.318。3、数列为3,5,10,15,10,13,使用 z-score 方法映射后为 -1.650,-1.178,0,1.178, 0, 0.707（注，均值为 10，标准差为：4.243）4. 一组排序后的数据：5,8,11,19,22,24,27

3、,36,92，划分为等频的箱：箱 1：5,8,11；箱 2：19,22,24；箱 3：27,36,92，要求：箱1 用平均值，箱2 用中位值，箱3 用箱边界三种方法来光滑噪声数据，求光滑噪声后的数据为： 8,8,8,22,22,22,27,27,92第二章一、填空1. Kettle 是一个Java程序2. 转换是 ETL解决方案中最主要的部分，它负责处理抽取、转换、加载各阶段对数据行的各种操作3. 转换里的步骤通过跳来连接4. 跳定义了一个单向通道，允许数据从一个步骤向另一个步骤流动5. 在 Kettle 里，数据的单位是行，数据流就是数据行从一个步骤到另一个步骤的移动6. 数据流的

4、另一个同义词就是记录流。7. 步骤是转换里的基本组成部分。它是一个图形化的组件，可以通过配置步骤的参数，使得它完成相应的功能。8. 表输入步骤可以从指定的数据库中读取指定关系表的数据9. 步骤需要有一个唯一性的名字。10. 一个跳，相对于输出数据的步骤而言，为输出跳；相对于输入数据的步骤而言，为输入跳。11. 一个步骤的数据发送可以被设置为轮流发送和复制发送。12. 轮流发送是将数据行依次发给每一个输出跳，复制发送是将全部数据行发送给所有输出跳13. 在运行转换时，一个线程运行一个步骤，所有步骤的线程几乎同时运行。14. 从程序执行的角度看，跳实际上是两个步骤线程之间进行数据行传

5、输的缓存。这个缓存被称为行集。15. Kettle 使用图形化的方式定义复杂的ETL程序和工作流，所以被归类为可视化编程语言。16. Kettle 的参数配置分为环境变量配置和命名参数两类。17. 环境变量具有全局性质，配置后的环境变量对所有转换、作业都可用、有效；命名参数具有局部性质，仅对当前转换、作业有效。二、判断1. Kettle 不是开源软件。（错）2. Kettle 使用 Java 编写的非可视化工具。3. Kettle 中的步骤是顺序执行的。4. Kettle 中的步骤是并行执行的。（对）5. 步骤的名称具有唯一性。三、简答1、什么是转换？转换是 ETL解决方案中最主要

6、的部分，它负责处理抽取、转换、加载各阶段对数据黄行的各种操作。2、什么是跳？转换中的步骤通过跳来连接，跳定了一个单向通道，允许数据从一个步骤向另一个步骤流动3、Kettle 的参数配置分为哪两类，并简述每一类的作用范围。Kettle 的参数配置分为环境变量配置和命名参数两类。环境变量具有全局性质，配置后的环境变量对所有转换、作业都可用、有效；命名参数具有局部性质，仅对当前转换、作业有效。一、填空题第三章1. 文本文件主要分为分隔符文件和固定宽度文件两大类。2. CSV文件是一种用分隔符分割的文本文件。3. Excel 的数据可分为结构化的表格数据和非结构化的表格数据。4. Kettle 提供了

7、HTTP Client和HTTP Post步骤从 Web 上获取数据。5. 查询类的步骤，需要一个输入类的步骤来激活。6. 基本上 CDC 可以分为两种，一种是侵入性的，另一种是非侵入性的。7. 基于源数据的 CDC 要求源数据中相关的属性列。最常见的两种属性列是时间戳和自增序列。8. 当 INSERT、UPDATE、DELETE等 SQL 进行执行时，可以触发数据库自有的触发器，并执行某些动作。9. Kettle 里的合并记录步骤就可以用来比较两个表的差异。10. 基于触发器的具有侵入性的 CDC操作,可以实时监测到源数据的变化。11. 基于日志的 CDC 操作是非侵入性的。12. 基于源

8、数据的 CDC 操作，不能捕获物理删除的数据，可以捕获逻辑删除的数据。13. 基于源数据的 CDC不适用于实时数据捕获，适用于批量操作。14. XML 文件不是普通的文本文件，而是一种遵循规范的半结构化的文本文件。15. 对于 JSON 文件，Kettle 可以用JSON Input和JSON Output步骤完成文件的读取与输出。1. 在“数据库连接”窗口中，在一个作业或转换范围内连接名称不能重复（。）2. 查询类的步骤不需要激活，可以直接运行。（）3. 触发器的 CDC的可以实时监测到数据的所有变化。（）1、在 ETL工作中，我们常常面临着处理各种类型的文件场景，请列举几个文件类型。

9、TXT、CSV、Excel、XML、JSON 等2、什么是 CDC识别出变化的数据并只导入这部分数据被称为变化数据捕获（Change Data Capture ）即 CDC3、CDC操作分为哪四种，并标明是否是侵入性的。基于源数据的 CDC，侵入性；基于触发器的 CDC，侵入性；基于快照的 CDC，侵入性；基于日志的 CDC，非侵入性4、简述基于日志的CDC操作的优缺点。优点：基于日志的方式是最高级的、最没有侵入性的CDC方法；缺点：只能用来处理一种特定的数据库一、选择题：第四章1. 下列关于为什么要做数据清理描述错误的是（ D）A. 数据有重复B. 数据有错误C. 数据有缺失D. 数据

10、量太大2. 下列关于数据清理描述错误的是（ A ）A. 数据清理能完全解决数据质量差的问题B. 数据清理在数据分析过程中是不可或缺的一个环节C. 数据清理的目的是提高数据质量D. 可以借助 Kettle 来完成大量的数据清理工作3. 下列关于使用参照表清洗数据说法错误的是（ B ）A. 有些数据无法从内部发现错误，需要结合外部的数据进行参照B. 只要方法得当，数据内部是可以发现错误的，不需要借助参照表C. 使用参数表可以校验数据的准确性D. 使用参照表可以处理数据的一致性二、判断题：1. 在 Kettle 中，不存在单一的清洗步骤，清洗工作往往需要结合多个步骤才能组合完成。2. 在使用表输入步

11、骤进行数据抽取时，应尽量避免使用复杂的SQL语句进行数据筛选。3. 由于大部分的数据都是准确无误的，存在问题的数据只占极少部分，只要数据分析的方式正确，是不需要进行数据清理的。4. Kettle 中，参照数据流到流查询步骤对应的跳上会出现一个“i标识。5. Kettle 提供了大量的数据清洗步骤，没有必要再使用脚本组件来做数据清理。三、填空题：1. 重复数据分为哪两类：完全重复数据、不完全重复数据。2. Kettle 目前的版本中提供了三个关于字符串清洗的步骤，分别是字符串操作步骤、字符串替换步骤和字符串剪切步骤3. Kettle 提供的字符串替换步骤的功能非常强大，主要是因为该步骤支持。

12、正则表达式4. 需要将一个行记录拆分成多行记录时，可以选择拆分字段成多行步骤；需要将一个字段拆分成多个字段时，可以选择拆分字段步骤。5. 在 Kettle 中，提供了两个可以比较相似度的步骤，它们分别是计算器步骤、模糊匹配步骤。6. 所谓数据清理，就是试图检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声，解决数据的_一致性、唯一性问题，从而达到提高数据质量的目的。四、简答题：1. 数据清理主要目的是什么？参考答案：数据清理，就是试图检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声，解决

13、数据的一致性、唯一性问题，从而达到提高数据质量的目的。2. 请简单描述下如何去除不完全重复数据？第一步，选定一个或多个字段，使用模糊匹配步骤找出疑似重复数据的记录第二步，选定一个或多个字段做为参考字段，进一步检测数据的可能重复性第三步，去除或者合并这些疑似重复的记录，这一步是非常关键的一步，需要结合多方面的因素进行综合评估，最终才能确定一个合并/ 去除的方案。一填空第五章1. 作业有_作业项、跳、注释组成。2. 作业创建并保存后的文件后缀名是*.kjb。3. 作业执行顺序由作业项之间的_跳和每个作业项的执行结果来决定。4. kettle 使用一种回溯算法来执行作业里的所有作业项。5. 一个作业包括一个或多个作业项，这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳和每个作业项的执行结果来决定。6. _START作业项是一个作业的起点。它的作用是设置作业的定时调度7. STAR

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？