数据导入与预处理期末习题Word文档下载推荐.docx

资源描述

数据导入与预处理期末习题Word文档下载推荐.docx

《数据导入与预处理期末习题Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《数据导入与预处理期末习题Word文档下载推荐.docx（11页珍藏版）》请在冰豆网上搜索。

数据导入与预处理期末习题Word文档下载推荐.docx

B、相关性、时效性

C、可信性、可解释性D、以上都是

6、数据归约的方法有（D）

A、维归约

B、数量归约C、数据压缩D、以上都是

7、以下说法错误的是（C）

A、主成分分析、属性子集选择为维归约方法.

B、直方图、聚类、抽样和数据立方体聚集为数量归约方法。

C、用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。

D、数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

8、下列方法不是数据变换的有（B）A、光滑

B、抽样

C、规范化

D、属性构造二、填空题

1、在下表中，用同类样本属性的中心度量方法填充空缺值，空缺值应为 9000 。

客户编号

客户名称

风险等级

收入

张三

5000

李四

8000

王五

10000

赵六

15000

李木

王权

16000

2、假定属性income的最小与最大值分别为25000和3000，根据最小—最大规范化方法将income10000映射到[0,1]范围内，值为 0.318 。

3、数列为[3,5,10,15,10,13],使用z-score方法映射后为

[-1.650 , -1.178 , 0 , 1.178 ,0 ,0.707 ]

（注，均值为10，标准差为：

4.243）

4.一组排序后的数据：

5,8,11,19,22,24,27,36,92，划分为等频的箱：

箱1：

5,8,11；

箱2：

19,22,24；

箱3：

27,36,92，要求：

箱1用平均值，箱2用中位值，箱3用箱边界三种方法来光滑噪声数据，求光滑噪声后的数据为：

8,8,8,22,22,22,27,27,92

第二章

一、填空

1.Kettle是一个 Java 程序

2.转换是ETL解决方案中最主要的部分，它负责处理抽取、转换、加载各阶段对数据行的各种操作

3.转换里的步骤通过跳来连接

4.跳定义了一个单向通道，允许数据从一个步骤向另一个步骤流动

5.在Kettle里，数据的单位是行，数据流就是数据行从一个步骤到另一个步骤的移动

6.数据流的另一个同义词就是记录流。

7. 步骤是转换里的基本组成部分。

它是一个图形化的组件，可以通过配置步骤的参数，使得它完成相应的功能。

8.表输入步骤可以从指定的数据库中读取指定关系表的数据

9.步骤需要有一个唯一性的名字。

10.一个跳，相对于输出数据的步骤而言，为输出跳；

相对于输入数据的步骤而言，为输入跳。

11.一个步骤的数据发送可以被设置为轮流发送和复制发送。

12. 轮流发送是将数据行依次发给每一个输出跳，复制发送是将全部数据行发送给所有输出跳

13.在运行转换时，一个线程运行一个步骤，所有步骤的线程几乎同时运行。

14.从程序执行的角度看，跳实际上是两个步骤线程之间进行数据行传输的缓存。

这个缓存被称为行集。

15.Kettle使用图形化的方式定义复杂的ETL程序和工作流，所以被归类为可视化编程语言。

16.Kettle的参数配置分为环境变量配置和命名参数两类。

17.环境变量具有全局性质，配置后的环境变量对所有转换、作业都可用、有效；

命名参数具有局部性质，仅对当前转换、作业有效。

二、判断

1.Kettle不是开源软件。

（错）

2.Kettle使用Java编写的非可视化工具。

3.Kettle中的步骤是顺序执行的。

4.Kettle中的步骤是并行执行的。

（对）

5.步骤的名称具有唯一性。

三、简答

1、什么是转换？

转换是ETL解决方案中最主要的部分，它负责处理抽取、转换、加载各阶段对数据黄行的各种操作。

2、什么是跳？

转换中的步骤通过跳来连接，跳定了一个单向通道，允许数据从一个步骤向另一个步骤流动

3、Kettle的参数配置分为哪两类，并简述每一类的作用范围。

Kettle的参数配置分为环境变量配置和命名参数两类。

环境变量具有全局性质，配置后的环境变量对所有转换、作业都可用、有效；

命名参数具有局部性质，仅对当前转换、作业有效。

一、填空题

第三章

1.文本文件主要分为分隔符文件和固定宽度文件两大类。

2.CSV文件是一种用分隔符分割的文本文件。

3.Excel的数据可分为结构化的表格数据和非结构化的表格数据。

4.Kettle提供了 HTTPClient 和 HTTPPost 步骤从Web上获取数据。

5.查询类的步骤，需要一个输入类的步骤来激活。

6.基本上CDC可以分为两种，一种是侵入性的，另一种是非侵入性的。

7.基于源数据的CDC要求源数据中相关的属性列。

最常见的两种属性列是时间戳和自增序列。

8.当INSERT、UPDATE、DELETE等SQL进行执行时，可以触发数据库自有的触发

器，并执行某些动作。

9.Kettle里的合并记录步骤就可以用来比较两个表的差异。

10.基于触发器的具有侵入性的CDC操作,可以实时监测到源数据的变化。

11.基于日志的CDC操作是非侵入性的。

12.基于源数据的CDC操作，不能捕获物理删除的数据，可以捕获逻辑删除的数据。

13.基于源数据的CDC不适用于实时数据捕获，适用于批量操作。

14.XML文件不是普通的文本文件，而是一种遵循规范的半结构化的文本文件。

15.对于JSON文件，Kettle可以用 JSONInput 和 JSONOutput 步骤完成文件的读取与输出。

1.在“数据库连接”窗口中，在一个作业或转换范围内连接名称不能重复（。

√）

2.查询类的步骤不需要激活，可以直接运行。

（×

）

3.触发器的CDC的可以实时监测到数据的所有变化。

（√ ）

1、在ETL工作中，我们常常面临着处理各种类型的文件场景，请列举几个文件类型。

TXT、CSV、Excel、XML、JSON等

2、什么是CDC

识别出变化的数据并只导入这部分数据被称为变化数据捕获（ChangeDataCapture）即CDC

3、CDC操作分为哪四种，并标明是否是侵入性的。

基于源数据的CDC，侵入性；

基于触发器的CDC，侵入性；

基于快照的CDC，侵入性；

基于日志的CDC，非侵入性

4、简述基于日志的CDC操作的优缺点。

优点：

基于日志的方式是最高级的、最没有侵入性的CDC方法；

缺点：

只能用来处理一种特定的数据库

一、选择题：

第四章

1.下列关于为什么要做数据清理描述错误的是（D ）

A.数据有重复

B.数据有错误

C.数据有缺失

D.数据量太大

2.下列关于数据清理描述错误的是（A）

A.数据清理能完全解决数据质量差的问题

B.数据清理在数据分析过程中是不可或缺的一个环节

C.数据清理的目的是提高数据质量

D.可以借助Kettle来完成大量的数据清理工作

3.下列关于使用参照表清洗数据说法错误的是（B）

A.有些数据无法从内部发现错误，需要结合外部的数据进行参照

B.只要方法得当，数据内部是可以发现错误的，不需要借助参照表

C.使用参数表可以校验数据的准确性

D.使用参照表可以处理数据的一致性

二、判断题：

1.在Kettle中，不存在单一的清洗步骤，清洗工作往往需要结合多个步骤才能组合完成。

√

2.在使用表输入步骤进行数据抽取时，应尽量避免使用复杂的SQL语句进行数据筛选。

3.由于大部分的数据都是准确无误的，存在问题的数据只占极少部分，只要数据分析的方式正确，是不需要进行数据清理的。

4.Kettle中，参照数据流到流查询步骤对应的跳上会出现一个“i"

标识。

5.Kettle提供了大量的数据清洗步骤，没有必要再使用脚本组件来做数据清理。

三、填空题：

1.重复数据分为哪两类：

完全重复数据、不完全重复数据。

2.Kettle目前的版本中提供了三个关于字符串清洗的步骤，分别是字符串操作步骤、

字符串替换步骤和字符串剪切步骤

3.Kettle提供的字符串替换步骤的功能非常强大，主要是因为该步骤支持

。

正则表达式

4.需要将一个行记录拆分成多行记录时，可以选择拆分字段成多行步骤；

需要将一个字段拆分成多个字段时，可以选择拆分字段步骤。

5.在Kettle中，提供了两个可以比较相似度的步骤，它们分别是计算器步骤

、模糊匹配步骤。

6.所谓数据清理，就是试图检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声，解决数据的_一致性、唯一性问题，从而达到提高数据质量的目的。

四、简答题：

1.数据清理主要目的是什么？

参考答案：

数据清理，就是试图检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声，解决数据的一致性、唯一性问题，从而达到提高数据质量的目的。

2.请简单描述下如何去除不完全重复数据？

第一步，选定一个或多个字段，使用模糊匹配步骤找出疑似重复数据的记录第二步，选定一个或多个字段做为参考字段，进一步检测数据的可能重复性

第三步，去除或者合并这些疑似重复的记录，这一步是非常关键的一步，需要结合多方面的

因素进行综合评估，最终才能确定一个合并/去除的方案。

一．填空

第五章

1.作业有_作业项、跳、注释组成。

2.作业创建并保存后的文件后缀名是

*.kjb 。

3.作业执行顺序由作业项之间的_跳和每个作业项的执行结果来决定。

4.kettle使用一种回溯算法来执行作业里的所有作业项。

5.一个作业包括一个或多个作业项，这些作业项以某种顺序来执行。

作业执行顺序由作业项之间的跳和每个作业项的执行结果来决定。

6._START 作业项是一个作业的起点。

它的作用是设置作业的定时调度

7.STAR

展开阅读全文