《大数据导论》19秋期末考核标准答案.docx
《《大数据导论》19秋期末考核标准答案.docx》由会员分享,可在线阅读,更多相关《《大数据导论》19秋期末考核标准答案.docx(10页珍藏版)》请在冰豆网上搜索。
《大数据导论》19秋期末考核标准答案
《大数据导论》19秋期末考核-0001
---------------------------
单选题
1.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
正确答案:
B
2.()是MicrosoftOffice的核心组件
A.SQL
B.WORD
C.PPT
D.EXCEL
正确答案:
D
3.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
正确答案:
D
4.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段()。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
正确答案:
B
5.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
A.ggplot2
B.network
C.ggmaps
D.animation
正确答案:
D
6.下列不属于Google云计算平台技术架构的是()
A.并行数据处理MapReduce
B.分布式锁Chubby
C.结构化数据表BigTable
D.弹性云计算EC2
正确答案:
D
7.大数据的最显著特征是()。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
正确答案:
A
8.IaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
正确答案:
C
9.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
正确答案:
A
10.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizzaPieCharts
D.Gephi
正确答案:
A
---------------------------
多选题
1.数据归约(DataReduction)主要有()
A.维度规约
B.样本规约
C.数据聚集
D.离散化概念分层
正确答案:
A,B,C,D
2.以下可以用于数据可视化的是()。
A.R语言
B.Excel
C.RapidMiner
D.Weka
正确答案:
A,B,C,D
3.医疗大数据特点:
除了包含了大数据4个“V”的特点之外还有()
A.多态性
B.时效性
C.不完整性
D.冗余性
正确答案:
A,B,C,D
4.大数据存储的特点与挑战有()
A.容量问题
B.延迟问题
C.安全问题
D.成本问题
正确答案:
A,B,C,D
5.大数据智能感知层:
主要包括()及软硬件资源接入系统
A.数据传感体系
B.网络通信体系
C.传感适配体系
D.智能识别体系
正确答案:
A,B,C,D
6.数据预处理的过程主要是
A.数据清洗
B.数据集成
C.数据变换
D.数据规约
正确答案:
A,B,C,D
7.交通数据处理包括以下几个步骤()
A.数据清洗
B.数据映射
C.数据组织
D.数据聚类
正确答案:
A,B,C,D
8.数据工厂包括
A.低能耗数据中心
B.超大规模讲分布式架构
C.新一代智能自动化运维
D.超强云安全
正确答案:
A,B,C,D
9.可视化工具包括()
A.Excel
B.GoogleChart
C.Gephi
D.ppt
正确答案:
A,B,C
10.去除噪声使得数据光滑的技术主要有:
A.分箱
B.回归
C.离群点分析
正确答案:
A,B,C
---------------------------
判断题
1.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。
只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
T.对
F.错
正确答案:
A
2.每个簇的质心(centroid)是该簇中所有数据对象的均值。
T.对
F.错
正确答案:
A
3.数据存储要表现出静态数据的特征,反映的是系统中静止的数据。
T.对
F.错
正确答案:
A
4.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态()
T.对
F.错
正确答案:
A
5.Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
T.对
F.错
正确答案:
B
6.未来考验零售企业的是如何挖掘消费者需求
T.对
F.错
正确答案:
A
7.减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。
T.对
F.错
正确答案:
A
8.数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。
T.对
F.错
正确答案:
A
9.ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。
T.对
F.错
正确答案:
A
10.FP算法比Apriori算法慢
T.对
F.错
正确答案:
B
11.轨迹数据包含空间和时间属性,并且通常规模巨大且维度高
T.对
F.错
正确答案:
A
12.Apriori算法扫描数据库的次数等于最大频繁项集的项数。
T.对
F.错
正确答案:
A
13.Facebook积累了超过12亿全球用户,其存储了大量的用户数据,这使它成为一个巨大的“数据乐园”。
人们越来愈倾向于在Facebook上表达自己的情绪。
T.对
F.错
正确答案:
A
14.大数据处理的关键技术主要包括:
数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。
T.对
F.错
正确答案:
A
15.R是一种开源编程语言和软件环境,用于数据挖掘、数据分析和可视化。
T.对
F.错
正确答案:
A
---------------------------
简答题
1. 简述数据可视化的流程和步骤。
正确答案:
数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用E个步骤。
B)数据获取
数据获取的形式多种多样,大致可以分为主动式和被动式两种。
主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等。
C)数据处理
数据处理是指对原始的数据进行分析、预处理和计算等步骤。
数据处理的目标是保证数据的准确性、可用性等。
D)可视化模式
可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等。
可视化模式的选取决定了可视化方案的雏形。
E)可视化应用
可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。
可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果。
2.简述网络大数据的一般采集过程。
正确答案:
先在URL队列中写入一个或多个目标链接作为爬虫爬取信息的起点;爬虫从URL队列中读取链接,并访问该网站;从该网站爬取内容;从网页内容中抽取出目标数据和所有URL链接;从数据库中读取已经抓取过内容的网页地址;过滤URL,将当前队列中的URL和已经抓取过的URL进行比较;如果该网页地址没有被抓取过,则将该地址(SpiderURL)写入数据库,并访问该网站;如果该地址已经被抓取过,则放弃对这个地址的抓取操作;获取该地址的网页内容,并抽取出所需属性的内容值;将抽取的网页内容写入数据库,并将抓取到的新链接加入URL队列。
3.NoSQL
正确答案:
NoSQL是泛指非关系型、分布式和不提供ACID的数据库,它不是单纯地反对关系型数据库,而是强调键值存储和文档数据库的优点。
4.批处理
正确答案:
“静止数据”转变为“正使用数据”,先存储后处理(Store-then-Process),先把信息存下来,稍后一次性地处理掉;对于批量数据,多采用批处理,批处理擅长全时智能,但速度慢,需要批处理加速。
5.数据清洗
正确答案:
数据清洗:
填充空缺值,清除数据中的噪声,识别或删除离群点并解决不一致性。
数据清洗:
现实世界中接收到的数据一般是不完整、有噪声且不一致的,数据清洗过程试图填充空缺值,光滑噪声并识别离群点,纠正数据中的不一致。
6.结构化数据
正确答案:
结构化数据,通常存储在关系数据库中,并用二维表结构通过逻辑表达实现。
结构化数据的特点是每一列数据具有相同的数据类型,且不可再进行细分,这些数据库基本能够满足高速存储的应用需求和数据备份、数据共享以及数据容灾等需求。