项目数据分析师理论考试试题.docx
《项目数据分析师理论考试试题.docx》由会员分享,可在线阅读,更多相关《项目数据分析师理论考试试题.docx(14页珍藏版)》请在冰豆网上搜索。
项目数据分析师理论考试试题
项目数据分析师理论考试
[判断题]
1、“大数据”是指规模超过1000TB的数据集。
参考答案:
错
[判断题]
2、概率为0的事件是不可能事件,概率为1的事件是必然事件。
参考答案:
错
[判断题]
3、统计图中的散点图主要用来观察变量之间的相关关系。
参考答案:
对
[判断题]
4、抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。
参考答案:
错
[判断题]
5、如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。
参考答案:
错
[判断题]
6、SQL中删除表的命令是“DELETETABLE”。
参考答案:
错
[判断题]
7、如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。
参考答案:
错
[判断题]
8、需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
参考答案:
错
[判断题]
9、线性回归模型的拟合优度可采用可决系数进行评判。
可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。
参考答案:
错
[判断题]
10、一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。
参考答案:
错
[单项选择题]
11、检查异常值常用的统计图形是()
A.柱状图
B.箱线图
C.帕累托图
D.气泡图
参考答案:
B
[单项选择题]
12、什么是KDD?
()
A.数据挖掘与知识发现
B.领域知识发现
C.文档知识发现
D.动态知识发现
参考答案:
A
[单项选择题]
13、假设检验中显著性水平是()
A.推断时犯取伪错误的概率
B.推断时取伪弃真的概率
C.正确推断的概率
D.是推断的可信度
参考答案:
B
[单项选择题]
14、矩估计的基本原理是()
A.用样本矩估计总体矩
B.使得似然函数达到最大
C.使得似然函数达到最小
D.小概率事件在一次试验中是不可能发生的
参考答案:
A
[单项选择题]
15、以下哪项关于决策树的说法是错误的()
A.冗余属性不会对决策树的准确率造成不利的影响
B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感
D.寻找最佳决策树是NP完全问题
参考答案:
C
[单项选择题]
16、以下哪种方法不属于于监督学习模型()
A.决策树
B.线性回归
C.关联分析
D.判别分析
参考答案:
C
[单项选择题]
17、下列不属于原始数据来源的是()
A.行政记录
B.统计调查
C.统计年鉴
D.实验
参考答案:
C
[单项选择题]
18、下列不属于分类算法的是()
A.C4.5算法
B.逻辑回归
C.KNN算法
D.TF-TDF算法
参考答案:
D
[单项选择题]
19、数据仓库是随着时间变化的,下面的描述不正确的是()
A.数据仓库随时间的变化不断增加新的数据内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随时间变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
参考答案:
C
[单项选择题]
20、描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是()
A.极差
B.标准差
C.均值
D.变异系数
参考答案:
B
[单项选择题]
21、当置信水平一定时,置信区间的宽度()
A.随着样本量的增大而减小
B.随着样本量的增大而增大
C.与样本量的大小无关
D.先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大
参考答案:
A
更多内容请访问《睦霖题库》微信公众号
[单项选择题]
22、一种商品价格变动与由此引起另外一种商品需求量相对变动的比率称为()
A.需求价格弹性
B.供给价格弹性
C.需求交叉弹性
D.供给交叉弹性
参考答案:
C
[单项选择题]
23、给出下列结论:
(1)在回归分析中,可用指数系数R方的值判断模型的拟合效果,R方越大,模型的拟合效果越好;
(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r的值判断模型的拟合效果,r越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高。
以上结论中,正确的有()个
A.1
B.2
C.3
D.4
参考答案:
A
[单项选择题]
24、维度规约是在以下哪个步骤的任务?
()
A.频繁模式挖掘
B.降维
C.数据预处理
D.数据流挖掘
参考答案:
C
[单项选择题]
25、假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:
使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为()
A.15.7
B.18.3
C.19.7
D.以上都不对
参考答案:
B
[单项选择题]
26、EXCEL中,求标准差的函数是()
A.AVERAGE
B.MEDIAN
C.MODE
D.STDEV
参考答案:
D
[单项选择题]
27、某牙膏厂原来生产两面针药物牙膏,现在又增加牙刷生产,这属于()
A.同心多元化
B.水平多元化
C.集团多元化
D.相关多元化
参考答案:
B
[多项选择题]
28、以下关于皮尔森相关分析叙述正确的是()
A.两变量独立,两者的皮尔森相关系数必然等于0
B.两变量皮尔森相关系数不等于0,两者必然不独立
C.皮尔森相关系数是否等于零,不能指明两变量是否独立
D.两变量不独立,两者的皮尔森相关系数必然不等于0
参考答案:
A,B
[多项选择题]
29、以下属于分类器评价或比较尺度的有()
A.预测准确度
B.召回率
C.模型描述的简洁度
D.F1-Score
参考答案:
A,B,D
[多项选择题]
30、以下关于逻辑回归的说法正确的是()
A.应用逻辑回归时,异常值会对模型造成很大的干扰
B.逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理
C.逻辑回归对模型中自变量的多重共线性较为敏感
D.逻辑回归属于分类算法
参考答案:
A,C,D
[多项选择题]
31、以下说法正确的有()
A.评价预测精度是通过测量与分析预测误差进行的
B.绝对误差是实际观测值与预测值的离差
C.相对误差反映实际观测值与预测值之间差异的相对程度
D.平均误差反映实际观测值与预测值之间的平均差异
参考答案:
A,B,C,D
[多项选择题]
32、下列公式正确的是()
A.流动资金=流动资产-流动负债
B.流动资产=应收账款+存货
C.流动负债=应付账款+预收账款
D.流动资金本年增加额=本年流动资金-上年流动资金
参考答案:
A,C,D
[多项选择题]
33、以下有关随机森林算法的说法正确的是()
A.随机森林算法的分类精度不会随着决策树数量的增加而提高
B.随机森林算法对异常值和缺失值不敏感
C.随机森林算法不需要考虑过拟合问题
D.决策树之间相关系数越低、每棵决策树分类精度越高的随机森林模型的分类效果越好
参考答案:
A,B,D
[多项选择题]
34、以下算法中对缺失值敏感的有()
A.ogistic回归
B.SVM算法
C.CART决策树
D.朴素贝叶斯
参考答案:
A,B
[多项选择题]
35、方差分析的基本假设前提包括()
A.各处理条件下的样本均来自正态总体
B.各处理条件下的样本相互独立
C.各处理条件下样本的方差都相等
D.各处理条件下样本均值相等,方差可以不等
参考答案:
A,B,C
[多项选择题]
36、按照性质,预测方法大致可分为()。
A.定性预测
B.情景预测
C.时间序列预测
D.回归预测
参考答案:
A,C,D
[多项选择题]
37、在假设检验中,犯一类错误的概率和犯第二类错误的概率的关系是()
A.只能直接控制,不能直接控制
B.和不可能同时减小
C.在其他条件不变的情况下,增大,必然后减小
D.在其他条件不变的情况下,增大,必然后增大
E.增加样本容量可以同时减小和
参考答案:
A,C,E
[多项选择题]
38、概率密度曲线()
A.位于X轴的上方
B.在X轴上下摆动
C.与X轴之间的面积为1
D.与X轴之间的面积为0
参考答案:
A,C
[判断题]
39、多次抛一枚硬币,正面朝上的频率是1/2。
参考答案:
错
[判断题]
40、归纳法是一种从个别到一般的推理方法。
参考答案:
对
[判断题]
41、置信水平是假设检验中犯第一类错误的概率。
参考答案:
错
[判断题]
42、当两种产品为互补品时,其交叉弹性小于零。
参考答案:
对
[判断题]
43、盈亏平衡分析是静态分析不考虑资金的时间价值和项目寿命周期内的现金流量的变化。
参考答案:
对
[判断题]
44、决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。
参考答案:
错
[判断题]
45、当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。
参考答案:
对
[判断题]
46、维规约即事先规定所取模型的维数,可以认为是降维的一种。
参考答案:
错
[判断题]
47、离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
参考答案:
对
[单项选择题]
48、SQL语言中,删除一个表中所有数据,但保留表结构的命令是()
A.DELETE
B.DROP
C.CLEAR
D.REMORE
参考答案:
A
[单项选择题]
49、假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()
A.可采用算术平均数
B.可以采用众数或中位数
C.只能采用众数
D.只能采用四分位数
参考答案:
C
[单项选择题]
50、以下哪个变量可以反映客户的忠诚度?
()
A.购买频次
B.购买金额
C.最后一次购买时间
D.购买金额波动率
参考答案:
A
[单项选择题]
51、下面关于聚类分析说法错误的是()
A.一定存在一个最优的分类
B.聚类分析是无监督学习
C.聚类分析可以用于判断异常值
D.聚类分析即:
物以类聚,人以群分
参考答案:
A
[单项选择题]
52、某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。
则至少订一种报的概率为()
A.0.82
B.0.85
C.0.80
D.0.75
参考答案:
D
[单项选择题]
53、在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么()
A.违反了建模的假设条件
B.加大了处理的难度
C.无法针对分区后各个数据集的特征分别做数据清洗
D.无法对不同数据清理的方法进行比较,以选择最优方法
参考答案:
D
[单项选择题]
54、当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理()
A.直接使用该变量
B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C.使用多重插补的方法进行缺失值填补
D.直接删除该变量
参考答案:
B
[单项选择题]
55、一条关联规则为A→B,此规则的信心水平(confidence)为60%,则代表()
A.买B商品的顾客中,有60%的顾客会同时购买A
B.同时购买AB两商品的顾客,占所有顾客的60%
C.买A商品的顾客中,有60%的顾客会同时购买B
D.两商品AB在交易数据库中同时被购买的机率为60%
参考答案:
C
[单项选择题]
56、企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是()
A.数据越多越好
B.尽可能多的适合的数据
C.数据越少越好
D.以上三条都不正确
参考答案:
B
[单项选择题]
57、用简单随机重复抽样方法抽取样本的单位,如果要使抽样平均误差降低50%,则样本容量需要扩大到原来的()
A.2倍
B.3倍
C.4倍
D.5倍
参考答案:
C
[单项选择题]
58、回归分析的第一步是()
A.确定解释量和被解释变量
B.确定回归模型
C.建立回归方程
D.进行检验
参考答案:
A
[单项选择题]
59、下列四项中,不属于数据库特点的是()
A.数据共享
B.数据完整性
C.数据冗余很高
D.数据独立性高
参考答案:
C
[单项选择题]
60、将复杂的地址简化成北、中、南、东四区,是在进行?
()
A.数据正规化
B.数据一般化
C.数据离散化
D.数据整合
参考答案:
B