CPDA题库Word文件下载.docx

上传人:b****6 文档编号:19775438 上传时间:2023-01-10 格式:DOCX 页数:59 大小:89.16KB
下载 相关 举报
CPDA题库Word文件下载.docx_第1页
第1页 / 共59页
CPDA题库Word文件下载.docx_第2页
第2页 / 共59页
CPDA题库Word文件下载.docx_第3页
第3页 / 共59页
CPDA题库Word文件下载.docx_第4页
第4页 / 共59页
CPDA题库Word文件下载.docx_第5页
第5页 / 共59页
点击查看更多>>
下载资源
资源描述

CPDA题库Word文件下载.docx

《CPDA题库Word文件下载.docx》由会员分享,可在线阅读,更多相关《CPDA题库Word文件下载.docx(59页珍藏版)》请在冰豆网上搜索。

CPDA题库Word文件下载.docx

猪说:

"你跑什么?

"鸡叫道:

“有本领主人买粉条的时候你小子别跑!

" 

以上对话表达了数据分析方法中的〔 

A、关联B、聚类C、分类D、自然语言处理

4假设检验中显著性水平是〔 

A、推断时犯取伪错误的概率B、推断时取伪弃真的概率C、正确推断的概率

D、是推断的可信度

5矩估计的基本原理是〔A 

A、用样本矩估计总体矩B、使得似然函数到达最大C、使得似然函数到达最小

D、小概率事件在一次试验中是不可能发生的

6SQL查询语句中HAVING子句的作用是〔 

C〕

A、指出分组查询的范围B、指出分组查询的值C、指出分组查询的条件

D、指出分组查询的内容

7以下哪项关于决策树的说法是错误的〔C 

A、冗余属性不会对决策树的准确率造成不利的影响

B、子树可能在决策树中重复多次

C、决策树算法对于噪声的干扰非常敏感

D、寻找最正确决策树是NP完全问题

8以下哪种方法不属于于监督学习模型〔C〕

A、决策树B、线性回归C、关联分析D、判别分析

9考虑下面的频繁3-项集的集合:

{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,假设采用合并策略,则由候选产生过程得到4-项集不包含〔C〕

A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5

10以下不属于原始数据来源的是〔 

A、行政记录B、统计调查C、统计年鉴D、实验

11以下不属于分类算法的是〔 

D〕

A、C4.5算法B、逻辑回归C、KNN算法D、TF-TDF算法

12相关分析与回归分析的一个重要区别是〔A 

A、前者研究变量之间关系的密切程度,后者研究变量间的变动关系,并用方程式表示

B、前者研究变量之间的变动关系,后者研究变量间关系的密切程度

C、两者都研究变量间的变动关系

D、两者都不研究变量间的变动关系

13数据仓库是随着时间变化的,下面的描述不正确的选项是〔C〕

A、数据仓库随时间的变化不断增加新的数据内容

B、捕捉到的新数据会覆盖原来的快照

C、数据仓库随时间变化不断删去旧的数据内容

D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合

14资金的时间价值是〔B〕

A、同一资金在同一时点上价值量的差额

B、同一资金在不同时点上价值量的差额

C、不同资金在同一时点上价值量的差额

D、不同资金在不同时点上价值量的差额

15描述一组对称〔或正态〕分布数据的离散程度时,最适宜选择的指标是〔B〕

A、极差B、标准差C、均值D、变异系数

16以下有关Apriori算法的说法中不正确的选项是〔C〕

A、Apriori算法是关联分析中最常用的算法之一。

B、应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值。

C、应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据。

D、Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量。

17当置信水平一定时,置信区间的宽度〔A〕

A、随着样本量的增大而减小B、随着样本量的增大而增大

C、与样本量的大小无关D、先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。

18一种商品价格变动与由此引起另外一种商品需求量相对变动的比率称为〔C〕

A、需求价格弹性B、供给价格弹性C、需求交叉弹性D、供给交叉弹性

19分类器效果检验中的准确率是指〔C〕

A、预测正确的数据在总数据中的比例B、预测为正的数据在总数据中的比例

C、预测为正的数据中实际为正的数据所占比例D、实际为正的数据中被预测为正的数据所占比例

20给出以下结论:

〔1〕在回归分析中,可用指数系数R方的值判断模型的拟合效果,R方越大,模型的拟合效果越好;

〔2〕在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;

〔3〕在回归分析中,可用相关系数r的值判断模型的拟合效果,r越小,模型的拟合效果越好;

〔4〕在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高.

以上结论中,正确的有〔 

A〕个.

A、1B、2C、3D、4

21维度规约是在以下哪个步骤的任务?

〔C〕

A、频繁模式挖掘B、降维C、数据预处理D、数据流挖掘

22假设属性income的最大最小值分别是12000元和98000元。

利用最大-最小标准化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为〔D〕

23假定用于分析的数据包含属性age。

数据元组中age的值如下〔按递增序〕:

13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 

问题:

使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为〔 

A、15.7B、18.3C、19.7D、以上都不对

24EXCEL中,求标准差的函数是〔 

A、AVERAGEB、MEDIANC、MODED、STDEV

25人们购买制冷用空调主要是为了在夏天获得凉爽空气,这属于空调产品整体概念中的〔C〕

A、有形产品B、直接产品C、核心产品D、主要产品

26贝叶斯决策是根据〔D 

〕进行决策的一种方法。

A、极大似然概率B、先验概率C、边际概率D、后验概率

27某人欲为子女筹措250000元的留学经费,预计在8年内的每年年初在银行存入一笔款项,如银行存款年利率为8%,每年应存入金额为〔D 

28指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度〔 

A、平滑常数B、指数平滑数初始值C、跨越期D、季节指数

29某牙膏厂原来生产两面针药物牙膏,现在又增加牙刷生产,这属于〔B 

A、同心多元化B、水平多元化C、集团多元化D、相关多元化

30净现值、内部收益率、获利指数指标之间的数量关系是〔 

A、当NPV>

0时,IRR>

i,PI<

1B、当NPV>

i,PI>

1

C、当NPV<

1D、当NPV<

1以下关于皮尔森相关分析表达正确的选项是〔 

AB 

A、两变量独立,两者的皮尔森相关系数必然等于0

B、两变量皮尔森相关系数不等于0,两者必然不独立

C、皮尔森相关系数是否等于零,不能指明两变量是否独立

D、两变量不独立,两者的皮尔森相关系数必然不等于0

2在实际数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法有:

〔ABCD 

 

A、直接删除B、使用属性的平均值填充空缺值

C、使用一个全局常量填充空缺值D、使用与给定元组属同一类的所有样本的平均值

3描述变量离期望值大小的指标是〔 

ABC 

A、方差B、变异系数C、标准差D、期望

4以下属于分类器评价或比较尺度的有〔ABD〕

A、预测准确度B、召回率C、模型描述的简洁度D、F1-Score

5以下关于逻辑回归的说法正确的选项是〔 

ACD 

A、应用逻辑回归时,异常值会对模型造成很大的干扰。

B、逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。

C、逻辑回归对模型中自变量的多重共线性较为敏感。

D、逻辑回归属于分类算法。

6以下项目中,其变动可以改变盈亏平衡点位置的因素有〔 

ABCD 

A、单价B、单位变动成本C、销量D、固定成本

7关于基准收益率的表述,正确的选项是〔 

CD 

A、基准收益率越高越好

B、基准收益率越低越好,但不能低于银行贷款利率

C、可以采用项目加权平均资金成本为基础确定基准收益率

D、可以采用国家有关部门或行业统一发布的行业基准收益率

8数据离散化是指为了数据分析的需要,将连续数据转换为离散型数据的过程。

数据离散化的方法有〔 

BD 

A、随机取值B、等距离散法C、数值规约D、等频离散法

9根据分析内容和侧重面不同,风险分析的方法有〔 

ABD 

A、敏感性分析B、概率分析C、经济效益分析D、盈亏平衡分析

10以下说法正确的有〔ABCD 

A、评价预测精度是通过测量与分析预测误差进行的

B、绝对误差是实际观测值与预测值的离差

C、相对误差反映实际观测值与预测值之间差异的相对程度

D、平均误差反映实际观测值与预测值之间的平均差异

11以下公式正确的选项是〔 

A、流动资金=流动资产-流动负债

B、流动资产=应收账款+存货

C、流动负债=应付账款+预收账款

D、流动资金本年增加额=本年流动资金-上年流动资金

12如下哪些不是基于规则的分类器的特点〔 

AC 

A、规则集的表达能力远不如决策树好

B、基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分

C、无法被用来产生更易于解释的描述性模型

D、非常适合处理类分布不平衡的数据集

13以下有关随机森林算法的说法正确的选项是〔 

A、随机森林算法的分类精度不会随着决策树数量的增加而提高。

B、随机森林算法对异常值和缺失值不敏感。

C、随机森林算法不需要考虑过拟合问题。

D、决策树之间相关系数越低、每棵决策树分类精度越高的随机森林模型的分类效果越好。

14以下算法中对缺失值敏感的有〔 

AB 

A、ogistic回归B、SVM算法C、CART决策树D、朴素贝叶斯

15层次聚类的聚类方式有〔 

A、凝聚方式聚类B、分解方式聚类C、Q型聚类D、R型聚类

16方差分析的基本假设前提包括〔 

ABC 

A、各处理条件下的样本均来自正态总体

B、各处理条件下的样本相互独立

C、各处理条件下样本的方差都相等

D、各处理条件下样本均值相等,方差可以不等

17按照性质,预测方法大致可分为〔ACD 

)。

A、定性预测B、情景预测C、时间序列预测D、回归预测

18以下关于统计量的表述中,正确的有〔 

ABD 

A、估计同一个总体参数可以用多个不同的统计量

B、统计量是样本的函数

C、统计量不含有总体的参数

D、统计量是随机变量

19在假设检验中,犯一类错误的概率和犯第二类错误的概率的关系是〔ACE 

A、只能直接控制,不能直接控制

B、和不可能同时减小

C、在其他条件不变的情况下,增大,必然后减小

D、在其他条件不变的情况下,增大,必然后增大

E、增加样本容量可以同时减小和

20概率密度曲线〔AC〕

A、位于X轴的上方

B、在X轴上下摆动

C、与X轴之间的面积为1

D、与X轴之间的面积为0

1数据根据计量尺度不同可以分为分类数据和数值型数据。

2多次抛一枚硬币,正面朝上的频率是1/2。

3归纳法是一种从个别到一般的推理方法。

4datahoop中输入的数据必须是数值型的。

5置信水平是假设检验中犯第一类错误的概率。

6当两种产品为互补品时,其交叉弹性小于零。

7时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。

8需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

9盈亏平衡分析是静态分析不考虑资金的时间价值和项目寿命周期内的现金流量的变化√

10决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。

11随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。

12当倒传递神经网络〔BP神经网络〕无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。

13维规约即事先规定所取模型的维数,可以认为是降维的一种。

14标准差越小,表示离散程度越小,风险越大;

反之离散程度越大,风险越小。

15离群点是一个实际观测值,它与其他观测值的差异如此之大,以至于疑心它是由不同的机制产生的。

1SQL语言中,删除一个表中所有数据,但保留表结构的命令是〔A〕

A、DELETEB、DROPC、CLEARD、REMORE

2数据库系统是由〔A〕组成的

A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表

C、数据库文件结构和数据D、常量、变量和函数

3假设学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度〔C〕

A、可采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数

4以下哪个变量可以反映客户的忠诚度?

〔A〕

A、购买频次B、购买金额C、最后一次购买时间D、购买金额波动率

5以下哪个类型的变量在作预测客户流失的模型中最有解释力度?

〔D〕

A、人口基本数据,比方年龄和性别B、基本社会状态数据,比方收入和职业

C、业务数据,比方消费频次D、业务数据的衍生变量,比方最近3个月消费频次的变化情况

6下面关于聚类分析说法错误的选项是〔A〕

A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:

物以类聚,人以群分

7某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。

则至少订一种报的概率为〔D〕

8在Excel工作表中,在某单元格内输入数值123,不正确的输入形式是〔D〕

A、123B、=123C、+123D、*123

9在对历史数据集进行分区之前进行数据清洗〔缺失值填补等〕的缺点是什么〔D〕

A、违反了建模的假设条件B、加大了处理的难度C、无法针对分区后各个数据集的特征分别做数据清洗D、无法对不同数据清理的方法进行比较,以选择最优方法

10当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理〔B〕

A、直接使用该变量B、根据是否缺失,生成指示变量,仅使用指示变量作为解释变量C、使用多重插补的方法进行缺失值填补D、直接删除该变量

11NaiveBayes是属于数据挖掘中的什么方法?

〔B〕

A、聚类B、分类C、时间序列D、关联规则

12有一条关联规则为A→B,此规则的信心水平(confidence)为60%,则代表〔C〕

A、买B商品的顾客中,有60%的顾客会同时购买A

B、同时购买A,B两商品的顾客,占所有顾客的60%

C、买A商品的顾客中,有60%的顾客会同时购买B

D、两商品A,B在交易数据库中同时被购买的机率为60%

13企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的选项是〔B〕

A、数据越多越好B、尽可能多的适合的数据C、数据越少越好D、以上三条都不正确

14在有指导的数据挖掘中,有关测试集的说法错误的选项是〔A〕

A、测试集和训练集是相互联系的B、测试集是用以测试模型的数据集

C、通常测试集大约占总样本的三分之一D、K-次交叉验证中,测试集只有

15用简单随机重复抽样方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需要扩大到原来的〔C〕

A、2倍B、3倍C、4倍D、5倍

16回归分析的第一步是〔A〕

A、确定解释量和被解释变量B、确定回归模型C、建立回归方程

D、进行检验

17关于主成分数目的选取,正确的选项是〔A〕

A、保留多少个主成分取决于累计方差在方差总和中所占百分比

B、一般选择50%以上

C、选择前两个就可以

D、选择的数目和变量的个数一致

18以下四项中,不属于数据库特点的是〔C〕

A、数据共享B、数据完整性C、数据冗余很高D、数据独立性高

19将复杂的地址简化成北、中、南、东四区,是在进行?

A、数据正规化B、数据一般化C、数据离散化D、数据整合

20以下哪个指标不能用于线性回归中的模型比较〔A〕

A、R方B、调整R方C、AICD、BIC

21RFM方法中的F说明客户的〔A〕

A、兴趣度B、粘性C、当前价值D、未来价值

22数据挖掘技术包括三个主要的部分〔C〕

A、数据、模型、技术B、算法、技术、领域知识C、数据、建模能力、算法与技术D、建模能力、算法与技术、领域知识

23下面关于因子分析的说法正确的选项是〔D〕

A、因子分析就是主成分分析B、因子之间可相关也可不相关C、因子受量纲的影响D、可以对因子进行旋转,使其意义更明显

24以下表达正确的选项是〔B〕

A、极差较少受异常值的影响B、四分位差较少受异常值的影响

C、方差较少受异常值的影响D、标准差较少受异常值的影响

25以下关于人工神经网络〔ANN〕的描述错误的有〔A〕

A、神经网络对训练数据中的噪声非常鲁棒B、可以处理冗余特征C、训练ANN是一个很耗时的过程D、至少含有一个隐藏层的多层神经网络

26当时间序列的环比增长速度大体相同时,适宜拟合〔A〕

A、指数曲线B、抛物线C、直线D、对数曲线

27某家长为了使孩子在第3-6年上大学的4年中,每年年初得到10000元助学基金,他应在2年前在银行存入多少钱?

〔年利率按5%计算〕〔A〕

A、33771B、30291C、32163D、45256

28苹果公司对IPHONE的降价行为属于〔B〕

A、地域性差异定价B、时间性差异定价C、非线性定价或数量折扣定价

D、其他形式的定价

29设X={1,2,3}是频繁项集,则可由X可产生〔B〕个关联规则。

A、3B、4C、5D、6

30以下哪些分类方法可以较好地防止样本的不平衡问题?

A、KNNB、SVMC、BayesD、神经网络

1以下哪个聚类分析的方法是利用统计学定义的距离进行度量〔AB〕

A、层次聚类法B、快速聚类法〔K-Mans〕C、基于密度的聚类法D、基于网格的聚类法

2天猫分析人员希望通过聚类方法定位代商家刷信用级别的违规者,以下那种操作不应该进行(BD)

A、对变量进行标准化B、对变量进行百分位秩或Turkey正态性转换

C、对变量进行因子分析或聚类分析D、对变量进行分箱处理

3如下表student中,如何筛选type为包含数学或语文的记录?

〔BC〕

IDtypescoreA01数学78A02语文76A03英语90A04数学68A05英语84

A、select*fromstudentwheretype=”数学”andtype=”语文”

B、select*fromstudentwheretype=”数学”ortype=”语文”

C、select*fromstudentwheretypein(”数学”,”语文”)

D、select*fromstudentwheretypein(”数学”、”语文”)

4以下哪个分布是右偏分布〔BCD〕

A、均匀分布B、卡方分布C、F分布D、对数正态分布

5在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示(ACE)

A、有充足的理由否认原假设B、原假设必定是错误的

C、犯错误的概率不大于aD、犯错误的概率不大于b

E、在H。

成立的情况下发生了小概率事件

6假设检验统计量F近似等于1,说明〔AD〕

A、组间方差中不包含系统因素的影响

B、组内方差中不包含系统因素的影响

C、组间方差中包含系统因素的影响

D、方差分析中不应拒绝原假设

7以下何种算法可以帮助我们做数值的预测(Prediction)?

〔BD〕

A、AprioriB、DecisionTreeC、NaiveBayesD、LinearRegression

8某种产品的生产总费用2003年为50万元,比2002年多2万元,而单位产品成本2003年比2002年降低5%,则〔ACDE〕

9配合一元线性回归方程须具备以下前提条件〔ABCD〕

A、现象间确实存在数量上的相互依存关系

B、现象间的关系是直线关系,这种直线关系可用散点图来表示

C、具备一组自变量与因变量的对应资料,且能明确哪个是自变量,哪个是因变量

D、两个变量之间不是对等关系

10回归变差〔或回归平方和〕是指〔BCD〕

A、被解释变量的实际值与平均值的离差平方和

B、被解释变量的回归值与平均值的离差平方和

C、被解释变量的总变差与剩余变差之差

D、解释变量变动所引起的被解释变量的变差

11产品成本费用按其与产量变化的关系分为〔AB〕

A、可变成本B、固定成本C、付现成本D、沉没成本

12统计决策的基本原则是〔ACD)

A、可行性B、发展性C、合理性D、经济性

13随机抽样方法有〔ACD〕

A、等距随机抽样B、综合随机抽样C、简单随机抽样D、分群随机抽样

14完全竞争性的市场具有〔ACD〕等特点。

A、任一企

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1