1、南开大学数据科学导论20秋在线作业2参考答案1.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=100-1.2X,这说明()。A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元C.产量每增加一台,单位成本平均减少1.2元D.产量每增加一台,单位平均增加100元答案:C2.置信度(confidence)是衡量兴趣度度量()的指标。A.简洁性B.确定性C.实用性D.新颖性答案:B3.实体识别属于以下哪个过程?()A.数据清洗B.数据集成C.数据规约D.数据变换答案:B4.在一元线性回归模型中,残差项服从()分布。A.泊松B.正态C.线性D.非线性答案
2、:B5.手肘法的核心指标是()。A.SESB.SSEC.RMSED.MSE答案:B6.单层感知机模型属于()模型。A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类模型D.多分类的非线性分类模型答案:A7.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A.关联规则发现B.聚类C.分类D.自然语言处理答案:A8.下列两个变量之间的关系中,哪个是函数关系?()A.人的性别和他的身高B.人的工资与年龄C.正方形的面积和边长D.温度与湿度答案:C9.聚类是一种()。A.有监督学习B.无监督学习C.强化学习D.半监督学习答案:B10.以
3、下哪些不是缺失值的影响?()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出答案:C11.多层感知机是由()层神经元组成。A.二B.三C.大于等于二层D.大于等于三层答案:D12.以下哪一项不属于数据变换?()A.简单函数变换B.规范化C.属性合并D.连续属性离散化答案:C13.以下哪一项不是特征工程的子问题?()A.特征创建B.特征提取C.特征选择D.特征识别答案:D14.哪一项不属于规范化的方法?()A.最小最大规范化B.零均值规范化C.小数定标规范化D.中位数规范化答案:D15.在k近邻法中
4、,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。A.减小,减小B.减小,增大C.增大,减小D.增大,增大答案:B16.在回归分析中,自变量为(),因变量为()。A.离散型变量,离散型变量B.连续型变量,离散型变量C.离散型变量,连续型变量D.连续型变量,连续型变量答案:D17.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A.1,线性B.2,线性C.1,非线性D.2,非线性答案:A18.以下属于关联分析的是()。A.CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模答案:B19.通过构造新的指标-线损率,当超出线损率的正常范围, 则
5、可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()。A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案:C20.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。A.自上而下B.自下而上C.自左而右D.自右而左答案:B21.多层感知机的学习过程包含()。A.信号的正向传播B.信号的反向传播C.误差的正向传播D.误差的反向传播答案:AD22.下面例子属于分类的是()。A.检测图像中是否有人脸出现B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量答案:ABC23.距离度量中的距离可以是()。A.欧式距离B.曼哈顿距离C.Lp距
6、离D.Minkowski距离答案:ABCD24.Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D.事务平均宽度答案:ABCD25.下列选项是BFR的对象是()。A.废弃集B.临时集C.压缩集D.留存集答案:ACD26.系统日志收集的基本特征有()。A.高可用性B.高可靠性C.可扩展性D.高效率答案:ABC27.一元回归参数估计的参数求解方法有()。A.最大似然法B.距估计法C.最小二乘法D.欧式距离法答案:ABC28.k近邻法的基本要素包括()。A.距离度量B.k值的选择C.样本大小D.分类决策规则答案:ABD29.K-means聚类中K值选取的方法是()。A.密度
7、分类法B.手肘法C.大腿法D.随机选取答案:AB30.聚类的主要方法有()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类答案:ABC31.决策树分类时将该结点的实例强行分到条件概率大的那一类去。()A.正确B.错误答案:A32.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。()A.正确B.错误答案:B33.阶跃函数具有不光滑、不连续的特点。()A.正确B.错误答案:A34.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。()A.正确B.错误答案:B35.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预
8、测结果会对近邻的点实例点非常敏感。()A.正确B.错误答案:A36.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。()A.正确B.错误答案:A37.决策树内部结点表示一个类,叶结点表示一个特征或属性。()A.正确B.错误答案:B38.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能。()A.正确B.错误答案:A39.信息熵越小,样本结合的纯度越低。()A.正确B.错误答案:B40.决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分
9、,也对应着决策树的构建。()A.正确B.错误答案:A41.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。()A.正确B.错误答案:B42.数据分析师的任务用模型来回答具体问题,了解数据,其来源和结构。()A.正确B.错误答案:B43.集中趋势能够表明在一定条件下数据的独特性质与差异。()A.正确B.错误答案:B44.对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。()A.正确B.错误答案:A45.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。()A.正确B.错误答案:A46.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。()A.正确B.错误答案:A47.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。()A.正确B.错误答案:A48.增加神经元的个数,无法提高神经网络的训练精度。()A.正确B.错误答案:B49.K-means算法采用贪心策略,通过迭代优化来近似求解。()A.正确B.错误答案:A50.使用SVD方法进行图像压缩不可以保留图像的重要特征。()A.正确B.错误答案:B
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1