1、20秋学期南开大学数据科学导论在线作业20秋学期(1709、1803、1809、1903、1909、2003、2009 )数据科学导论在线作业1:对于k近邻法,下列说法错误的是()。A、不具有显式的学习过程B、适用于多分类任务C、k值越大,分类效果越好D、通常采用多数表决的分类决策规则答案:C2:以下哪个不是处理缺失值的方法()A、删除记录B、按照一定原则补充C、不处理D、随意填写答案:D3:在一元线性回归模型中,残差项服从()分布。A、泊松B、正态C、线性D、非线性答案:B4:一元线性回归中,真实值与预测值的差称为样本的()。A、误差B、方差C、测差D、残差答案:D5:Apriori算法的加
2、速过程依赖于以下哪个策略( )A、抽样B、剪枝C、缓冲D、并行答案:B6:数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A、异常值B、缺失值C、不一致的值D、重复值答案:C7:单层感知机模型属于()模型。A、二分类的线性分类模型B、二分类的非线性分类模型C、多分类的线性分类模型D、多分类的非线性分类模型答案:A8:层次聚类适合规模较()的数据集A、大B、中C、小D、所有答案:C9:通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A
3、、简单函数变换B、规范化C、属性构造D、连续属性离散化答案:C10:例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A、简单函数变换B、规范化C、属性构造D、连续属性离散化答案:B11:在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。A、越小B、越大C、无关D、不确定答案:B12:考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,
4、3,4,5答案:C13:具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A、1,线性B、2,线性C、1,非线性D、2,非线性答案:A14:实体识别属于以下哪个过程()A、数据清洗B、数据集成C、数据规约D、数据变换答案:B15:通过变量标准化计算得到的回归方程称为()。A、标准化回归方程B、标准化偏回归方程C、标准化自回归方程D、标准化多回归方程答案:A16:我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。A、自上而下B、自下而上C、自左而右D、自右而左答案:B17:聚类是一种()。A、有监督学习B、无监督学习C、强化学习D、半监督学习答案
5、:B18:利用最小二乘法对多元线性回归进行参数估计时,其目标为()。A、最小化方差#最小化标准差B、最小化残差平方和C、最大化信息熵答案:C19:实体识别的常见形式()A、同名异义B、异名同义C、单位不统一D、属性不同答案:D20:以下哪一项不属于数据变换()A、简单函数变换B、规范化C、属性合并D、连续属性离散化答案:C21:距离度量中的距离可以是()A、欧式距离B、曼哈顿距离C、Lp距离D、Minkowski距离答案:A,B,C,D22:Apriori算法的计算复杂度受()影响。A、支持度阈值B、项数C、事务数D、事务平均宽度答案:A,B,C,D23:K-means聚类中K值选取的方法是(
6、)。A、密度分类法B、手肘法C、大腿法D、随机选取答案:A,B24:聚类的主要方法有()。A、划分聚类B、层次聚类C、密度聚类D、距离聚类答案:A,B,C25:对于多层感知机,()层拥有激活函数的功能神经元。A、输入层B、隐含层C、输出层答案:B,C26:什么情况下结点不用划分()A、当前结点所包含的样本全属于同一类别B、当前属性集为空,或是所有样本在所有属性上取值相同C、当前结点包含的样本集为空D、还有子集不能被基本正确分类答案:A,B,C27:下列选项是BFR的对象是()A、废弃集B、临时集C、压缩集D、留存集答案:A,C,D28:系统日志收集的基本特征有()A、高可用性B、高可靠性C、可
7、扩展性D、高效率答案:A,B,C29:下面例子属于分类的是()A、检测图像中是否有人脸出现B、对客户按照贷款风险大小进行分类C、识别手写的数字D、估计商场客流量答案:A,B,C30:k近邻法的基本要素包括()。A、距离度量B、k值的选择C、样本大小D、分类决策规则答案:A,B,D31:一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。T、对F、错答案:T32:给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。T、对F、错答案:F33:Pear
8、son相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。T、对F、错答案:T34:特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。T、对F、错答案:T35:两个对象越相似,他们的相异度就越高。T、对F、错答案:F36:朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能T、对F、错答案:T37:获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。T、对F、错答案:F38:选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。T、对F、
9、错答案:T39:K均值(K-Means)算法是密度聚类。T、对F、错答案:F40:K-means算法采用贪心策略,通过迭代优化来近似求解。T、对F、错答案:T41:赤池信息准则是衡量统计模型拟合优良性的一种标准。T、对F、错答案:T42:平均减少的不纯度越大,则特征重要度越高。T、对F、错答案:T43:标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。T、对F、错答案:F44:子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。T、对F、错答案:T45:数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选T、对F、错答案:T46:探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。T、对F、错答案:T47:决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建T、对F、错答案:T48:给定关联规则AB,意味着:若A发生,B也会发生。T、对F、错答案:F49:信息熵越大,数据信息的不确定性越小。T、对F、错答案:F50:对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。T、对F、错答案:T
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1