1、A、不具有显式的学习过程B、适用于多分类任务C、k值越大,分类效果越好D、通常采用多数表决的分类决策规则C5:在回归分析中,自变量为(),因变量为()。A、离散型变量,离散型变量B、连续型变量,离散型变量C、离散型变量,连续型变量D、连续型变量,连续型变量D6:聚类是一种()。A、有监督学习B、无监督学习C、强化学习D、半监督学习7:考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3
2、,4,58:设X=1,2,3是频繁项集,则可由X产生()个关联规则。A、4B、5C、6D、79:以下哪个不是处理缺失值的方法()A、删除记录B、按照一定原则补充C、不处理D、随意填写10:在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。A、最优回归线B、最优分布线C、最优预测线D、最佳分布线A11:维克托迈尔-舍恩伯格在大数据时代:生活、工作与思维的大变革一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )A、K-meansB、Baye
3、s NetworkC、C4.5D、Apriori12:为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。A、1B、2C、3D、413:下列两个变量之间的关系中,哪个是函数关系()。A、人的性别和他的身高B、人的工资与年龄C、正方形的面积和边长D、温度与湿度14:K-means聚类适用的数据类型是()。A、数值型数据B、字符型数据C、语音数据D、所有数据15:单层感知机拥有()层功能神经元。A、一B、二C、三D、四16:在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。A、越小B、越大C、无关D、不确定17:某商品的产量(X,件)与单位成本(
4、Y,元/件)之间的回归方程为Y=100-1.2X,这说明()。A、产量每增加一台,单位成本增加100元B、产量每增加一台,单位成本减少1.2元C、产量每增加一台,单位成本平均减少1.2元D、产量每增加一台,单位平均增加100元18:下面不是分类的常用方法的有()A、K近邻法B、朴素贝叶斯C、决策树D、条件随机场19:具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A、1,线性B、2,线性C、1,非线性D、2,非线性20:数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A、异常值
5、B、缺失值C、不一致的值D、重复值21:相关性的分类,按照相关的方向可以分为()。A、正相关B、负相关C、左相关D、右相关A,B22:系统日志收集的基本特征有()A、高可用性B、高可靠性C、可扩展性D、高效率A,B,C23:聚类的主要方法有()。A、划分聚类B、层次聚类C、密度聚类D、距离聚类24:K-means聚类中K值选取的方法是()。A、密度分类法B、手肘法C、大腿法D、随机选取25:多层感知机的学习过程包含()。A、信号的正向传播B、信号的反向传播C、误差的正向传播D、误差的反向传播A,D26:什么情况下结点不用划分()A、当前结点所包含的样本全属于同一类别B、当前属性集为空,或是所有
6、样本在所有属性上取值相同C、当前结点包含的样本集为空D、还有子集不能被基本正确分类27:Apriori算法的计算复杂度受()影响。A、支持度阈值B、项数C、事务数D、事务平均宽度A,B,C,D28:层次聚类的方法是()A、聚合方法B、分拆方法C、组合方法D、比较方法29:k近邻法的基本要素包括()。A、距离度量B、k值的选择C、样本大小D、分类决策规则A,B,D30:距离度量中的距离可以是()A、欧式距离B、曼哈顿距离C、Lp距离D、Minkowski距离31:贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。T、对F、错T32:在树的结构中,特征越重要,就越远离根
7、节点。F33:使用SVD方法进行图像压缩不可以保留图像的重要特征。34:给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。35:Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。36:探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。37:BFR聚类簇的坐标可以与空间的坐标保持一致。38:决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布39:
8、当特征为离散型时,可以使用信息增益作为评价统计量。40:随着特征维数的增加,样本间区分度提高。41:K-means算法采用贪心策略,通过迭代优化来近似求解。42:多元线性回归模型中,标准化偏回归系数没有单位。43:关联规则可以用枚举的方法产生。44:获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。45:sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。46:当训练集较大的时候,标准BP算法通常会更快的获得更好的解。47:交叉表被广泛用于调查研究,商业智能,工程和科学研究48:K-means聚类是发现给定数据集的K个簇的算法。49:给定关联规则AB,意味着:若A发生,B也会发生。50:数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1