1、南开20秋学期数据分析在线作业F335354002C44EEE9920秋学期(1709、1803、1809、1903、1909、2003、2009 )数据分析在线作业()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念A:训练误差B:测试误差C:统计误差D:平均误差答案:B支持向量机的MapReduce实现要进行几轮MapReduce()A:1B:2C:3D:自行规定答案:D类的R型聚类是指()A:对样本个体进行聚类B:对指标变量进行聚类。答案:B在估计PLSA生成模型的参数时,使用()A:极大似然估计B:对数似然函数C:特征独立假设D:贝叶斯定理答案:A在链接作弊的垃圾农场中,
2、作弊者拥有并完全控制的网页称为()A:不可达网页B:可达网页C:自有网页答案:C潜在语义分析创新地引入了()A:单词维度B:文本维度C:话题维度答案:C非频繁模式( )A:其置信度小于阈值B:令人不感兴趣C:包含负模式和负相关模式D:对异常数据项敏感答案:D置信度(confidence)是衡量兴趣度度量( )的指标A:简洁性B:确定性C:实用性D:新颖性答案:B决策树中的叶结点表示()A:特征B:类C:属性D:值域输出答案:B数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。A:运营式系统阶段B:用户原创内容阶段C:感知式系统阶段答案:B文本中所有单词的出现情况表示了文本的()A
3、:种类B:特征C:语义内容D:语义结构答案:C闵式距离参数是()时代表曼哈顿距离A:0B:1C:2D:无穷答案:B为了计算中介度,必须计算所有边上()的数目。A:所有路径B:最短路径C:结点入度D:节点出度答案:B聚类属于()A:有监督学习B:无监督学习C:强化学习D:对抗学习答案:B评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。A:准确率B:精确率C:召回率D:F1值答案:A逻辑斯谛分布的分布函数范围在()A:(-,+)B:(0,1)C:(-1/2,1/2)D:(-1,1)答案:BApriori算法的加速过程依赖于以下哪个策略( )A:抽样B:剪枝C:缓冲D:并行答案:B
4、向量空间模型中,将单词在文本中出现的数据用一个()表示A:单词-文本矩阵B:单词-向量矩阵C:距离矩阵D:权重矩阵答案:A潜在语义分析中,以()表示文本的语义内容A:话题B:话题向量C:语义向量D:距离向量答案:BKNN算法用MapReduce实现,要进行几轮MapReduce()A:1B:2C:3D:4答案:B按社团形成机制分类,社团包括()A:明显的社团B:预定义社团C:自组织社团D:隐含的社团答案:B,C决策树的生成过程是()A:递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类B:如果这些子集已经能够被基本正确分类,
5、那么构建叶结点,并将这些子集分到所对应的叶结点中去C:构建根结点,将所有训练数据都放在根结点D:选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类E:如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点答案:A,B,C,D,E回归分析方法中,按照输入变量个数分类,可分为A:一元回归B:多元回归C:线性回归D:非线性回归答案:A,B下列哪些任务适合构建分类模型()A:银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类B:邮件系统可以根据email标题和内容区分出垃圾邮件C:医学
6、研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段D:房价预测答案:A,B,CID3算法流程为()A:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点B:所有特征的信息增益均很小或没有特征可以选择C:得到一个决策树D:对子结点递归地调用,构建决策树答案:A,B,C,D大数据在电信中的应用有A:基于用户、业务及流量分级的多维管控机制B:精准的客户分析及营销C:利用位置和轨迹信息服务社会答案:A,B,C统计学习方法的组成A:监督学习B:无监督学习C:强化学习答案:A,B,C大数据在教育中的应用A:网上公开课B:慕课C:智慧校
7、园D:翻转课堂答案:A,B,C,D下列属于朴素贝叶斯缺点的是()A:分类效果不稳定B:不适合增量式训练C:先验模型可能导致结果不佳D:对缺失数据不太敏感答案:C,D基于分类对象的分类有()A:Q型聚类B:凝聚方式C:R型聚类D:分解方式答案:B,DkNN算法中,选择较大的k值“学习”的估计误差会减小。()A:对B:错答案:ASVM是在特征空间上的间隔最大的线性分类器。()A:对B:错答案:A可信度是对关联规则的准确度的衡量。A:对B:错答案:A要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的A:对B:错答案:A如果一个网页被很多网页所指向,那么该网页很
8、可能是重要的。()A:对B:错答案:AFP-growth算法可以避免冗余的IO读写A:对B:错答案:A通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。()A:对B:错答案:A大数据的速度快体现在数据产生速度快和要求分析处理速度快A:对B:错答案:AID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。A:对B:错答案:B数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。A:对B:错答案:ATrustRank算法中,创建优质网页集合时,不会选择成员受限的域名。A:对B:错答案:B聚类分析中,一个类是样本的一个子集。A:对B:错答案:A决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。()A:对B:错答案:Bk均值聚类是硬聚类。()A:对B:错答案:A关联规则可以用枚举的方法产生。A:对B:错答案:ADAG中的父节点是唯一的。A:对B:错答案:BPageRank算法是图数据上的无监督学习方法。()A:对B:错答案:ATF-IDF算法中,IDF指的是文档频率A:对B:错答案:B监督学习是从标注数据中学习预测模型的机器学习问题A:对B:错答案:A朴素贝叶斯等价于期望风险最小化。()A:对B:错答案:A
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1