南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx-资源下载

南开20秋学期《数据分析》在线作业F335354002C44EEE99.docx

1、南开20秋学期数据分析在线作业F335354002C44EEE9920秋学期（1709、1803、1809、1903、1909、2003、2009 ）数据分析在线作业（）反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念A:训练误差B:测试误差C:统计误差D:平均误差答案：B支持向量机的MapReduce实现要进行几轮MapReduce（）A:1B:2C:3D:自行规定答案：D类的R型聚类是指（）A:对样本个体进行聚类B:对指标变量进行聚类。答案：B在估计PLSA生成模型的参数时，使用（）A:极大似然估计B:对数似然函数C:特征独立假设D:贝叶斯定理答案：A在链接作弊的垃圾农场中，

2、作弊者拥有并完全控制的网页称为（）A:不可达网页B:可达网页C:自有网页答案：C潜在语义分析创新地引入了（）A:单词维度B:文本维度C:话题维度答案：C非频繁模式（）A:其置信度小于阈值B:令人不感兴趣C:包含负模式和负相关模式D:对异常数据项敏感答案：D置信度(confidence)是衡量兴趣度度量（）的指标A:简洁性B:确定性C:实用性D:新颖性答案：B决策树中的叶结点表示（）A:特征B:类C:属性D:值域输出答案：B数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。A:运营式系统阶段B:用户原创内容阶段C:感知式系统阶段答案：B文本中所有单词的出现情况表示了文本的（）A

3、:种类B:特征C:语义内容D:语义结构答案：C闵式距离参数是（）时代表曼哈顿距离A:0B:1C:2D:无穷答案：B为了计算中介度，必须计算所有边上（）的数目。A:所有路径B:最短路径C:结点入度D:节点出度答案：B聚类属于（）A:有监督学习B:无监督学习C:强化学习D:对抗学习答案：B评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。A:准确率B:精确率C:召回率D:F1值答案：A逻辑斯谛分布的分布函数范围在（）A:(-，+)B:(0,1)C:(-1/2,1/2)D:(-1,1)答案：BApriori算法的加速过程依赖于以下哪个策略（）A:抽样B:剪枝C:缓冲D:并行答案：B

4、向量空间模型中，将单词在文本中出现的数据用一个（）表示A:单词-文本矩阵B:单词-向量矩阵C:距离矩阵D:权重矩阵答案：A潜在语义分析中，以（）表示文本的语义内容A:话题B:话题向量C:语义向量D:距离向量答案：BKNN算法用MapReduce实现，要进行几轮MapReduce（）A:1B:2C:3D:4答案：B按社团形成机制分类，社团包括（）A:明显的社团B:预定义社团C:自组织社团D:隐含的社团答案：B,C决策树的生成过程是（）A:递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类B:如果这些子集已经能够被基本正确分类，

5、那么构建叶结点，并将这些子集分到所对应的叶结点中去C:构建根结点，将所有训练数据都放在根结点D:选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类E:如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点答案：A,B,C,D,E回归分析方法中，按照输入变量个数分类，可分为A:一元回归B:多元回归C:线性回归D:非线性回归答案：A,B下列哪些任务适合构建分类模型（）A:银行业务中，客户申请贷款，根据客户的相关数据分析他是属于“诚信”类还是“失信”类B:邮件系统可以根据email标题和内容区分出垃圾邮件C:医学

6、研究人员根据病理数据，合理辨识病情状况，采取合理治疗手段D:房价预测答案：A,B,CID3算法流程为（）A:从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点B:所有特征的信息增益均很小或没有特征可以选择C:得到一个决策树D:对子结点递归地调用，构建决策树答案：A,B,C,D大数据在电信中的应用有A:基于用户、业务及流量分级的多维管控机制B:精准的客户分析及营销C:利用位置和轨迹信息服务社会答案：A,B,C统计学习方法的组成A:监督学习B:无监督学习C:强化学习答案：A,B,C大数据在教育中的应用A:网上公开课B:慕课C:智慧校

7、园D:翻转课堂答案：A,B,C,D下列属于朴素贝叶斯缺点的是（）A:分类效果不稳定B:不适合增量式训练C:先验模型可能导致结果不佳D:对缺失数据不太敏感答案：C,D基于分类对象的分类有（）A:Q型聚类B:凝聚方式C:R型聚类D:分解方式答案：B,DkNN算法中，选择较大的k值“学习”的估计误差会减小。（）A:对B:错答案：ASVM是在特征空间上的间隔最大的线性分类器。（）A:对B:错答案：A可信度是对关联规则的准确度的衡量。A:对B:错答案：A要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的学习目的A:对B:错答案：A如果一个网页被很多网页所指向，那么该网页很

8、可能是重要的。（）A:对B:错答案：AFP-growth算法可以避免冗余的IO读写A:对B:错答案：A通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习。（）A:对B:错答案：A大数据的速度快体现在数据产生速度快和要求分析处理速度快A:对B:错答案：AID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。A:对B:错答案：B数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。A:对B:错答案：ATrustRank算法中，创建优质网页集合时，不会选择成员受限的域名。A:对B:错答案：B聚类分析中，一个类是样本的一个子集。A:对B:错答案：A决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。（）A:对B:错答案：Bk均值聚类是硬聚类。（）A:对B:错答案：A关联规则可以用枚举的方法产生。A:对B:错答案：ADAG中的父节点是唯一的。A:对B:错答案：BPageRank算法是图数据上的无监督学习方法。（）A:对B:错答案：ATF-IDF算法中，IDF指的是文档频率A:对B:错答案：B监督学习是从标注数据中学习预测模型的机器学习问题A:对B:错答案：A朴素贝叶斯等价于期望风险最小化。（）A:对B:错答案：A

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？