干货Alibaba数据分析师实习试题解析Word文档格式.docx
《干货Alibaba数据分析师实习试题解析Word文档格式.docx》由会员分享,可在线阅读,更多相关《干货Alibaba数据分析师实习试题解析Word文档格式.docx(19页珍藏版)》请在冰豆网上搜索。
层次的方法(hierarchicalmethod)、划分方法
两种算法是利用统计学定义的距离进行度量。
它们分配给与其最相似的(聚类中心所代表的)聚类;
然后再计算每个所获新聚类的聚类
中心(该聚类中所有对象的均值);
不断重复这一过程直到标准测度函数开始收敛为止。
般都采用均方差作为标准测度函数.k个聚类具有以下特点:
各聚类本身尽可能的紧凑,
而各聚类之间尽可能的分开。
其流程如下:
(1)从n个数据对象任意选择k个对象作为初始聚类中心;
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;
并根据最小距离重新对相应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环
(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点:
本算法确定的K个划分到达平方误差最小。
当聚类是密集的,且类与类之间区别明显时,效果较好。
对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度
为O(NKt),其中N是数据对象的数目,t是迭代的次数。
一般来说,K<
<
N,t<
N。
缺点:
1.K是事先给定的,但非常难以选定;
2.初始聚类中心的选择对聚类结果有较大的影响。
三、根据要求写出SQL表A结构如下:
MembeMD(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
URL(访问的页面地址,字符型)
要求:
提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
createtableBasselectMember_ID,min(Log_time),URLfromAgroupby
MembeMD;
四、销售数据分析以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,
a)从数据中,你看到了什么问题?
你觉得背后的原因是什么?
b)如果你的老板要求你提出一个运营改进计划,你会怎么做?
表如下:
一组每天某网站的销售数据
a)从这一周的数据可以看出,周末的销售额明显偏低。
这其中的原因,可以从两个角度来看:
站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;
站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。
b)针对该问题背后的两方面原因,我的运营改进计划也分两方面:
一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;
二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。
五、用户调研某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a)试验需要为决策提供什么样的信息?
c)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a)试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b)根据三类客户的数量,采用分层比例抽样;
需要采集的数据指标项有:
客户类别,改进计划前周消费次数,改进计划后周消费次数;
选用统计方法为:
分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立
摘录一段
首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集
成,数据的变换和数据规约。
具,OLAPServer、数据库、数据挖掘工具)和熟悉程度。
ETL工具:
AscentialDataStage,IBMwarehouseMANAGER、Informatica公
司的PowerCenter、Cognos公司的DecisionStream
TERADATA
请谈一下你对元数据管理在数据仓库中的运用的理解。
元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统
以最有效的方式访问数据。
具体来说,在数据仓库系统中,元数据机制主要支持以下五类系
统管理功能:
(1)描述哪些数据在数据仓库中;
(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;
(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;
(4)记录并检测系统数据一致性的要求和执行情况;
(5)衡量数据质量。
(6)
数据挖掘对聚类的数据要求是什么?
发现任意形状的聚类
使输入参数的领域知识最小化
基于约束的聚类
简述Apriori算法的思想,谈谈该算法的应用领域并举例。
思想:
其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满
足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。
在商务、金融、保险等领域皆有应用。
在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori算法
通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)?
单选题
1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
(A)
A.关联规则发现B.聚类
C.分类D.自然语言处理
2.
(A)
以下两种描述分别对应哪两种对分类算法的评价标准?
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A.Precision,RecallB.Recall,Precision
A.Precision,ROCD.Recall,ROC
3.
(C)
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘
4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
(B)
A.分类B.聚类C.关联分析D.隐马尔可夫链
5.什么是KDD?
A.数据挖掘与知识发现B.领域知识发现
C.文档知识发现D.动态知识发现
6.
A)
(B)
使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?
(
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
7.为数据的总体分布建模;
把多维空间划分成组等问题属于数据挖掘的哪一类任务?
A.探索性数据分析B.建模描述
8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
(C)
A.根据内容检索B.建模描述
9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?
A变量代换B离散化C聚集D估计遗漏值
15在第几个箱子
12.假设12个销售价格记录组已经排序如下:
5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,
内?
14.下面哪个不属于数据的属性类型:
(D)
A标称B序数C区间D相异15.在上题中,属于定量的属性类型是:
A标称B序数C区间D相异
16.只有非零值才重要的二元属性被称作:
A嵌入B过滤C包装D抽样
A特征提取B特征修改C映射数据到新的空间D特征构造19.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)
A2B3C3.5D5
A傅立叶变换B特征加权C渐进抽样D维归约
21.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:
A1比特B2.6比特C3.2比特D3.8比特
的方法将属性的值映射到
22.假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化
0至1的范围内。
对属性income的73600元将被转化为:
A0.821B1.224C1.458D0.716
23.假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):
13,
15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,
40,45,46,52,70,问题:
使用按箱平均值平滑方法对上述数据进行平滑,箱的深度
为3。
第二个箱子值为:
A18.3B22.6C26.8D27.9
A31B24C55D3
25.一所大学内的各年纪人数分别为:
一年级200人,二年级160人,三年级130人,
四年级110人。
则年级属性的众数是:
A一年级B二年级C三年级D四年级
A等高线图B饼图C曲面图D矢量场图
A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样
28.数据仓库是随着时间变化的,下面的描述不正确的是(C)
D.
数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
29.关于基本数据的元数据是指:
(D)
A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息
B.基本元数据包括与企业相关的管理方面的数据和信息
C.基本元数据包括日志文件和简历执行处理的时序调度信息
D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息
30.下面关于数据粒度的描述不正确的是:
31.有关数据仓库的开发特点,不正确的描述是:
A.数据仓库开发要从数据出发
B.数据仓库使用