数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx
《数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx(18页珍藏版)》请在冰豆网上搜索。
按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。
狄克逊检验法:
假设一组数据有序x1<
x2<
…<
xn,且服从正态分布,则异常值最有可能出现在两端x1和xn。
格拉布斯检验法:
与狄克逊检验法思想一样,其检验公式为:
指数分布检验:
SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部;
2、什么是聚类分析?
聚类算法有哪几种?
请选择一种详细描述其计算原理和步骤。
聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析计算方法主要有:
层次的方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。
其中,前两种算法是利用统计学定义的距离进行度量。
常见的聚类方法有:
K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综合了基于密度和基于网格的算法);
k-means算法的工作过程说明如下:
首先从n个数据对象任意选择k个对象作为初始聚类中心;
而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;
然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);
不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数.k个聚类具有以下特点:
各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:
(1)从n个数据对象任意选择k个对象作为初始聚类中心;
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;
并根据最小距离重新对相应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环
(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点:
本算法确定的K个划分到达平方误差最小。
当聚类是密集的,且类与类之间区别明显时,效果较好。
对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,K是聚类中心,t是迭代的次数。
缺点:
1.K是事先给定的,但非常难以选定;
2.初始聚类中心的选择对聚类结果有较大的影响。
3.数据标准化技术
是将数据按比例缩放,使之落入一个小的特定区间。
去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
常用的方法有:
(1)总和标准化。
分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即
4.缺失值处理方法
1)直接丢弃含缺失数据的记录
如:
个案剔除法,这种方法却有很大的局限性。
它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。
当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。
2)补缺
A.用平均值来代替所有缺失数据:
均值替换法,均值替换法也是一种简便、快速的缺失数据处理方法。
使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。
但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。
B.K-最近距离邻居法:
先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
C.用预测模型来预测每一个缺失数据:
该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。
回归替换法,该方法也有诸多弊端,第一,容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
5..Apriori算法和信息熵
信息熵是数学中一个抽象的概念,他表示了信息源的不确定度,这里不妨把信息熵理解成某种特定信息的出现概率,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。
我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。
支持度:
Support(A->
B)=P(AUB)。
支持度揭示了A与B同时出现的概率。
如果A与B同时出现的概率小,说明A与B的关系不大;
如果A与B同时出现的非常频繁,则说明A与B总是相关的。
置信度(Confidence)的公式式:
Confidence(A->
B)=P(A|B)。
置信度揭示了A出现时,B是否也会出现或有多大概率出现。
如果置信度度为100%,则A和B可以捆绑销售了。
如果置信度太低,则说明A的出现与B是否出现关系不大。
H(x)=E[I(xi)]=E[log(2,1/p(xi))]=-∑p(xi)log(2,p(xi))(i=1,2,..n),单位是bit.
其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。
P(x)表示输出概率函数。
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大.
以频繁项集{I1,I2,I3}为例产生强关联规则,最小置信度为40%
(1)频繁项集{I1,I2,I3}的非空子集有{I1,I2},{I1,I3},{I2,I3},{I1},{I2},{I3}
(2)产生强关联规则
{I1,I2}=>
I3confidence=support({I1,I2,I3})/support({I1,I2})=2/4=0.5
{I1,I3}=>
I2confidence=support(I1,I2,I3)/support(I1,I3)=2/4=0.5
{I2,I3}=>
I1confidence=support(I1,I2,I3)/support(I2,I3)=2/4=0.5
I1=>
{I2,I3}confidence=support(I1,I2,I3)/support(I1)=2/6=0.33
I2=>
{I1,I3}confidence=support(I1,I2,I3)/support(I2)=2/7=0.29
I3=>
{I1,I2}confidence=support(I1,I2,I3)/support(I3)=2/6=0.33
则强关联规则为:
I3;
{I1,I3};
I1
3、根据要求写出SQL(没有学习过,之后的学习中需要补)
表A结构如下:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
URL(访问的页面地址,字符型)
要求:
提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
参考答案:
createtableBasselectMember_ID,min(Log_time),URLfromAgroupbyMember_ID;
5、用户调研
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a)试验需要为决策提供什么样的信息?
c)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a)试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b)根据三类客户的数量,采用分层比例抽样;
需要采集的数据指标项有:
客户类别,改进计划前周消费次数,改进计划后周消费次数;
选用统计方法为:
分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验
6.常见的抽样方法有哪些?
常用的有以下六种类型:
简单抽样(Simplesampling)
即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。
例如:
按照“抽签法”、“随机表”法抽取访问对象,从单位人名目录中抽取对象。
随机度高,在特质较均一的总体中,具有很高的总体代表度;
是最简单的抽样技术,有标准而且简单的统计公式。
缺点:
未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低;
有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体。
系统抽样(Systematicrandomsampling)
将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。
其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。
从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点<间距)后每100号码抽一访问号码。
兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。
如果起点是随机确定的,总体中单元排列是随机的,等距抽样的效果近似简单抽样;
与简单抽样相比,在一定条件下,样本的分布较好。
抽样间隔可能遇到总体中某种未知的周期性,导致“差”的样本;
未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低。
分层抽样(Stratifiedrandomsampling)
是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。
调查零售店时,按照其规模大小或库存额大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;
调查城市时,按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等,再抽出具体的各类型城市若干。
适用于层间有较大的异质性,而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;
能保证“层”的代表性,避免抽到“差”的样本;
同时,不同层可以依据情况采用不同的抽样框和抽样方法。
要求有高质量的、能用于分层的辅助信息;
由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂;
抽样误差估计比简单抽样和系统抽样更复杂。
整群抽样(Clustersampling)(层层深入抽样,不断缩小抽样的范围)
是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。
入户调查,按地块或居委会抽样,以地块或居委会等有地域边界的群体为第一抽样单位,在选出的地块或居委会实施逐户抽样;
市场调查中,最后一