数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx

资源描述

数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx

《数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx（18页珍藏版）》请在冰豆网上搜索。

数据分析岗位笔试题目总结资料讲解Word格式文档下载.docx

按照t分布的实际误差分布范围来判别异常值，首先剔除一个可疑值，然后按t分布来检验剔除的值是否为异常值。

狄克逊检验法：

假设一组数据有序x1<

x2<

…<

xn，且服从正态分布，则异常值最有可能出现在两端x1和xn。

格拉布斯检验法：

与狄克逊检验法思想一样，其检验公式为：

指数分布检验：

SPSS和R语言中通过绘制箱图可以找到异常值，分布在箱边框外部；

2、什么是聚类分析?

聚类算法有哪几种?

请选择一种详细描述其计算原理和步骤。

　　聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

　　聚类分析计算方法主要有：

层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。

其中，前两种算法是利用统计学定义的距离进行度量。

常见的聚类方法有：

K-pototypes算法，K-Means算法，CLARANS算法（划分方法），BIRCH算法（层次方法），CURE算法（层次方法），DBSCAN算法（基于密度的方法），CLIQUE算法（综合了基于密度和基于网格的算法）；

　　k-means算法的工作过程说明如下：

首先从n个数据对象任意选择k个对象作为初始聚类中心;

而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类;

然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）;

不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数.k个聚类具有以下特点：

各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

　　其流程如下：

（1）从n个数据对象任意选择k个对象作为初始聚类中心;

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离;

并根据最小距离重新对相应对象进行划分;

　（3）重新计算每个（有变化）聚类的均值（中心对象）;

　　（4）循环

（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

　　优点：

本算法确定的K个划分到达平方误差最小。

当聚类是密集的，且类与类之间区别明显时，效果较好。

对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O（NKt），其中N是数据对象的数目，K是聚类中心，t是迭代的次数。

缺点：

1.K是事先给定的，但非常难以选定;

2.初始聚类中心的选择对聚类结果有较大的影响。

3.数据标准化技术

是将数据按比例缩放，使之落入一个小的特定区间。

去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

常用的方法有：

（1）总和标准化。

分别求出各要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即

4.缺失值处理方法

1）直接丢弃含缺失数据的记录

如：

个案剔除法，这种方法却有很大的局限性。

它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。

当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论。

2）补缺

A.用平均值来代替所有缺失数据：

均值替换法，均值替换法也是一种简便、快速的缺失数据处理方法。

使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。

但这种方法是建立在完全随机缺失（MCAR）的假设之上的，而且会造成变量的方差和标准差变小。

B.K-最近距离邻居法：

先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。

C.用预测模型来预测每一个缺失数据：

该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。

回归替换法，该方法也有诸多弊端，第一，容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重。

第二，研究者必须假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。

5..Apriori算法和信息熵

信息熵是数学中一个抽象的概念，他表示了信息源的不确定度，这里不妨把信息熵理解成某种特定信息的出现概率，当一种信息出现概率更高的时候，表明它被传播得更广泛，或者说，被引用的程度更高。

我们可以认为，从信息传播的角度来看，信息熵可以表示信息的价值。

支持度：

Support（A->

B）=P（AUB）。

支持度揭示了A与B同时出现的概率。

如果A与B同时出现的概率小，说明A与B的关系不大；

如果A与B同时出现的非常频繁，则说明A与B总是相关的。

置信度（Confidence）的公式式：

Confidence（A->

B）=P（A|B）。

置信度揭示了A出现时，B是否也会出现或有多大概率出现。

如果置信度度为100%，则A和B可以捆绑销售了。

如果置信度太低，则说明A的出现与B是否出现关系不大。

H（x）=E[I（xi）]=E[log（2,1/p（xi））]=-∑p（xi）log（2,p（xi））（i=1,2,..n），单位是bit.

其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示。

P（x）表示输出概率函数。

变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大.

以频繁项集{I1，I2，I3}为例产生强关联规则，最小置信度为40%

（1）频繁项集{I1，I2，I3}的非空子集有{I1，I2},{I1，I3},{I2，I3},{I1},{I2},{I3}

（2）产生强关联规则

{I1，I2}=>

I3confidence=support（{I1,I2,I3}）/support（{I1,I2}）=2/4=0.5

{I1,I3}=>

I2confidence=support（I1，I2，I3）/support（I1,I3）=2/4=0.5

{I2,I3}=>

I1confidence=support（I1，I2，I3）/support（I2,I3）=2/4=0.5

I1=>

{I2,I3}confidence=support（I1，I2，I3）/support（I1）=2/6=0.33

I2=>

{I1,I3}confidence=support（I1，I2，I3）/support（I2）=2/7=0.29

I3=>

{I1,I2}confidence=support（I1，I2，I3）/support（I3）=2/6=0.33

则强关联规则为：

I3；

{I1,I3}；

3、根据要求写出SQL（没有学习过，之后的学习中需要补）

　　表A结构如下：

　　Member_ID（用户的ID，字符型）

　　Log_time（用户访问页面时间，日期型（只有一天的数据））

　　URL（访问的页面地址，字符型）

　　要求：

提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）

参考答案：

　　createtableBasselectMember_ID,min（Log_time）,URLfromAgroupbyMember_ID;

5、用户调研

　　某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

　　a）试验需要为决策提供什么样的信息?

　　c）按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

　　a）试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

　　b）根据三类客户的数量，采用分层比例抽样;

　　需要采集的数据指标项有：

客户类别，改进计划前周消费次数，改进计划后周消费次数;

　　选用统计方法为：

分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验

6.常见的抽样方法有哪些？

常用的有以下六种类型：

　　简单抽样（Simplesampling）

　　即简单随机抽样，指保证大小为n的每个可能的样本都有相同的被抽中的概率。

例如：

按照“抽签法”、“随机表”法抽取访问对象，从单位人名目录中抽取对象。

　　随机度高，在特质较均一的总体中，具有很高的总体代表度；

是最简单的抽样技术，有标准而且简单的统计公式。

　　缺点：

　　未使用可能有用的抽样框辅助信息抽取样本，可能导致统计效率低；

有可能抽到一个“差”的样本，使抽出的样本分布不好，不能很好地代表总体。

　　系统抽样（Systematicrandomsampling）

　　将总体中的各单元先按一定顺序排列，并编号，然后按照不一定的规则抽样。

其中最常采用的是等距离抽样，即根据总体单位数和样本单位计算出抽样距离（即相同的间隔），然后按相同的距离或间隔抽选样本单位。

从1000个电话号码中抽取10个访问号码，间距为100，确定起点（起点＜间距）后每100号码抽一访问号码。

　　兼具操作的简便性和统计推断功能，是目前最为广泛运用的一种抽样方法。

　　如果起点是随机确定的，总体中单元排列是随机的，等距抽样的效果近似简单抽样；

与简单抽样相比，在一定条件下，样本的分布较好。

　　抽样间隔可能遇到总体中某种未知的周期性，导致“差”的样本；

未使用可能有用的抽样框辅助信息抽取样本，可能导致统计效率低。

　　分层抽样（Stratifiedrandomsampling）

　　是把调查总体分为同质的、互不交叉的层（或类型），然后在各层（或类型）中独立抽取样本。

调查零售店时，按照其规模大小或库存额大小分层，然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干；

调查城市时，按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等，再抽出具体的各类型城市若干。

　　适用于层间有较大的异质性，而每层内的个体具有同质性的总体，能提高总体估计的精确度，在样本量相同的情况下，其精度高于简单抽样和系统抽样；

能保证“层”的代表性，避免抽到“差”的样本；

同时，不同层可以依据情况采用不同的抽样框和抽样方法。

　　要求有高质量的、能用于分层的辅助信息；

由于需要辅助信息，抽样框的创建需要更多的费用，更为复杂；

抽样误差估计比简单抽样和系统抽样更复杂。

　　整群抽样（Clustersampling）（层层深入抽样，不断缩小抽样的范围）

　　是先将调查总体分为群，然后从中抽取群，对被抽中群的全部单元进行调查。

入户调查，按地块或居委会抽样，以地块或居委会等有地域边界的群体为第一抽样单位，在选出的地块或居委会实施逐户抽样；

市场调查中，最后一

展开阅读全文