1、数据分析岗位笔试题目总结阿里巴巴1、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.常见的异常值检验方法如下: 基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于xx的方法t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。xx检验法:假设一组数据有序x1x2B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明
2、A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。置信度(Confidence)的公式式:Confidence(A-B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。H(x) = EI(xi) = E log(2,1/p(xi) = -p(xi)log(2,p(xi) (i=1,2,.n),单位是bit.其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也
3、就越大,把它搞清楚所需要的信息量也就越大.以频繁项集I1,I2,I3为例产生强xx规则,最小置信度为40%(1) 频繁项集I1,I2,I3的非空子集有I1,I2,I1,I3,I2,I3,I1,I2,I3(2) 产生强xx规则I1,I2=I3 confidence=support(I1,I2,I3)/support(I1,I2)=2/4=0.5I1,I3=I2 confidence=support(I1,I2,I3)/support(I1,I3)=2/4=0.5I2,I3=I1 confidence=support(I1,I2,I3)/support(I2,I3)=2/4=0.5I1=I2,I3
4、 confidence=support(I1,I2,I3)/support(I1)=2/6=0.33I2=I1,I3 confidence=support(I1,I2,I3)/support(I2)=2/7=0.29I3=I1,I2 confidence=support(I1,I2,I3)/support(I3)=2/6=0.33则强xx规则为:I1,I2=I3;I1,I3;I2,I3=I13、根据要求写出SQL (没有学习过,之后的学习中需要补)表A结构如下:Member_ID (用户的ID,字符型)Log_time (用户访问页面时间,日期型(只有一天的数据)URL (访问的页面地址,字符
5、型)要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)参考答案:create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;5、用户调研某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:a) 试验需要为决策提供什么样的信息?c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。a) 试验要能证明该改进计划能显著提升A、B
6、、C三类客户的周消费次数。b) 根据三类客户的数量,采用分层比例抽样;需要采集的数据指标项有:客户类别,改进计划前xx消费次数,改进计划后xx消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验6.常见的抽样方法有哪些?常用的有以下六种类型:简单抽样(Simple sampling)即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如:按照“抽签法”、“随机表”法抽取访问对象,从单位人名目录中抽取对象。优点:随机度高,在特质较均一的总体中,具有很高的总体代表度;是最简单的抽样技术,有标准而且简单的统计公式。缺点:未使用可能
7、有用的抽样框辅助信息抽取样本,可能导致统计效率低;有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体。系统抽样(Systematic random sampling)将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点间距)后每100号码抽一访问号码。优点:兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。如果起点是随机确定的,总体中单元排列是随机的
8、,等距抽样的效果近似简单抽样;与简单抽样相比,在一定条件下,样本的分布较好。缺点:抽样间隔可能遇到总体中某种未知的周期性,导致“差”的样本;未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低。分层抽样(Stratified random sampling)是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本。例如:调查零售店时,按照其规模大小或库存额大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;调查xx时,按xx总人口或工业生产额分出超大型xx、中型xx、小型xx等,再抽出具体的各类型xx若干。优点:适用于层间有较大的异质性,
9、而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;能保证“层”的代表性,避免抽到“差”的样本;同时,不同层可以依据情况采用不同的抽样框和抽样方法。缺点:要求有高质量的、能用于分层的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。整群抽样(Cluster sampling)(层层深入抽样,不断缩小抽样的范围)是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调查。例如:入户调查,按地块或居委会抽样,以地块或居委会等有地域边界的群体为第一抽样单位,在选出的地块或居委会实施
10、逐户抽样;市场调查中,最后一级抽样时,从居委会中抽取若干户,然后调查抽中户家中所有18岁以上成年人。优点:适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划分的群体。缺点:群内单位有趋同性,其精度比简单抽样为低。前面谈到抽样方法的一些基本分类和各自特点,需要注意的是,在实际的运用中,一个调查方案 常常不是只局限于使用某一种抽样方式,而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究目的,有时甚至在同一时段综合运用几种抽样方法。例如,设计一个全国xx的入户项目,在抽样上可以分为几个不同的步骤,包括:1)在项目正式开始前,可以采用判断抽样法选出某一xx先作试点,在问卷设计初
11、期可以采用任意抽样法选出部分人群进行问卷试访。2)采用分层随机抽样xx,确定全国要分别在多少个超大型市、多少个中型市、多少个小型市实施(先分出xx的几个层次,再依据研究需要在各层用PPSxx选取具体xx)3)采用简单抽样法或PPS抽样法,确定抽出xx中应抽的地块或居委会;4)采用整群抽样法,确定抽出地块或居委会应访问的家庭户;5)在项目后期,可以采用判断抽样法选取某xx进行深入研究。8.置信度与置信区间P(x1xx2)=1-a,称1-a为置信度,x1,x2为置信区间置信度越大,置信区间越宽;置信区间越宽,置信度越大;置信度越小,置信区间越窄9.ROC曲线及含义ROC曲线指受试者工作特征曲线(r
12、eceiver operating characteristic curve), 是反映和的,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。10.数据挖掘步骤 理解数据和数据的来源(understanding)。 获取相关知识与技术(acquisition)。 整合与检查数据(integration and checking)。 去除错误或不一致的数据(data cleani
13、ng)。 建立模型和假设(model and hypothesis development)。 实际数据挖掘工作(data mining)。 测试和验证挖掘结果(testing and verfication)。 解释和应用(interpretation and use)。11.如何评估促销活动?11. Bayes公式(全概率公式)探索在已知结果的情况下,是由哪种原因引起的概率;12. 逻辑回归(分类问题)逻辑回归适合求解哪些问题:逻辑回归本质上解决的是分类问题,Logistic回归的主要用途: 寻找危险因素:寻找某一疾病的危险因素等; 预测:根据模型,预测在不同的自变量情况下,发生某病或某种
14、情况的概率有多大; 判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。11. 线性回归线性回归(一元和多元)中对误差的假设都是假定服从均值为0方差为定值的正态分布,拟合系数的求解方法可以有最小二乘法梯度下降法等。关于残差的假设为:零均值,同方差,正态性,不相关,样本随机。回归分析的自变量为连续性变量,而方差分析的自变量为离散型分类变量;xx线性回归于线性回归的最大区别是随机误差的分布不一定是正态分布,与非线性模型的最大区别是非线性回归无明确的随机误差分布假定。12. 过拟合现象以及避免的方法所谓过拟合问题:过拟合反
15、映的是在学习训练中,模型对训练样本达到非常高的逼近精度, 为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,在测试数据上往往显示出很差的效果.产生过拟合是因为:1.由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一.2.权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征.过度拟合解决方法:1.权值衰减.它在每次迭代过程中以某个小因子降低每个权值 ,此方法的动机是保持权值较小,避免weight decay,从而使学习过程向着复杂决策面的反方向偏。
16、2. 减少特征的数量,有人工选择,或者采用模型选择算法3.验证数据一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差.4.Cross-validation with some patterns交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重.k-fold交叉方法: 把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合.每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例;5.正则化方法正则化
17、是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大,正则化方法的作用是:保留所有特征但减小参数的取值。13. 监督学习与非监督学习有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的xx性低。所有的分类回归算法都是有监督算法,常见的算法有:SVM,KNN,决策树算法,xxBayes算法,神经网络,最小平方拟合,最大熵等。无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所
18、有的标记(分类)是未知的。因此,训练样本的xx性高。聚类就是典型的无监督学习,常见的无监督学习算法:聚类,PCA,xx规则算法Aprior,FP-Growth等。14.分位数3原则3原则:在区间上的概率密度曲线之下的面积占总面积的99.7%,对于标准正态分布有。15.常见分布的密度函数均值和方差16. 常见的区间估计以及假设检验表对于均值的检验,方差已知一般采用U检验(标准正太分布),方差未知采用T检验(t分布);关于方差的检验,一般都采用xx检验,若是两个正太总体采用F检验;17.假设检验P值(P value)是一个概率,就是当原假设为真时所得到的样本观察结果或更极端结果出现的几率。如果P值很小,说明原假设发生的概率很小,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著,一般以P 0.05 为显著, P0.01 为非常显著。Sig值是显著性指标,一般大于0.05拒绝原假设,否则接受原假设,一般大于0.05表示差异不显著,小于0.05表示差异显著,小于0.01表示差异极显著。a:第一类错误是原假设真时拒绝了原假设(弃真);b:第二类错误是原假设错误时接受了原假设(取误);c=1-b:检验功效是原假设错误拒绝原假设;第一类错误与第二类错误互相矛盾的,检验功效越大越好即犯第二类错误的概率竟可能的小。18.数据分析的基本流程
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1