完整版数据分析师笔试题目.docx

资源描述

完整版数据分析师笔试题目.docx

《完整版数据分析师笔试题目.docx》由会员分享，可在线阅读，更多相关《完整版数据分析师笔试题目.docx（22页珍藏版）》请在冰豆网上搜索。

完整版数据分析师笔试题目.docx

完整版数据分析师笔试题目

网易数据分析专员笔试题目

一、基础题

1、中国现在有多少亿网民？

2、XX花多少亿美元收购了91无线？

3、appstore排名的规则和影响因素

4、豆瓣fm推荐算法

5、列举5个数据分析的博客或网站

二、计算题

1、关于简单移动平均和加权移动平均计算

2、两行数计算相关系数。

（2位小数，还不让用计算器，反正我没算）

3、计算三个距离，欧几里德，曼哈顿，闵可夫斯基距离

三、简答题

1、离散的指标，优缺点

2、插补缺失值方法，优缺点及适用环境

3、数据仓库解决方案，优缺点

4、分类算法，优缺点

5、协同推荐系统和基于聚类系统的区别

四、分析题

关于网易邮箱用户流失的定义，挑选指标。

然后要构建一个预警模型。

五、算法题

记不得了，没做。

。

反正是决策树和神经网络相关。

1、你处理过的最大的数据量？

你是如何处理他们的？

处理的结果。

2、告诉我二个分析或者计算机科学相关项目？

你是如何对其结果进行衡量的？

3、什么是：

提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？

4、什么是：

协同过滤、n-grams,mapreduce、余弦距离？

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？

6、如何设计一个解决抄袭的方案？

7、如何检验一个个人支付账户都多个人使用？

8、点击流数据应该是实时处理？

为什么？

哪部分应该实时处理？

9、你认为哪个更好：

是好的数据还是好模型？

同时你是如何定义“好”？

存在所有情况下通用的模型吗？

有你没有知道一些模型的定义并不是那么好？

10、什么是概率合并（AKA模糊融合）？

使用SQL处理还是其它语言方便？

对于处理半结构化的数据你会选择使用哪种语言？

11、你是如何处理缺少数据的？

你推荐使用什么样的处理技术？

12、你最喜欢的编程语言是什么？

为什么？

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS,R,Python,Perl语言的区别是？

15、什么是大数据的诅咒？

16、你参与过数据库与数据模型的设计吗？

17、你是否参与过仪表盘的设计及指标选择？

你对于商业智能和报表工具有什么想法？

18、你喜欢TD数据库的什么特征？

19、如何你打算发100万的营销活动邮件。

你怎么去优化发送？

你怎么优化反应率？

能把这二个优化份开吗？

20、如果有几个客户查询ORACLE数据库的效率很低。

为什么？

你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？

21、如何把非结构化的数据转换成结构化的数据？

这是否真的有必要做这样的转换？

把数据存成平面文本文件是否比存成关系数据库更好？

22、什么是哈希表碰撞攻击？

怎么避免？

发生的频率是多少？

23、如何判别mapreduce过程有好的负载均衡？

什么是负载均衡？

24、请举例说明mapreduce是如何工作的？

在什么应用场景下工作的很好？

云的安全问题有哪些？

25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？

对于数据库分析的评价？

26、为什么朴素贝叶斯差？

你如何使用朴素贝叶斯来改进爬虫检验算法？

27、你处理过白名单吗？

主要的规则？

（在欺诈或者爬行检验的情况下）

28、什么是星型模型？

什么是查询表？

29、你可以使用excel建立逻辑回归模型吗？

如何可以，说明一下建立过程？

30、在SQL,Perl,C++,Python等编程过程上，待为了提升速度优化过相关代码或者算法吗？

如何及提升多少？

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案？

取决于什么内容？

32、定义：

QA（质量保障）、六西格玛、实验设计。

好的与坏的实验设计能否举个案例？

33、普通线性回归模型的缺陷是什么？

你知道的其它回归模型吗？

34、你认为叶数小于50的决策树是否比大的好？

为什么？

35、保险精算是否是统计学的一个分支？

如果不是，为何如何？

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。

给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标？

你建议用哪个指标替代？

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比？

你对A/B测试熟吗？

39、什么是敏感性分析？

拥有更低的敏感性（也就是说更好的强壮性）和低的预测能力还是正好相反好？

你如何使用交叉验证？

你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看？

40、对于一下逻辑回归、决策树、神经网络。

在过去15年中这些技术做了哪些大的改进？

41、除了主成分分析外你还使用其它数据降维技术吗？

你怎么想逐步回归？

你熟悉的逐步回归技术有哪些？

什么时候完整的数据要比降维的数据或者样本好？

42、你如何建议一个非参数置信区间？

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率？

44、什么是归因分析？

如何识别归因与相关系数？

举例。

45、如何定义与衡量一个指标的预测能力？

46、如何为欺诈检验得分技术发现最好的规则集？

你如何处理规则冗余、规则发现和二者的本质问题？

一个规则集的近似解决方案是否可行？

如何寻找一个可行的近似方案？

你如何决定这个解决方案足够好从而可以停止寻找另一个更好的？

47、如何创建一个关键字分类？

48、什么是僵尸网络？

如何进行检测？

49、你有使用过API接口的经验吗？

什么样的API？

是谷歌还是亚马逊还是软件即时服务？

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好？

51、可视化使用什么工具？

在作图方面，你如何评价Tableau?

SAS?

在一个图中有效展现五个维度？

52、什么是概念验证？

53、你主要与什么样的客户共事：

内部、外部、销售部门/财务部门/市场部门/IT部门的人？

有咨询经验吗？

与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗？

及IT项目的生命周期，从收入需求到项目维护？

55、什么是cron任务？

56、你是一个独身的编码人员？

还是一个开发人员？

或者是一个设计人员？

57、是假阳性好还是假阴性好？

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗？

分别给案例。

59、Zillow’s算法是如何工作的？

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户？

61、你如何创建一个新的匿名数字帐户？

62、你有没有想过自己创业？

是什么样的想法？

63、你认为帐号与密码输入的登录框会消失吗？

它将会被什么替代？

64、你用过时间序列模型吗？

时滞的相关性？

相关图？

光谱分析？

信号处理与过滤技术？

在什么样的场景下？

65、哪位数据科学有你最佩服？

从哪开始？

66、你是怎么开始对数据科学感兴趣的？

67、什么是效率曲线？

他们的缺陷是什么，你如何克服这些缺陷？

68、什么是推荐引擎？

它是如何工作的？

69、什么是精密测试？

如何及什么时候模拟可以帮忙我们不使用精密测试？

70、你认为怎么才能成为一个好的数据科学家？

71、你认为数据科学家是一个艺术家还是科学家？

72、什么是一个好的、快速的聚类算法的的计算复杂度？

什么好的聚类算法？

你怎么决定一个聚类的聚数？

73、给出一些在数据科学中“最佳实践的案例”。

74、什么让一个图形使人产生误解、很难去读懂或者解释？

一个有用的图形的特征？

75、你知道使用在统计或者计算科学中的“经验法则”吗？

或者在商业分析中。

76、你觉得下一个20年最好的5个预测方法是？

77、你怎么马上就知道在一篇文章中（比如报纸）发表的统计数字是错误，或者是用作支撑作者的论点，而不是仅仅在罗列某个事物的信息？

例如，对于每月官方定期在媒体公开发布的失业统计数据，你有什么感想？

怎样可以让这些数据更加准确？

从阿里数据分析师笔试看职业要求

以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。

一、异常值是指什么？

请列举1种识别连续型变量异常值的方法？

异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。

未知总体标准差σ，在五种检验法中，优劣次序为：

t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评：

考察的内容是统计学基础功底。

二、什么是聚类分析？

聚类算法有哪几种？

请选择一种详细描述其计算原理和步骤。

聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：

层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。

其中，前两种算法是利用统计学定义的距离进行度量。

k-means算法的工作过程说明如下：

首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数.k个聚类具有以下特点：

各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：

（1）从n个数据对象任意选择k个对象作为初始聚类中心；

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

（3）重新计算每个（有变化）聚类的均值（中心对象）；

（4）循环

（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

优点：

本算法确定的K个划分到达平方误差最小。

当聚类是密集的，且类与类之间区别明显时，效果较好。

对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O（NKt），其中N是数据对象的数目，t是迭代的次数。

一般来说，K<

缺点：

1.K是事先给定的，但非常难以选定；2.初始聚类中心的选择对聚类结果有较大的影响。

点评：

考察的内容是常用数据分析方法，做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL

表A结构如下：

Member_ID（用户的ID，字符型）

Log_time（用户访问页面时间，日期型（只有一天的数据））

URL（访问的页面地址，字符型）

要求：

提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）

createtableBasselectMember_ID,min（Log_time）,URLfromAgroupbyMember_ID;

点评：

SQL语句，简单的数据获取能力，包括表查询、关联、汇总、函数等。

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师，

a）从数据中，你看到了什么问题？

你觉得背后的原因是什么？

b）如果你的老板要求你提出一个运营改进计划，你会怎么做？

表如下：

一组每天某网站的销售数据

a）从这一周的数据可以看出，周末的销售额明显偏低。

这其中的原因，可以从两个角度来看：

站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。

b）针对该问题背后的两方面原因，我的运营改进计划也分两方面：

一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评：

数据解读能力，获取数据是基本功，仅仅有数据获取能力是不够的，其次是对数据的解读能力。

五、用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a）试验需要为决策提供什么样的信息？

c）按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

a）试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b）根据三类客户的数量，采用分层比例抽样；

需要采集的数据指标项有：

客户类别，改进计划前周消费次数，改进计划后周消费次数；

选用统计方法为：

分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验（two-samplet-test）。

点评：

业务理解能力和数据分析思路，这是数据分析的核心竞争力。

综上所述：

一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力，即将成为数据分析师的亲们，你们准备好了吗？

2、从腾讯（数据挖掘方向）笔试题目看技术储备

笔试内容：

1.二叉树遍历：

已知中序遍历顺序以及前序遍历顺序，求后序遍历顺序

2.SQL语句：

找出QQset中最小的QQ号码

3.encodeURI&URL传播的转义结果

4.36辆车，6条跑道，无计时器，最少几次比赛可以选出前三

5.Windows/Linux下判断远程地址为某主机监听的某端口是都开放的命令是？

6.html网站cookie

7.cookie功能

8.哈希冲突

9.哪些http方法对于服务端和用户是安全的

10.二维数组内存地址计算

11.附加题：

推导线性最小二乘法过程

12.附加题：

概率计算（这个相当简单啦）

13.模型过拟合与哪些因素有关，写出理由

3、从XX（数据挖掘工程师）笔试题目看技术储备

一.简答题

1.new和malloc的区别。

2.hash冲突是指什么?

怎么解决?

给两种方法，写出过程和优缺点。

3.命中的概率是0.25，若要至少命中一次的概率不小于0.75，则至少需要几次?

二.算法设计题

1.用C/C++写一个归并排序。

数据结构为structNode{intv;Node*next};

接口为Node*merge_sort（Node*）;

2.设计S型层次遍历树的算法，比如根节点是第一层，第二层从左至右遍历，第三层从右至左遍历，第四层再从左至右遍历，以此类推。

举例：

应依次输出123654789。

3.一个url文件，每行是一个url地址，可能有重复。

（1）统计每个url的频次，设计函数实现实现。

（2）设有10亿url，平均长度是20，现在机器有8G内存，怎么处理，写出思路。

三.系统设计题

自然语言处理中的中文分词问题，前向最大匹配算法（FMM）。

注：

题目举例说明了FMM的基本思想。

（1）设计字典的数据结构structdictnote。

（2）用C/C++实现FMM，可选接口为

intFMM（vectoriLetters,dictnode*iRoot,vector*oResults）;

其中iLetters为待分词的句子，比如{“小”，“明”，“今”，“天”，“买”，“了”，“i”，“p”，“o”，“n”，“e”，“6”}，

iRoot是字典，oResults保存输出结果，即分词的位置。

也可以自己设计接口。

（3）收集了一些手机品牌的字典，如{iphone,诺基亚}。

现在要求查找包含这些手机品牌的网页，比如包含iphone6,诺基亚9973等。

怎么修改FMM实现这个功能，可以写伪代码。

4、从搜狐（数据挖掘算法工程师）笔试题目看技术储备

笔试

1，类的继承

2，资源互斥下的死锁

3，一维数组，元素为指针，指针指向一个参数为Int，返回值为int的函数

4，进程间的通信方式

5，Const标志符常量一定要？

6，String的普通构造函数，拷贝构造函数，赋值函数，析构函数

7，Strcpy函数

8，N个不同数的全排列，打印所有全排列

9，Sizeof（charname[]=”hello”）

10，继承的转换（子类可以转换成基类，基类不能转换成子类，多继承下同一子类的基类间不能相互转换）

5、从网易（数据挖掘研究员）笔试题目看技术储备

笔试

1，字符串匹配的算法复杂度（主串N,字串M）N+M

2，排序算法的稳定性（快速排序为非稳定）

3，平衡二叉树的插入

4，20个亿整数的两个集合a与b,求a与b的交集，内存为4Gb

5，在N个无序数中找K个最小值

6，页面文件的逻辑地址位（8个1024字放内32帧内存里）

7，计算机网络各层应用连接

8，哪一种模式不关心算法

AbstractFactory：

提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。

（使用得非常频繁。

）

Adapter：

将一个类的接口转换成客户希望的另外一个接口。

Adapter模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。

Bridge：

将抽象部分与它的实现部分分离，使它们都可以独立地变化。

Builder：

将一个复杂对象的构建与它的表示分离，使得同样的构建过程可以创建不同的表示。

ChainofResponsibility：

为解除请求的发送者和接收者之间耦合，而使多个对象都有机会处理这个请求。

将这些对象连成一条链，并沿着这条链传递该请求，直到有一个对象处理它。

Command：

将一个请求封装为一个对象，从而使你可用不同的请求对客户进行参数化；对请求排队或记录请求日志，以及支持可取消的操作。

Composite：

将对象组合成树形结构以表示“部分-整体”的层次结构。

它使得客户对单个对象和复合对象的使用具有一致性。

Decorator：

动态地给一个对象添加一些额外的职责。

就扩展功能而言，它比生成子类方式更为灵活。

Facade：

为子系统中的一组接口提供一个一致的界面，Facade模式定义了一个高层接口，这个接口使得这一子系统更加容易使用。

FactoryMethod：

定义一个用于创建对象的接口，让子类决定将哪一个类实例化。

FactoryMethod使一个类的实例化延迟到其子类。

Flyweight：

运用共享技术有效地支持大量细粒度的对象。

Interpreter：

给定一个语言,定义它的文法的一种表示，并定义一个解释器,该解释器使用该表示来解释语言中的句子。

Iterator：

提供一种方法顺序访问一个聚合对象中各个元素,而又不需暴露该对象的内部表示。

Mediator：

用一个中介对象来封装一系列的对象交互。

中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。

Memento：

在不破坏封装性的前提下，捕获一个对象的内部状态，并在该对象之外保存这个状态。

这样以后就可将该对象恢复到保存的状态。

Observer：

定义对象间的一种一对多的依赖关系,以便当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并自动刷新。

Prototype：

用原型实例指定创建对象的种类，并且通过拷贝这个原型来创建新的对象。

Proxy：

为其他对象提供一个代理以控制对这个对象的访问。

Singleton：

保证一个类仅有一个实例，并提供一个访问它的全局访问点。

State：

允许一个对象在其内部状态改变时改变它的行为。

对象看起来似乎修改了它所属的类。

Strategy：

定义一系列的算法,把它们一个个封装起来,并且使它们可相互替换。

本模式使得算法的变化可独立于使用它的客户。

TemplateMethod：

定义一个操作中的算法的骨架，而将一些步骤延迟到子类中。

TemplateMethod使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。

Visitor：

表示一个作用于某对象结构中的各元素的操作。

它使你可以在不改变各元素的类的前提下定义作用于这些元素的新操作

9，数据库系统的两种语言（一种用于定义数据库模式；另一种用于表达数据的查询和更新）

10，数据库的连接运算

11，建立索引的原则

在经常需要搜索的列上，可以加快搜索的速度；在作为主键的列上，强制该列的唯一性和组织表中数据的排列结构；在经常用在连接的列上，这些列主要是一些外键，可以加快连接的速度；在经常需要根据范围进行搜索的列上创建索引，因为索引已经排序，其指定的范围是连续的；在经常需要排序的列上创建索引，因为索引已经排序，这样查询可以利用索引的排序，加快排序查询时间；在经常使用在WHERE子句中的列上面创建索引，加快条件的判断速度。

不应该创建索引的的这些列具有下列特点：

第一，对于那些在查询中很少使用或者参考的列不应该创建索引。

这是因为，既然这些列很少使用到，因此有索引或者无索引，并不能提高查询速度。

相反，由于增加了索引，反而降低了系统的维护速度和增大了空间需求。

第二，对于那些只有很少数据值的列也不应该增加索引。

这是因为，由于这些列的取值很少，例如人事表的性别列，在查询的结果中，结果集的数据行占了表中数据行的很大比例，即需要在表中搜索的数据行的比例很大。

增加索引，并不能明显加快检索速度。

第三，对于那些定义为text,image和bit数据类型的列不应该增加索引。

这是因为，这些列的数据量要么相当大，要么取值很少。

第四，当修改性能远远大于检索性能时，不应该创建索引。

这是因为，修改性能和检索性能是互相矛盾的。

当增加索引时，会提高检索性能，但是会降低修改性能。

当减少索引时，会提高修改性能，降低检索性能。

因此，当修改性能远远大于检索性能时，不应该创建索引。

12，事务的定义与特点，事务隔离的级别

事务（Transaction）是并发控制的单位，是用户定义的一个操作序列。

这些操作要么都做，要么都不做，是一个不可分割的工作单位。

通过事务，SQLServer能将逻辑相关的一组操作绑定在一起，以便服务器保持数据的完整性。

事务的特性（ACID特性）

原子性（Atomicity），事务是数据库的逻辑工作单位，事务中包括的诸操作要么全做，要么全不做。

一致性（Consistency），事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。

一致性与原子性是密切相关的。

隔离性（Isolation），一个事务的执行不能被其他事务干扰。

持续性/永久性（Durability），一个事务一旦提交，它对数据库中数据的改变就应该是永久性的。

未授权读取（允许脏读取，但不允许更新丢失），授权读取（允许不可重复读取，但不允许脏读取），可重复读取（禁止不可重复读取和脏读取，但是有时可能出现幻影数据）和序列化（事务序列化执行，不能并发执行）

13，专业题一数据挖掘的步骤

14，Pca的概念和处理过程（主成分分析）

15，K

展开阅读全文