数据分析师笔试题目.docx

资源描述

数据分析师笔试题目.docx

《数据分析师笔试题目.docx》由会员分享，可在线阅读，更多相关《数据分析师笔试题目.docx（16页珍藏版）》请在冰豆网上搜索。

数据分析师笔试题目.docx

数据分析师笔试题目

网易数据分析专员笔试题目

一、基础题

1、中国现在有多少亿网民？

2、XX花多少亿美元收购了91无线？

3、appstore排名的规则和影响因素

4、豆瓣fm推荐算法

5、列举5个数据分析的博客或网站

二、计算题

1、关于简单移动平均和加权移动平均计算

2、两行数计算相关系数。

〔2位小数,还不让用计算器,反正我没算

3、计算三个距离,欧几里德,曼哈顿,闵可夫斯基距离

三、简答题

1、离散的指标,优缺点

2、插补缺失值方法,优缺点及适用环境

3、数据仓库解决方案,优缺点

4、分类算法,优缺点

5、协同推荐系统和基于聚类系统的区别

四、分析题

关于网易邮箱用户流失的定义,挑选指标。

然后要构建一个预警模型。

五、算法题

记不得了,没做。

。

反正是决策树和神经网络相关。

1、你处理过的最大的数据量？

你是如何处理他们的？

处理的结果。

2、告诉我二个分析或者计算机科学相关项目？

你是如何对其结果进行衡量的？

3、什么是：

提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？

4、什么是：

协同过滤、n-grams,mapreduce、余弦距离？

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？

6、如何设计一个解决抄袭的方案？

7、如何检验一个个人支付账户都多个人使用？

8、点击流数据应该是实时处理？

为什么？

哪部分应该实时处理？

9、你认为哪个更好：

是好的数据还是好模型？

同时你是如何定义"好"？

存在所有情况下通用的模型吗？

有你没有知道一些模型的定义并不是那么好？

10、什么是概率合并〔AKA模糊融合？

使用SQL处理还是其它语言方便？

对于处理半结构化的数据你会选择使用哪种语言？

11、你是如何处理缺少数据的？

你推荐使用什么样的处理技术？

12、你最喜欢的编程语言是什么？

为什么？

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS,R,Python,Perl语言的区别是？

15、什么是大数据的诅咒？

16、你参与过数据库与数据模型的设计吗？

17、你是否参与过仪表盘的设计及指标选择？

你对于商业智能和报表工具有什么想法？

18、你喜欢TD数据库的什么特征？

19、如何你打算发100万的营销活动邮件。

你怎么去优化发送？

你怎么优化反应率？

能把这二个优化份开吗？

20、如果有几个客户查询ORACLE数据库的效率很低。

为什么？

你做什么可以提高速度10倍以上,同时可以更好处理大数量输出？

21、如何把非结构化的数据转换成结构化的数据？

这是否真的有必要做这样的转换？

把数据存成平面文本文件是否比存成关系数据库更好？

22、什么是哈希表碰撞攻击？

怎么避免？

发生的频率是多少？

23、如何判别mapreduce过程有好的负载均衡？

什么是负载均衡？

24、请举例说明mapreduce是如何工作的？

在什么应用场景下工作的很好？

云的安全问题有哪些？

25、〔在内存满足的情况下你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说？

对于数据库分析的评价？

26、为什么朴素贝叶斯差？

你如何使用朴素贝叶斯来改进爬虫检验算法？

27、你处理过白名单吗？

主要的规则？

〔在欺诈或者爬行检验的情况下

28、什么是星型模型？

什么是查询表？

29、你可以使用excel建立逻辑回归模型吗？

如何可以,说明一下建立过程？

30、在SQL,Perl,C++,Python等编程过程上,待为了提升速度优化过相关代码或者算法吗？

如何及提升多少？

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案？

取决于什么内容？

32、定义：

QA〔质量保障、六西格玛、实验设计。

好的与坏的实验设计能否举个案例？

33、普通线性回归模型的缺陷是什么？

你知道的其它回归模型吗？

34、你认为叶数小于50的决策树是否比大的好？

为什么？

35、保险精算是否是统计学的一个分支？

如果不是,为何如何？

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。

给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标？

你建议用哪个指标替代？

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比？

你对A/B测试熟吗？

39、什么是敏感性分析？

拥有更低的敏感性〔也就是说更好的强壮性和低的预测能力还是正好相反好？

你如何使用交叉验证？

你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看？

40、对于一下逻辑回归、决策树、神经网络。

在过去15年中这些技术做了哪些大的改进？

41、除了主成分分析外你还使用其它数据降维技术吗？

你怎么想逐步回归？

你熟悉的逐步回归技术有哪些？

什么时候完整的数据要比降维的数据或者样本好？

42、你如何建议一个非参数置信区间？

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率？

44、什么是归因分析？

如何识别归因与相关系数？

举例。

45、如何定义与衡量一个指标的预测能力？

46、如何为欺诈检验得分技术发现最好的规则集？

你如何处理规则冗余、规则发现和二者的本质问题？

一个规则集的近似解决方案是否可行？

如何寻找一个可行的近似方案？

你如何决定这个解决方案足够好从而可以停止寻找另一个更好的？

47、如何创建一个关键字分类？

48、什么是僵尸网络？

如何进行检测？

49、你有使用过API接口的经验吗？

什么样的API？

是谷歌还是亚马逊还是软件即时服务？

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好？

51、可视化使用什么工具？

在作图方面,你如何评价Tableau?

SAS?

在一个图中有效展现五个维度？

52、什么是概念验证？

53、你主要与什么样的客户共事：

内部、外部、销售部门/财务部门/市场部门/IT部门的人？

有咨询经验吗？

与供应商打过交道,包括供应商选择与测试。

54、你熟悉软件生命周期吗？

及IT项目的生命周期,从收入需求到项目维护？

55、什么是cron任务？

56、你是一个独身的编码人员？

还是一个开发人员？

或者是一个设计人员？

57、是假阳性好还是假阴性好？

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗？

分别给案例。

59、Zillow’s算法是如何工作的？

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户？

61、你如何创建一个新的匿名数字帐户？

62、你有没有想过自己创业？

是什么样的想法？

63、你认为帐号与密码输入的登录框会消失吗？

它将会被什么替代？

64、你用过时间序列模型吗？

时滞的相关性？