教你如何成为一名数据分析师.docx

上传人:b****3 文档编号:5412518 上传时间:2022-12-16 格式:DOCX 页数:10 大小:24.96KB
下载 相关 举报
教你如何成为一名数据分析师.docx_第1页
第1页 / 共10页
教你如何成为一名数据分析师.docx_第2页
第2页 / 共10页
教你如何成为一名数据分析师.docx_第3页
第3页 / 共10页
教你如何成为一名数据分析师.docx_第4页
第4页 / 共10页
教你如何成为一名数据分析师.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

教你如何成为一名数据分析师.docx

《教你如何成为一名数据分析师.docx》由会员分享,可在线阅读,更多相关《教你如何成为一名数据分析师.docx(10页珍藏版)》请在冰豆网上搜索。

教你如何成为一名数据分析师.docx

教你如何成为一名数据分析师

数据分析新手入门资料(系列一)

来源:

西线学院

什么是数据分析?

...........................................2

如何用数据?

...............................................5

在数据分析、挖掘方面,有哪些好书值得推荐(43本全)?

.......6

 

一、到底什么是数据分析

之前在微博上发起一个话题,大家一句话向外行说说什么是数据分析?

有100多位同学参与讨论和转发,其中一些有意思的、不错的说法,大家一起来看看。

最专业的数据分析:

@沈浩老师:

有针对性的收集、加工、整理数据,并采用统计和挖掘技术分析和解释数据的科学与艺术!

最简洁的数据分析:

@小蚊子乐园:

简单的很,就是分析数据。

@Terensu:

描述数据特征,预测数据趋势,展示分析结果。

@wangman02:

从一大堆数据中提取到你想要的信息,就是数据分析。

最IT的数据分析:

@穆浩然:

所以我一般都说我是做IT的。

@YicoLeung:

复制粘贴。

@仓鼠_茄子把:

你应该对男的低调说自己是码农,对女的高调说自己是分析师!

现在甭管是什么职业,加个师字就显得特牛B,比如策划师,揉奶师,面包师,搬砖师等等。

最浪漫的数据分析:

@数据化管理:

数据分析就是:

茫茫人海中,你通过观察、跟踪、记录等手段找到你生命中最想爱的那个人,进而根据对方的喜好,成功的展示了自己的优点,改进了自己的缺点,并且说服了对方的父母,承诺终身与ta为伴的一项工作。

@刘万祥ExcelPro:

你喜欢上一个姑娘,你会搜集她的兴趣、爱好、星座、闺密、乃至三围。

等等各种信息吧,然后想自己怎么能搭讪上、约出来,碰壁了会继续找原因、想办法,这里面你都有在做数据分析呀。

@CIVN可视化社区:

从你每天发的微博研究你喜欢哪个明星、是哪个星座的、喜欢吃什么买什么、大概几岁会嫁出去。

最神化的数据分析:

@张启仁:

数据分析是算命的。

最实用的数据分析:

@ETwise:

我告诉别人:

你买了牙膏我还会推荐你买牙刷,我就是做这样的工作的。

@老仲琢磨:

可以知道刚当爹的男人买尿布时最可能顺便买点啥。

@张勇往前行:

每个月月底,老婆问你,这个月的钱你是怎么花的?

你的回答就是数据分析。

最恐怖的数据分析:

@游走的背包:

数据分析就是文革时的查人祖上三代,最后定义你这代什么成份!

@宝泥马冷死了:

从你爸的日常行为统计中推测你下次考试不及格他会用什么东西揍你。

那到底什么是数据分析呢?

说说数据哥的理解:

数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价信息的一个过程。

其过程概括起来主要包括:

明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。

1、明确分析目的与框架

一个分析项目,你的数据对象是谁?

商业目的是什么?

要解决什么业务问题?

数据分析师对这些都要了然于心。

基于商业的理解,整理分析框架和分析思路。

例如,减少新客户的流失、优化活动效果、提高客户响应率等等。

不同的项目对数据的要求,使用的分析手段也是不一样的。

2、数据收集

数据收集是按照确定的数据分析和框架内容,有目的的收集、整合相关数据的一个过程,它是数据分析的一个基础。

3、数据处理

数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。

这个过程是数据分析整个过程中最占据时间的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。

数据处理主要包括数据清洗、数据转化等处理方法。

4、数据分析

数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目提供决策参考。

到了这个阶段,要能驾驭数据、开展数据分析,就要涉及到工具和方法的使用。

其一要熟悉常规数据分析方法,最基本的要了解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析方法的原理、使用范围、优缺点和结果的解释;其二是熟悉1+1种数据分析工具,Excel是最常见,一般的数据分析我们可以通过Excel完成,后而要熟悉一个专业的分析软件,如数据分析工具SPSS/SAS/R/Matlab等,便于进行一些专业的统计分析、数据建模等。

5、数据展现

一般情况下,数据分析的结果都是通过图、表的方式来呈现,俗话说:

字不如表,表不如图。

借助数据展现手段,能更直观的让数据分析师表述想要呈现的信息、观点和建议。

常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。

6、撰写报告

最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。

通过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以供商业目的提供参考。

一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。

结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。

另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,后者是更重要的,否则称不上好的分析,同时也失去了报告的意义,数据的初衷就是为解决一个商业目的才进行的分析,不能舍本求末。

最霸气的数据分析:

@淘货郎:

数据分析就是企业的军统和中统。

@牧羊人_DM:

这是一个很有前途特牛B的职业,具体细节你没必要知道。

二、如何用数据

光知道怎么看数据,还是不成,你得熟悉这些数据拿到手上之后怎么去用它,怎么让数据显示出来它本身的威力来。

最后总结下来有这么几个部分。

第一个部分,是看历史数据,发现规律。

以社区中的活动和电商中的促销为例,这些都是常见的活动,活动做得好的话有意想不到的效果。

在做这样的活动,最好是拿到前一个月或者两个月的历史数据。

对电商来说,从这里面要去分析各个品类的销售情况,那个品类销量最大,那个品类销量最小,每月或者每周的平均增长率和符合增长率是多少。

通过原始数据把上面的这些指标分析出来之后,就可以看到哪些品类是优势品类,不用促销就可有很大的量,哪些是弱势的品类等等,这样可以确定出来拿那个品类出来做促销。

对于内容社区也是一样,我们要从内容分类,和内容类型两个维度上去看,找到数量少类型单一的分类,对于这些分类下的内容数量及质量都需要提高。

第二部分,是从历史数据和现有数据中,发现端倪,找出问题所在。

我们在工作中,每天都会接触到大量的数据,但是大部分看数据就流于表面了。

例如对于社区来说,很关注总注册用户数,每日登录用户数,每日新用户注册数。

这些数据不能说不可以看,但是更要看到最重要的数据点:

每天有多少老用户登录、每天发布的内容中有多少能够称得上是优质的精品内容,这两个数据决定着说这个社区的质量怎么样,对于内容社区来说,初期如果不重视质量建设,那么等用户到50W、100W之后再去看质量,已经有点晚了。

还有一个是市场部门用的会很多,在市场宣传过程中,我们会有很多广告和链接放出去,每天要监测这些链接数据量,当出现数据波动非常大的时候我们应该怎么去做,是要看到链接放置的媒体出现了问题,是不是对方做活动突然吸引了大量的人来,还要去看到我们的着陆页面,是不是吸引用户点击等等。

数据就是我们的助手,帮助我们发现问题,同时顺藤摸瓜找到问题的根源所在。

这个能力是非常重要的,不管是不是做数据相关工作的人,都要能够掌握。

第三部分,数据预测。

通过分析数据,发现其中的规律,那么则可实现数据驱动运营,驱动产品,驱动市场。

例如,对电商来说,知道一年内每个月的各个品类的增长率,也清楚各月之间的影响情况,那么按照这个量就可预测未来月度里面交易量的增长情况,我们能够达到什么样的水平。

同时,在某个大型活动完结之后,不是立即看数据,要看活动结束后一个月后的数据,这样才能看到多少用户是因为活动的奖品过来,活动结束之后就走了,为什么选一个月,因为在一个月内流失率什么的就一目了然了。

第四部分,学会拆解数据。

这个拆解数据在我看来有两方面的维度一个是每年的数据指标怎么去分拆到每个季度,或者每个月,这个有点绩效驱动的意思了。

另外一个就是说每天产品的运营数据,推广数据或者销售数据有很多,要会对这些数据进行拆分,知道每个数据都是来自哪些方面,增高或者降低的趋势是什么。

近几年数据分析在互联网领域非常受到重视,无论是社区型产品,工具类产品,还是电子商务,都越来越把数据作为核心资产。

确实数据分析的越深,越能够是在精细化的运营,在很多时候工作的重点才有据可依。

但是要注意两方面的问题:

1,不能唯数据论,数据有时候能够反馈一些问题,但是也要注意到在有些时候数据并不能说明所有问题,也需要综合各方面的情况整体来看。

同时要有数据分析的思维,不仅仅是互联网行业几乎所有的行业每天都会产生大量的数据。

所以最重要的是有这种数据粉丝的思维,知道怎么通过数据分析找出规律,发现问题,对将来做出预测及拆解。

2、找到适合自己产品的数据指标来。

不同的产品特性,用户使用习惯也都不一样的,需要找到适合自己产品的指标参数而不是随大流,不是简单的PV、UV就可以了。

例如对于内容型产品来说,每天的PV,UV是一个非常重要的指标。

对于社区型网站来说,每天的登陆数据和进行有效操作的用户则是需要关注的。

而对于电子商务网站来说,订单数及客单价是核心,但是于此同事转化率和重复购买率则是需要同样关注的。

在移动互联网上这种的数据参数更是多样,最重要的是我们要学会通过自己用户行为特征来找出界定产品健康程度的标准,这样能让我们更好地观察自己产品的好坏。

三、在数据分析、挖掘方面,有哪些好书值得推荐(43本全)

入门读物:

1.深入浅出数据分析,这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。

难易程度:

非常易。

2.啤酒与尿布,通过案例来说事情,而且是最经典的例子。

难易程度:

非常易。

3.数据之美,一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。

难易程度:

易。

4.谁说菜鸟不会数据分析,其实EXCEL在工作中还是大杀器,原因是易传承,好传播

5."数据分析:

企业的贤内助",读起来有乐趣,案例比较分许,适合初学者

中级篇:

数据分析、挖掘与工具应用

1.SciPyandNumPy,这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。

2.PythonforDataAnalysis,作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!

3.BadDataHandbook,很好玩的书,作者的角度很不同。

4.《NewInternet:

大数据挖掘》——是MS的一位资深专家写的,从算法到工具,再到DM在日志分析、营销邮件、电商、移动等业务中的实际应用,内容有较全面的介绍,语言浅显易懂,作DM领域进门读物很不错。

并且在每章节后都有提供本章提到的工具或数据来源,方便学习。

5.《数据挖掘与数据化运营实战:

思路、方法、技巧与应用》——这是ALi的一位数据专家写的,从书名能看出这本偏运营实践,里面有很多电商方面的实践案例。

当然也有几章节概述DM工具和算法,作为入门介绍。

6.《数据挖掘技术(第3版)——应用于市场营销、销售与客户关系管理》对做数据分析的从业人员也有帮助,不深

7.集体智慧编程,学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。

作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。

难易程度:

中。

8.调查研究中的统计分析法,统计学肯定要了解,统计学书都可以的

9.SPSS统计分析精要与实例详解,SPSS的内容,我是从这本书开始看的,因为这本书每个方法都有案例,可以直接看案例明白理论的作用,再加上SPSS官方说明文档基本上就够了

10.数据挖掘与数据化运营实战,ali的专家写的,看了这本书能理解很多方法的适用场景,适用场景和数据解读能力对于业务能力要求很高。

11.《SPSS多元统计分析方法及应用》,他涉及了除神经网络以外的几乎所有数据挖掘方法、模型

给出了十分具体、深入的数学推导、解释

非常详细具体的解释了数据模型的各种结果、参数的数学意义

并且几乎所有模型都给出了实际案例分析

详细的图解,让你可以形象的了解如何操作SPSS软件,每个选项、按钮的意义、会导致什么结果

如果你是市场人士,我推荐你看这本书,它能让你对数据挖掘的理解立体、扎实,有理论还有实践,并且详细到了具体细节、参数意义、输出数据结果的意义,还教给你如何操作软件

精进篇,稍微专业些的:

1.IntroductiontoSemi-SupervisedLearning,半监督学习必读必看的书。

2.LearningtoRankforInformationRetrieval,微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!

3.LearningtoRankforInformationRetrievalandNaturalLanguageProcessing,李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。

4.BuildingMachineLearningSystemswithPython,虽然是英文的,但是由于写得很简单,比较理解,又有Python代码跟着,辅助理解。

5.数据挖掘导论,最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐JiaweiHan老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。

难易程度:

中上。

6.MachineLearningforHackers,也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。

7.推荐系统实践,这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。

8.GraphicalModels,ExponentialFamilies,andVariationalInference,这个是Jordan老爷子和他的得意门徒MartinJWainwright在FoundationofMachineLearning

Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphicalmodel的相关内容就可以踏平了。

9.NaturalLanguageProcessingwithPython,NLP经典,其实主要是讲NLTK这个包,但是啊,NLTK这个包几乎涵盖了NLP的很多内容了啊!

10.MachineLearninginAction,用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。

而且有Python代码,大赞!

目前中科院的王斌老师(微博:

王斌_ICTIR)已经翻译这本书了机器学习实战。

这本书本身质量就很高,王老师的翻译质量也很高。

难易程度:

中。

我带的研究生入门必看数目之一!

11.《HeadFirstDataAnalysis》链接:

深入浅出数据分析

电子工业出版社的经典书目系列,从数据分析基本步骤开始、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧一一讲到。

图比较多,适合入门。

12.《数据挖掘-市场营销、销售与客户关系管理领域应用》链接:

数据挖掘技术,作者是DataMiners的创办人,有二十多年的营销和客户关系管理结合数据挖掘的经验。

详细介绍了作为一个数据挖掘团队需要的知识体系,包括数据库、SAS使用、统计学、机器学习、数据可视化、如何访问用户收集需求、如何写论文与沟通等等。

有条件的建议看英文原版。

13.《RinAction-DataAnalysisandGraphicswithR》链接:

R语言实战,,R是属于GNU系统的一个自由、免费、源代码开放的软件,用于统计计算和统计制图。

这本书从实用的统计研究角度逐例分析R在数据处理、模型构建、以及图形操作上的由浅入深的结合,堪称经典。

机器学习教材:

1.TheElementsofStatisticalLearning,这本书有对应的中文版:

统计学习基础。

书中配有R包,非常赞!

可以参照着代码学习算法。

2.统计学习方法,李航老师的扛鼎之作,强烈推荐。

难易程度:

难。

3.MachineLearning,去年出版的新书,作者KevinMurrphy教授是机器学习领域中年少有为的代表。

这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。

4.MachineLearning,这书和上面的书不是一本!

这书叫:

MachineLearning:

AnAlgorithmicPerspective之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。

5.PatternRecognitionAndMachineLearning,经典中的经典。

6.BayesianReasoningandMachineLearning,看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。

7.ProbabilisticGraphicalModels,鸿篇巨制

8.ConvexOptimization,凸优化中最好的教材,没有之一了。

课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。

9.《DoingDataScience:

StraightTalkfromtheFrontline》:

DoingDataScience,作者之一RachelSchutt本科在密歇根大学学习数学,同时拥有纽约大学数学硕士学位,以及斯坦福大学工程经济系统和运筹学双硕士学位,美国哥伦比亚大学统计学博士学位,而后在谷歌研究所担任统计学专家。

Johnson研究实验室的高级科学家兼创始人之一,目前在哥伦比亚大学讲授“数据科学导论”(IntroductiontoDataScience)课程。

她提出了数据科学家的概念即“计算机科学家、软件工程师和统计学家的混合体。

”另一位作者CathyO’Neil是哈佛大学数学博士,麻省理工学院数学系博士后,目前在华尔街的德劭基金(D.E.Shaw)做quant。

(总之是两个大牛XD)本书前面几个章节大致介绍了数据分析法、一些机器学习算法、线性回归和逻辑回归、朴素贝叶斯等等。

其中有一些内容需要一些数学基础才能吃透。

第六到十章节是本书的精华,详细介绍了如何利用金融及社交网络中的数据进行数据建模分析,值得反复回味。

10.《AgileDataScience:

BuildingDataAnalyticsApplicationswithHadoop》:

AgileDataScience本书适合刚入行的数据爱好者以及有两三年工作经验数据科学家,作者立志打造一个full-stack解决方案(包括开发框架、运行环境等,有了它无需再下载别的软件)来减少前期在数据准备上必须花费的大量时间。

此外书中的一些例子放在了GitHub上,建议一边看书一边DIY。

11.《FastDataProcessingwithSpark》:

FastDataProcessingwithSpark目前市面上关于Spark的书籍不多,这本120多页的薄书可以当做预热。

Spark同Hadoop一样是基于Mapreduce算法实现的分布式计算,不同的是任务的中间输出结果可以保存在内存中无需读写HDFS,所以更加适合需要进行反复迭代的机器学习算法实验。

作者HoldenKarau曾在亚马逊数据挖掘项目组,目前是一名在谷歌工作的软件研发工程师。

12.PatternRecognitionAndMachineLearning这本书,绝对是经典中的经典,值得从事有关机器学习研究和应用的朋友们,好好研读

13.《数据仓库工具箱:

维度建模的完全指南》《Microsoft数据仓库工具箱》《SQLServer2008分析服务从入门到精通》《SQLServer2008报表服务从入门到精通》

14.miningofmassivedatasets(jefferyullman),google一下可以在stanford的网站上下到,里面有一些很新很流行很专业的方法。

看完可以对dataset的处理这一块有个基本的把握

来源:

西线学院

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1