大数据十大知识精编值得收藏.docx

资源描述

大数据十大知识精编值得收藏.docx

《大数据十大知识精编值得收藏.docx》由会员分享，可在线阅读，更多相关《大数据十大知识精编值得收藏.docx（12页珍藏版）》请在冰豆网上搜索。

大数据十大知识精编值得收藏.docx

大数据十大知识精编值得收藏

大数据“十大”知识精编（值得收藏）

1大数据十本书

1.《大数据分析：

点“数”成金》

2.《大数据》

3.《大数据:

战略技术实践》

4.《大数据时代的历史机遇：

产业变革与数据科学》

5.《空间大数据信息基础设施》

6.《跟随大数据旅行》

7.《大数据:

大价值、大机遇、大变革》

8.《大数据互联网大规模数据挖掘与分布式处理》

9.《云端时代杀手级应用:

大数据分析》

10.《大数据的冲击》

2大数据十篇英文论文

1.TheGoogleFileSystem

SanjayGhemawat · HowardGobioff · ShuntakAlbertLeung

2.Bigtable:

ADistributedStorageSystemforStructuredData

FayChang · JeffreyDean · SanjayGhemawat · WilsonCHsieh · Debora

3.MapReduce:

Simplified DataProcessingonLargeClusters

JeffreyDean · SanjayGhemawat

4.Big data:

Howdoyour data grow?

LClifford - 《Nature》

5.Big data:

themanagementrevolution.

MAAndrew，BErik -《TheHarvardBusinessReview》

6.Biology:

The big challengesof big data

MVivien - 《Nature》

7.NoSQLDatabases

ChristofStrauch

8.Column-Storesvs.Row-Stores:

HowDifferentAreTheyReally?

DanielJ.AbadiSamuelR.Madden

9.Hive–APetabyteScaleDataWarehouseUsingHadoop

AshishThusoo,JoydeepSenSarma,NamitJain,ZhengShao,PrasadChakka,NingZhang

10.MongoDBArchitectureGuide

3大数据十篇中文论文

1.大数据系统和分析技术综述

程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰

2.大数据管理:

概念、技术与挑战

孟小峰，慈祥

3.大数据研究:

未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考

李国杰、程学旗

4.架构大数据:

挑战、现状与展望

王珊，王会举，覃雄派，周烜

5.大数据分析--RDBMS与MapReduce的竞争与共生

覃雄派，王会举，杜小勇

6.网络大数据:

现状与展望

王元卓，靳小龙，程学旗

7.大数据的一个重要方面:

数据可用性

李建中，刘显敏

8.大数据时代的机遇与挑战

邬贺铨

9.大数据研究综述

陶雪娇，胡晓峰，刘洋

10.大数据时代的挑战、价值与应对策略

陈如明

4大数据十大国际顶级专家

1.GeoffreyHinton

　　只要是在机器学习届混的或者懂点机器学习的人们，抑或懂点神经网络的人们，相信都知道“BackPropagation“反向传播的鼎鼎大名。

Hinton便是将BP算法应用到神经网络与深度学习中人员之一，并且是主导者（co-inventor）.Hinton提出了“DarkKnowledge”黑暗知识概念（“DarkKnowledge”这本书籍已经出版，亚马逊上面有卖，288RMB，可见其nb性），该概念是受小概率比率事件中的“大部分知识”对于训练与测试中的代价函数是没有影响的。

Hinton在人工智能领域中无人不知无人不晓是因为其在人工神经网络（ArtificialNeuralNetworks）中所作出贡献。

2.YannLecun

Lecun在多伦多大学随Hinton读博士后，即他是Hinton的学生。

他是另一个神经网络与深度学习大拿。

他在皮埃尔玛丽居里大学（又称巴黎第六大学，UniversitéPierreetMarieCurie（ParisVI））获得了计算机科的负责人。

为了表彰他在深度学习领域里所作出的贡献，IEEE计算机学会颁给他著名的“神经网络先锋奖”，在2014年北京计算智能大会上授予。

3.YoshuaBengio

Bengio是另外一位机器学习、深度学习的大拿。

他在麦吉尔大学获得博士学位。

他是ApSTAT技术的发起人与研发大牛。

他也是蒙特利尔大学（UniversitédeMontréal）的终身教授，任教超过22年，是机器学习实验室（MILA）的负责人，是CIFAR项目的负责人之一，负责神经计算和自适应感知器等方面。

又是加拿大统计学习算法学会的主席，并且是NSERC-Ubisoft主席以及其它。

在蒙特利尔大学任教之前，他是AT&T&MIT的一名机器学习研究员。

他的主要贡献在于深度学习与人工智能等领域。

4.JurgenSchmidhuber

他致力于构建一个自完善的人工智能机器。

他曾任职于南加州大学，现任于卡内基梅隆大学语言技术研究所。

他是著名的自然语言处理学者与专家，是国际计算语言协会（ACL）的首批Fellow，曾任ACL2001年主席。

他主要的研究工作是机器学习、RNN（RecurrentNeuralNetworks，递归神经网络）、深度学习、计算机视觉以及自然语言处理等。

他早机器翻译、自动文摘、自动问答、文本理解等领域作出了杰出的贡献。

5.Alex“Sandy”Pentland

在过去的29年时间中，Perntland都任职于MIT（麻省理工大学）的教授。

在这期间，他创建多个公司，如IDcubed.org、SenseNetworks、CogitoHealth、Ginger.io等。

根据他所取得的成就，福布斯（Forbes）称他是世界上最有力量的数据科学家（the‘World’sMostPowerfulDataScientist’）。

他也被任命为多个跨国公司（MNCs）的顾问（anadvisor），如Nissan、Motorola、HBR、Telefonica等。

他的主要兴趣在机器学习、人工智能与人类计算（Humancomputing）等领域。

6.PeterNorvig

Norvig目前任职于Google。

在此之前，他在NASA工作了六年，担任计算科学部门的负责人，期间获得了NASA杰出贡献奖（ExceptionalAchievementAward）。

是ACM、AAAI等的Fellow。

他在加利福尼亚大学伯克利分校（UniversityofCalifornia,Berkeley）获得了计算机科学博士学位。

他的兴趣在于人工智能（AI），自然语言处理（NLP）和机器学习等领域。

7.CorinnaCortes

Cortes目前是google的研究员。

她在哥本哈根大学（UniversityofCopenhagen）获得物理学理学硕士，并加入贝尔实验室（AT&TBellLabs），在此工作超过十年。

并在罗切斯特大学（UniversityofRochester）获得了计算机科学博士学位。

她的研究主要在人工智能、机器学习、自然科学通论、算法与理论等方面。

并且她是一位拥有两个孩子的妈，可谓是人生赢家。

8.MichealIJordan

Jordan是加利福尼亚大学伯克利分校电子工程系和计算科学系陈丕宏（PehongChen）特聘教授（DistinguishedProfessor）和（UCBerkeley）统计学系的特聘教授。

他近些年的研究工作主要集中在无参数贝叶斯分析、概率图模型、谱方法、核方法以及信号处理中的应用等方面。

其中，他便是聚类算法中广泛使用的基于规范切（Normalizedcut）谱聚类算法提出者之一。

他获得了多个举足轻重的奖项，如数理统计学会（InstituteofMathematicalStatistics，IMS）授予的NeymanLecturer和MedallionLecturer。

他获得了加利福尼亚大学伯克利分校的认知科学博士学位，并且是麻省理工大学（MIT）的教授。

9.AndrewNg

AndrewNg中文名为吴恩达，他和DaphneKoller共同创建Coursera（在线教育平台）这一流大学在线课程平台。

他2014年5月16日加盟XX，成为XX首席科学家，带领XX大脑计划项目，负责XX研究院，开展深度学习和大数据与人工智能可伸缩性方法。

他又是斯坦福大学（StanfordUniversity）的计算机科学系与电子工程系的副教授，人工智能实验室主任。

他于1997年获得了卡内基梅隆大学（CMU）的计算机科学学士学位，1998年获得了麻省理工大学（MIT）硕士学位，并于2002年获得加州大学（加利福尼亚大学的简称）伯克利分校（UCBerkeley）的博士学位，并从这一年开始在斯坦福大学任教。

10.DaphneKoller

Koller也是在线教育平台Coursera的负责人和共同发起人之一。

她在耶路撒冷希伯来大学（TheHebrewUniversityofJerusalem）攻读学术与硕士学位，在斯坦福大学获得计算机科学博士学位，在加州大学伯克利分校攻读博士后。

现为斯坦福大学教授。

在攻读博士期间，获得了很多奖项，如杰出青年科学家奖、ACMInfosys基金。

她的主要兴趣领域是机器学习、人工智能与模式识别等。

5大数据十大国内顶级专家

李国杰，中国工程院院士、中国科学院计算技术研究所研究员

lig@

程学旗，中国科学院计算技术研究所副总工、研究员

cxq@

李建中，哈尔滨工业大学教授

lijzh@

孟小峰中国人民大学信息学院副院长、教授xfmeng[at]

周涛，博士，教授，电子科技大学互联网科学中心主任。

前XX科学家:

张栋_机器学习

XX深度学习研究院的大牛:

余凯_西二旗民工（微博名）

唐杰，清华大学计算机科学与技术系副教授，系科研办公室主任

周志华，南京大学教授

10.

XX副总裁搞NLP的：

王海峰_XX

6大数据十大国际领军企业

7大数据十大国内领军企业

8大数据十大必备工具

1.ApacheHive:

　　Hive是一个建立在Hadoop上的开源数据仓库基础设施，通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。

Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。

2.JaspersoftBI套件

　　Jaspersoft包是一个通过数据库列生成报表的开源软件。

行业领导者发现Jaspersoft软件是一流的,许多企业已经使用它来将SQL表转化为pdf,，这使每个人都可以在会议上对其进行审议。

另外，JasperReports提供了一个连接配置单元来替代HBase。

3.1010data:

　　1010data创立于2000年，是一个总部设在纽约的分析型云服务，旨在为华尔街的客户提供服务，甚至包括NYSEEuronext、游戏和电信的客户。

它在设计上支持可伸缩性的大规模并行处理。

它也有它自己的查询语言,支持SQL函数和广泛的查询类型，包括图和时间序列分析。

这个私有云的方法减少了客户在基础设施管理和扩展方面的压力。

4.Actian:

　　Actian之前的名字叫做IngresCorp，它拥有超过一万客户而且正在扩增。

它通过Vectorwise以及对ParAccel实现了扩展。

这些发展分别导致了ActianVector和ActianMatrix的创建。

它有Apache，Cloudera，Hortonworks以及其他发行版本可供选择。

5.PentahoBusinessAnalytics:

　　从某种意义上说,Pentaho与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎，但它目前通过简化新来源中获取信息的过程来支持大数据处理。

Pentaho的工具可以连接到NoSQL数据库，例如MongoDB和Cassandra。

PeterWayner指出,PentahoData（一个更有趣的图形编程界面工具）有很多内置模块，你可以把它们拖放到一个图片上,然后将它们连接起来。

6.KarmasphereStudioandAnalyst:

　　KarsmasphereStudio是一组构建在Eclipse上的插件,它是一个更易于创建和运行Hadoop任务的专用IDE。

在配置一个Hadoop工作时，Karmasphere工具将引导您完成每个步骤并显示部分结果。

当出现所有数据处于同一个Hadoop集群的情况时，KarmaspehereAnalyst旨在简化筛选的过程,。

7.Cloudera:

　　Cloudera正在努力为开源Hadoop,提供支持，同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。

Hadoop可以作为目标数据仓库，高效的数据平台，或现有数据仓库的ETL来源。

企业规模可以用作集成Hadoop与传统数据仓库的基础。

Cloudera致力于成为数据管理的“重心”。

8.HPVerticaAnalyticsPlatformVersion7:

　　HP提供了用于加载Hadoop软件发行版所需的参考硬件配置,因为它本身并没有自己的Hadoop版本。

计算机行业领袖将其大数据平台架构命名为HAVEn（意为Hadoop,Autonomy,Vertica,EnterpriseSecurityand“n”applications）。

惠普在Vertica7版本中增加了一个“FlexZone”，允许用户在定义数据库方案以及相关分析、报告之前探索大型数据集中的数据。

这个版本通过使用HCatalog作为元数据存储，与Hadoop集成后为用户提供了一种探索HDFS数据表格视图的方法。

9.TalendOpenStudio:

　　Talend’s工具用于协助进行数据质量、数据集成和数据管理等方面工作。

Talend是一个统一的平台，它通过提供一个统一的，跨企业边界生命周期管理的环境，使数据管理和应用更简单便捷。

这种设计可以帮助企业构建灵活、高性能的企业架构,在次架构下，集成并启用百分之百开源服务的分布式应用程序变为可能。

10.ApacheSpark

　　ApacheSpark是Hadoop开源生态系统的新成员。

它提供了一个比Hive更快的查询引擎，因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。

同时，它还用于事件流处理、实时查询和机器学习等方面。

9大数据十大企业级分析利器

10大数据十大经典挖掘算法

1. C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1）用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2）在树构造过程中进行剪枝；3）能够完成对连续属性的离散化处理； 4）能够对不完整数据进行处理。

C4.5算法有如下优点：

产生的分类规则易于理解，准确率较高。

其缺点是：

在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

2.Thek-meansalgorithm 即K-Means算法

k-meansalgorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k

它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。

它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

3. Supportvectormachines

支持向量机，英文为SupportVectorMachine，简称SV机（论文中一般简称SVM）。

它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。

在分开数据的超平面的两边建有两个互相平行的超平面。

分隔超平面使两个平行超平面的距离最大化。

假定平行超平面间的距离或差距越大，分类器的总误差越小。

一个极好的指南是C.J.CBurges的《模式识别支持向量机指南》。

vanderWalt和Barnard将支持向量机和其他分类器进行了比较。

4.TheApriorialgorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

5. 最大期望（EM）算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（LatentVariabl）。

最大期望经常用在机器学习和计算机视觉的数据集聚（DataClustering）领域。

6. PageRank

PageRank是Google算法的重要内容。

2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（LarryPage）。

因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

7.AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。

将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

8.kNN:

k-nearestneighborclassification

K最近邻（k-NearestNeighbor，KNN）分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：

如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

9.NaiveBayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型（DecisionTreeModel）和朴素贝叶斯模型（NaiveBayesianModel，NBC）。

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

理论上，NBC模型与其他分类方法相比具有最小的误差率。

但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。

而在属性相关性较小时，NBC模型的性能最为良好。

10. CART:

分类与回归树

CART,ClassificationandRegressionTrees。

在分类树下面有两个关键的思想。

第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

向永清_大数据应用

致力于大数据应用研究，打通企业数据孤岛，让数据再造企业，提升企业竞争力！

微信（QQ）：

4401949

邮箱：

4401949@

展开阅读全文