大数据十大知识精编值得收藏Word格式.docx

上传人:b****5 文档编号:17369023 上传时间:2022-12-01 格式:DOCX 页数:12 大小:1.70MB
下载 相关 举报
大数据十大知识精编值得收藏Word格式.docx_第1页
第1页 / 共12页
大数据十大知识精编值得收藏Word格式.docx_第2页
第2页 / 共12页
大数据十大知识精编值得收藏Word格式.docx_第3页
第3页 / 共12页
大数据十大知识精编值得收藏Word格式.docx_第4页
第4页 / 共12页
大数据十大知识精编值得收藏Word格式.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

大数据十大知识精编值得收藏Word格式.docx

《大数据十大知识精编值得收藏Word格式.docx》由会员分享,可在线阅读,更多相关《大数据十大知识精编值得收藏Word格式.docx(12页珍藏版)》请在冰豆网上搜索。

大数据十大知识精编值得收藏Word格式.docx

Debora

3.MapReduce:

Simplified 

DataProcessingonLargeClusters

SanjayGhemawat

4.Big 

data:

Howdoyour 

data 

grow?

LClifford 

《Nature》 

5.Big 

themanagementrevolution.

MAAndrew,BErik 

-《TheHarvardBusinessReview》

6.Biology:

The 

big 

challengesof 

data

MVivien 

《Nature》

7.NoSQLDatabases

ChristofStrauch

8.Column-Storesvs.Row-Stores:

HowDifferentAreTheyReally?

DanielJ.AbadiSamuelR.Madden

9.Hive–APetabyteScaleDataWarehouseUsingHadoop

AshishThusoo,JoydeepSenSarma,NamitJain,ZhengShao,PrasadChakka,NingZhang

10.MongoDBArchitectureGuide

3大数据十篇中文论文

1.大数据系统和分析技术综述

程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰

2.大数据管理:

概念、技术与挑战

孟小峰,慈祥

3.大数据研究:

未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考

李国杰、程学旗

4.架构大数据:

挑战、现状与展望

王珊,王会举,覃雄派,周烜

5.大数据分析--RDBMS与MapReduce的竞争与共生

覃雄派,王会举,杜小勇

6.网络大数据:

现状与展望

王元卓,靳小龙,程学旗 

7.大数据的一个重要方面:

数据可用性

李建中,刘显敏 

8.大数据时代的机遇与挑战

邬贺铨 

9.大数据研究综述

陶雪娇,胡晓峰,刘洋

10.大数据时代的挑战、价值与应对策略

陈如明

4大数据十大国际顶级专家

1.GeoffreyHinton

  只要是在机器学习届混的或者懂点机器学习的人们,抑或懂点神经网络的人们,相信都知道“BackPropagation“反向传播的鼎鼎大名。

Hinton便是将BP算法应用到神经网络与深度学习中人员之一,并且是主导者(co-inventor).Hinton提出了“DarkKnowledge”黑暗知识概念(“DarkKnowledge”这本书籍已经出版,亚马逊上面有卖,288RMB,可见其nb性),该概念是受小概率比率事件中的“大部分知识”对于训练与测试中的代价函数是没有影响的。

Hinton在人工智能领域中无人不知无人不晓是因为其在人工神经网络(ArtificialNeuralNetworks)中所作出贡献。

2.YannLecun

Lecun在多伦多大学随Hinton读博士后,即他是Hinton的学生。

他是另一个神经网络与深度学习大拿。

他在皮埃尔玛丽居里大学(又称巴黎第六大学,Université

PierreetMarieCurie(ParisVI))获得了计算机科的负责人。

为了表彰他在深度学习领域里所作出的贡献,IEEE计算机学会颁给他著名的“神经网络先锋奖”,在2014年北京计算智能大会上授予。

3.YoshuaBengio

Bengio是另外一位机器学习、深度学习的大拿。

他在麦吉尔大学获得博士学位。

他是ApSTAT技术的发起人与研发大牛。

他也是蒙特利尔大学(Université

deMontré

al)的终身教授,任教超过22年,是机器学习实验室(MILA)的负责人,是CIFAR项目的负责人之一,负责神经计算和自适应感知器等方面。

又是加拿大统计学习算法学会的主席,并且是NSERC-Ubisoft主席以及其它。

在蒙特利尔大学任教之前,他是AT&

T&

MIT的一名机器学习研究员。

他的主要贡献在于深度学习与人工智能等领域。

4.JurgenSchmidhuber

他致力于构建一个自完善的人工智能机器。

他曾任职于南加州大学,现任于卡内基梅隆大学语言技术研究所。

他是著名的自然语言处理学者与专家,是国际计算语言协会(ACL)的首批Fellow,曾任ACL2001年主席。

他主要的研究工作是机器学习、RNN(RecurrentNeuralNetworks,递归神经网络)、深度学习、计算机视觉以及自然语言处理等。

他早机器翻译、自动文摘、自动问答、文本理解等领域作出了杰出的贡献。

5.Alex“Sandy”Pentland

在过去的29年时间中,Perntland都任职于MIT(麻省理工大学)的教授。

在这期间,他创建多个公司,如IDcubed.org、SenseNetworks、CogitoHealth、Ginger.io等。

根据他所取得的成就,福布斯(Forbes)称他是世界上最有力量的数据科学家(the‘World’sMostPowerfulDataScientist’)。

他也被任命为多个跨国公司(MNCs)的顾问(anadvisor),如Nissan、Motorola、HBR、Telefonica等。

他的主要兴趣在机器学习、人工智能与人类计算(Humancomputing)等领域。

6.PeterNorvig

Norvig目前任职于Google。

在此之前,他在NASA工作了六年,担任计算科学部门的负责人,期间获得了NASA杰出贡献奖(ExceptionalAchievementAward)。

是ACM、AAAI等的Fellow。

他在加利福尼亚大学伯克利分校(UniversityofCalifornia,Berkeley)获得了计算机科学博士学位。

他的兴趣在于人工智能(AI),自然语言处理(NLP)和机器学习等领域。

7.CorinnaCortes

Cortes目前是google的研究员。

她在哥本哈根大学(UniversityofCopenhagen)获得物理学理学硕士,并加入贝尔实验室(AT&

TBellLabs),在此工作超过十年。

并在罗切斯特大学(UniversityofRochester)获得了计算机科学博士学位。

她的研究主要在人工智能、机器学习、自然科学通论、算法与理论等方面。

并且她是一位拥有两个孩子的妈,可谓是人生赢家。

8.MichealIJordan

Jordan是加利福尼亚大学伯克利分校电子工程系和计算科学系陈丕宏(PehongChen)特聘教授(DistinguishedProfessor)和(UCBerkeley)统计学系的特聘教授。

他近些年的研究工作主要集中在无参数贝叶斯分析、概率图模型、谱方法、核方法以及信号处理中的应用等方面。

其中,他便是聚类算法中广泛使用的基于规范切(Normalizedcut)谱聚类算法提出者之一。

他获得了多个举足轻重的奖项,如数理统计学会(InstituteofMathematicalStatistics,IMS)授予的NeymanLecturer和MedallionLecturer。

他获得了加利福尼亚大学伯克利分校的认知科学博士学位,并且是麻省理工大学(MIT)的教授。

9.AndrewNg

AndrewNg中文名为吴恩达,他和DaphneKoller共同创建Coursera(在线教育平台)这一流大学在线课程平台。

他2014年5月16日加盟XX,成为XX首席科学家,带领XX大脑计划项目,负责XX研究院,开展深度学习和大数据与人工智能可伸缩性方法。

他又是斯坦福大学(StanfordUniversity)的计算机科学系与电子工程系的副教授,人工智能实验室主任。

他于1997年获得了卡内基梅隆大学(CMU)的计算机科学学士学位,1998年获得了麻省理工大学(MIT)硕士学位,并于2002年获得加州大学(加利福尼亚大学的简称)伯克利分校(UCBerkeley)的博士学位,并从这一年开始在斯坦福大学任教。

10.DaphneKoller

Koller也是在线教育平台Coursera的负责人和共同发起人之一。

她在耶路撒冷希伯来大学(TheHebrewUniversityofJerusalem)攻读学术与硕士学位,在斯坦福大学获得计算机科学博士学位,在加州大学伯克利分校攻读博士后。

现为斯坦福大学教授。

在攻读博士期间,获得了很多奖项,如杰出青年科学家奖、ACMInfosys基金。

她的主要兴趣领域是机器学习、人工智能与模式识别等。

5大数据十大国内顶级专家

1.

李国杰,中国工程院院士、中国科学院计算技术研究所研究员

lig@

2.

程学旗,中国科学院计算技术研究所副总工、研究员

cxq@

3.

李建中,哈尔滨工业大学教授

lijzh@

4.

孟小峰中国人民大学信息学院副院长、教授xfmeng[at]

5.

周涛,博士,教授,电子科技大学互联网科学中心主任。

6.

前XX科学家:

张栋_机器学习

7.

XX深度学习研究院的大牛:

余凯_西二旗民工(微博名)

8.

唐杰,清华大学计算机科学与技术系副教授,系科研办公室主任

9.

周志华,南京大学教授

10.

XX副总裁搞NLP的:

王海峰_XX

6大数据十大国际领军企业

7大数据十大国内领军企业

8大数据十大必备工具

1.ApacheHive:

  Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。

Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。

2.JaspersoftBI套件

  Jaspersoft包是一个通过数据库列生成报表的开源软件。

行业领导者发现Jaspersoft软件是一流的,许多企业已经使用它来将SQL表转化为pdf,,这使每个人都可以在会议上对其进行审议。

另外,JasperReports提供了一个连接配置单元来替代HBase。

3.1010data:

  1010data创立于2000年,是一个总部设在纽约的分析型云服务,旨在为华尔街的客户提供服务,甚至包括NYSEEuronext、游戏和电信的客户。

它在设计上支持可伸缩性的大规模并行处理。

它也有它自己的查询语言,支持SQL函数和广泛的查询类型,包括图和时间序列分析。

这个私有云的方法减少了客户在基础设施管理和扩展方面的压力。

4.Actian:

  Actian之前的名字叫做IngresCorp,它拥有超过一万客户而且正在扩增。

它通过Vectorwise以及对ParAccel实现了扩展。

这些发展分别导致了ActianVector和ActianMatrix的创建。

它有Apache,Cloudera,Hortonworks以及其他发行版本可供选择。

5.PentahoBusinessAnalytics:

  从某种意义上说,Pentaho与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎,但它目前通过简化新来源中获取信息的过程来支持大数据处理。

Pentaho的工具可以连接到NoSQL数据库,例如MongoDB和Cassandra。

PeterWayner指出,PentahoData(一个更有趣的图形编程界面工具)有很多内置模块,你可以把它们拖放到一个图片上,然后将它们连接起来。

6.KarmasphereStudioandAnalyst:

  KarsmasphereStudio是一组构建在Eclipse上的插件,它是一个更易于创建和运行Hadoop任务的专用IDE。

在配置一个Hadoop工作时,Karmasphere工具将引导您完成每个步骤并显示部分结果。

当出现所有数据处于同一个Hadoop集群的情况时,KarmaspehereAnalyst旨在简化筛选的过程,。

7.Cloudera:

  Cloudera正在努力为开源Hadoop,提供支持,同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。

Hadoop可以作为目标数据仓库,高效的数据平台,或现有数据仓库的ETL来源。

企业规模可以用作集成Hadoop与传统数据仓库的基础。

Cloudera致力于成为数据管理的“重心”。

8.HPVerticaAnalyticsPlatformVersion7:

  HP提供了用于加载Hadoop软件发行版所需的参考硬件配置,因为它本身并没有自己的Hadoop版本。

计算机行业领袖将其大数据平台架构命名为HAVEn(意为Hadoop,Autonomy,Vertica,EnterpriseSecurityand“n”applications)。

惠普在Vertica7版本中增加了一个“FlexZone”,允许用户在定义数据库方案以及相关分析、报告之前探索大型数据集中的数据。

这个版本通过使用HCatalog作为元数据存储,与Hadoop集成后为用户提供了一种探索HDFS数据表格视图的方法。

9.TalendOpenStudio:

  Talend’s工具用于协助进行数据质量、数据集成和数据管理等方面工作。

Talend是一个统一的平台,它通过提供一个统一的,跨企业边界生命周期管理的环境,使数据管理和应用更简单便捷。

这种设计可以帮助企业构建灵活、高性能的企业架构,在次架构下,集成并启用百分之百开源服务的分布式应用程序变为可能。

10.ApacheSpark

  ApacheSpark是Hadoop开源生态系统的新成员。

它提供了一个比Hive更快的查询引擎,因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。

同时,它还用于事件流处理、实时查询和机器学习等方面。

9大数据十大企业级分析利器

10大数据十大经典挖掘算法

1. 

C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. 

C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2)在树构造过程中进行剪枝;

3)能够完成对连续属性的离散化处理;

4)能够对不完整数据进行处理。

C4.5算法有如下优点:

产生的分类规则易于理解,准确率较高。

其缺点是:

在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

2.Thek-meansalgorithm 

即K-Means算法

k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k<

n。

它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。

它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。

3. 

Supportvectormachines

支持向量机,英文为SupportVectorMachine,简称SV机(论文中一般简称SVM)。

它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。

支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。

在分开数据的超平面的两边建有两个互相平行的超平面。

分隔超平面使两个平行超平面的距离最大化。

假定平行超平面间的距离或差距越大,分类器的总误差越小。

一个极好的指南是C.J.CBurges的《模式识别支持向量机指南》。

vanderWalt和Barnard将支持向量机和其他分类器进行了比较。

4.TheApriorialgorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

5. 

最大期望(EM)算法

在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariabl)。

最大期望经常用在机器学习和计算机视觉的数据集聚(DataClustering)领域。

6. 

PageRank

PageRank是Google算法的重要内容。

2001年9月被授予美国专利,专利人是Google创始人之一拉里·

佩奇(LarryPage)。

因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。

7.AdaBoost

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。

将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。

8.kNN:

k-nearestneighborclassification

K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。

该方法的思路是:

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

9.NaiveBayes

在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(DecisionTreeModel)和朴素贝叶斯模型(NaiveBayesianModel,NBC)。

朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。

同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。

理论上,NBC模型与其他分类方法相比具有最小的误差率。

但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。

在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。

而在属性相关性较小时,NBC模型的性能最为良好。

10. 

CART:

分类与回归树

CART,ClassificationandRegressionTrees。

在分类树下面有两个关键的思想。

第一个是关于递归地划分自变量空间的想法;

第二个想法是用验证数据进行剪枝。

向永清_大数据应用

致力于大数据应用研究,打通企业数据孤岛,让数据再造企业,提升企业竞争力!

微信(QQ):

4401949

邮箱:

4401949@

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 中国风

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1