大数据十大知识精编值得收藏Word格式.docx
《大数据十大知识精编值得收藏Word格式.docx》由会员分享,可在线阅读,更多相关《大数据十大知识精编值得收藏Word格式.docx(12页珍藏版)》请在冰豆网上搜索。
Debora
3.MapReduce:
Simplified
DataProcessingonLargeClusters
SanjayGhemawat
4.Big
data:
Howdoyour
data
grow?
LClifford
-
《Nature》
5.Big
themanagementrevolution.
MAAndrew,BErik
-《TheHarvardBusinessReview》
6.Biology:
The
big
challengesof
data
MVivien
《Nature》
7.NoSQLDatabases
ChristofStrauch
8.Column-Storesvs.Row-Stores:
HowDifferentAreTheyReally?
DanielJ.AbadiSamuelR.Madden
9.Hive–APetabyteScaleDataWarehouseUsingHadoop
AshishThusoo,JoydeepSenSarma,NamitJain,ZhengShao,PrasadChakka,NingZhang
10.MongoDBArchitectureGuide
3大数据十篇中文论文
1.大数据系统和分析技术综述
程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰
2.大数据管理:
概念、技术与挑战
孟小峰,慈祥
3.大数据研究:
未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考
李国杰、程学旗
4.架构大数据:
挑战、现状与展望
王珊,王会举,覃雄派,周烜
5.大数据分析--RDBMS与MapReduce的竞争与共生
覃雄派,王会举,杜小勇
6.网络大数据:
现状与展望
王元卓,靳小龙,程学旗
7.大数据的一个重要方面:
数据可用性
李建中,刘显敏
8.大数据时代的机遇与挑战
邬贺铨
9.大数据研究综述
陶雪娇,胡晓峰,刘洋
10.大数据时代的挑战、价值与应对策略
陈如明
4大数据十大国际顶级专家
1.GeoffreyHinton
只要是在机器学习届混的或者懂点机器学习的人们,抑或懂点神经网络的人们,相信都知道“BackPropagation“反向传播的鼎鼎大名。
Hinton便是将BP算法应用到神经网络与深度学习中人员之一,并且是主导者(co-inventor).Hinton提出了“DarkKnowledge”黑暗知识概念(“DarkKnowledge”这本书籍已经出版,亚马逊上面有卖,288RMB,可见其nb性),该概念是受小概率比率事件中的“大部分知识”对于训练与测试中的代价函数是没有影响的。
Hinton在人工智能领域中无人不知无人不晓是因为其在人工神经网络(ArtificialNeuralNetworks)中所作出贡献。
2.YannLecun
Lecun在多伦多大学随Hinton读博士后,即他是Hinton的学生。
他是另一个神经网络与深度学习大拿。
他在皮埃尔玛丽居里大学(又称巴黎第六大学,Université
PierreetMarieCurie(ParisVI))获得了计算机科的负责人。
为了表彰他在深度学习领域里所作出的贡献,IEEE计算机学会颁给他著名的“神经网络先锋奖”,在2014年北京计算智能大会上授予。
3.YoshuaBengio
Bengio是另外一位机器学习、深度学习的大拿。
他在麦吉尔大学获得博士学位。
他是ApSTAT技术的发起人与研发大牛。
他也是蒙特利尔大学(Université
deMontré
al)的终身教授,任教超过22年,是机器学习实验室(MILA)的负责人,是CIFAR项目的负责人之一,负责神经计算和自适应感知器等方面。
又是加拿大统计学习算法学会的主席,并且是NSERC-Ubisoft主席以及其它。
在蒙特利尔大学任教之前,他是AT&
T&
MIT的一名机器学习研究员。
他的主要贡献在于深度学习与人工智能等领域。
4.JurgenSchmidhuber
他致力于构建一个自完善的人工智能机器。
他曾任职于南加州大学,现任于卡内基梅隆大学语言技术研究所。
他是著名的自然语言处理学者与专家,是国际计算语言协会(ACL)的首批Fellow,曾任ACL2001年主席。
他主要的研究工作是机器学习、RNN(RecurrentNeuralNetworks,递归神经网络)、深度学习、计算机视觉以及自然语言处理等。
他早机器翻译、自动文摘、自动问答、文本理解等领域作出了杰出的贡献。
5.Alex“Sandy”Pentland
在过去的29年时间中,Perntland都任职于MIT(麻省理工大学)的教授。
在这期间,他创建多个公司,如IDcubed.org、SenseNetworks、CogitoHealth、Ginger.io等。
根据他所取得的成就,福布斯(Forbes)称他是世界上最有力量的数据科学家(the‘World’sMostPowerfulDataScientist’)。
他也被任命为多个跨国公司(MNCs)的顾问(anadvisor),如Nissan、Motorola、HBR、Telefonica等。
他的主要兴趣在机器学习、人工智能与人类计算(Humancomputing)等领域。
6.PeterNorvig
Norvig目前任职于Google。
在此之前,他在NASA工作了六年,担任计算科学部门的负责人,期间获得了NASA杰出贡献奖(ExceptionalAchievementAward)。
是ACM、AAAI等的Fellow。
他在加利福尼亚大学伯克利分校(UniversityofCalifornia,Berkeley)获得了计算机科学博士学位。
他的兴趣在于人工智能(AI),自然语言处理(NLP)和机器学习等领域。
7.CorinnaCortes
Cortes目前是google的研究员。
她在哥本哈根大学(UniversityofCopenhagen)获得物理学理学硕士,并加入贝尔实验室(AT&
TBellLabs),在此工作超过十年。
并在罗切斯特大学(UniversityofRochester)获得了计算机科学博士学位。
她的研究主要在人工智能、机器学习、自然科学通论、算法与理论等方面。
并且她是一位拥有两个孩子的妈,可谓是人生赢家。
8.MichealIJordan
Jordan是加利福尼亚大学伯克利分校电子工程系和计算科学系陈丕宏(PehongChen)特聘教授(DistinguishedProfessor)和(UCBerkeley)统计学系的特聘教授。
他近些年的研究工作主要集中在无参数贝叶斯分析、概率图模型、谱方法、核方法以及信号处理中的应用等方面。
其中,他便是聚类算法中广泛使用的基于规范切(Normalizedcut)谱聚类算法提出者之一。
他获得了多个举足轻重的奖项,如数理统计学会(InstituteofMathematicalStatistics,IMS)授予的NeymanLecturer和MedallionLecturer。
他获得了加利福尼亚大学伯克利分校的认知科学博士学位,并且是麻省理工大学(MIT)的教授。
9.AndrewNg
AndrewNg中文名为吴恩达,他和DaphneKoller共同创建Coursera(在线教育平台)这一流大学在线课程平台。
他2014年5月16日加盟XX,成为XX首席科学家,带领XX大脑计划项目,负责XX研究院,开展深度学习和大数据与人工智能可伸缩性方法。
他又是斯坦福大学(StanfordUniversity)的计算机科学系与电子工程系的副教授,人工智能实验室主任。
他于1997年获得了卡内基梅隆大学(CMU)的计算机科学学士学位,1998年获得了麻省理工大学(MIT)硕士学位,并于2002年获得加州大学(加利福尼亚大学的简称)伯克利分校(UCBerkeley)的博士学位,并从这一年开始在斯坦福大学任教。
10.DaphneKoller
Koller也是在线教育平台Coursera的负责人和共同发起人之一。
她在耶路撒冷希伯来大学(TheHebrewUniversityofJerusalem)攻读学术与硕士学位,在斯坦福大学获得计算机科学博士学位,在加州大学伯克利分校攻读博士后。
现为斯坦福大学教授。
在攻读博士期间,获得了很多奖项,如杰出青年科学家奖、ACMInfosys基金。
她的主要兴趣领域是机器学习、人工智能与模式识别等。
5大数据十大国内顶级专家
1.
李国杰,中国工程院院士、中国科学院计算技术研究所研究员
lig@
2.
程学旗,中国科学院计算技术研究所副总工、研究员
cxq@
3.
李建中,哈尔滨工业大学教授
lijzh@
4.
孟小峰中国人民大学信息学院副院长、教授xfmeng[at]
5.
周涛,博士,教授,电子科技大学互联网科学中心主任。
6.
前XX科学家:
张栋_机器学习
7.
XX深度学习研究院的大牛:
余凯_西二旗民工(微博名)
8.
唐杰,清华大学计算机科学与技术系副教授,系科研办公室主任
9.
周志华,南京大学教授
10.
XX副总裁搞NLP的:
王海峰_XX
6大数据十大国际领军企业
7大数据十大国内领军企业
8大数据十大必备工具
1.ApacheHive:
Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。
Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。
2.JaspersoftBI套件
Jaspersoft包是一个通过数据库列生成报表的开源软件。
行业领导者发现Jaspersoft软件是一流的,许多企业已经使用它来将SQL表转化为pdf,,这使每个人都可以在会议上对其进行审议。
另外,JasperReports提供了一个连接配置单元来替代HBase。
3.1010data:
1010data创立于2000年,是一个总部设在纽约的分析型云服务,旨在为华尔街的客户提供服务,甚至包括NYSEEuronext、游戏和电信的客户。
它在设计上支持可伸缩性的大规模并行处理。
它也有它自己的查询语言,支持SQL函数和广泛的查询类型,包括图和时间序列分析。
这个私有云的方法减少了客户在基础设施管理和扩展方面的压力。
4.Actian:
Actian之前的名字叫做IngresCorp,它拥有超过一万客户而且正在扩增。
它通过Vectorwise以及对ParAccel实现了扩展。
这些发展分别导致了ActianVector和ActianMatrix的创建。
它有Apache,Cloudera,Hortonworks以及其他发行版本可供选择。
5.PentahoBusinessAnalytics:
从某种意义上说,Pentaho与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎,但它目前通过简化新来源中获取信息的过程来支持大数据处理。
Pentaho的工具可以连接到NoSQL数据库,例如MongoDB和Cassandra。
PeterWayner指出,PentahoData(一个更有趣的图形编程界面工具)有很多内置模块,你可以把它们拖放到一个图片上,然后将它们连接起来。
6.KarmasphereStudioandAnalyst:
KarsmasphereStudio是一组构建在Eclipse上的插件,它是一个更易于创建和运行Hadoop任务的专用IDE。
在配置一个Hadoop工作时,Karmasphere工具将引导您完成每个步骤并显示部分结果。
当出现所有数据处于同一个Hadoop集群的情况时,KarmaspehereAnalyst旨在简化筛选的过程,。
7.Cloudera:
Cloudera正在努力为开源Hadoop,提供支持,同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。
Hadoop可以作为目标数据仓库,高效的数据平台,或现有数据仓库的ETL来源。
企业规模可以用作集成Hadoop与传统数据仓库的基础。
Cloudera致力于成为数据管理的“重心”。
8.HPVerticaAnalyticsPlatformVersion7:
HP提供了用于加载Hadoop软件发行版所需的参考硬件配置,因为它本身并没有自己的Hadoop版本。
计算机行业领袖将其大数据平台架构命名为HAVEn(意为Hadoop,Autonomy,Vertica,EnterpriseSecurityand“n”applications)。
惠普在Vertica7版本中增加了一个“FlexZone”,允许用户在定义数据库方案以及相关分析、报告之前探索大型数据集中的数据。
这个版本通过使用HCatalog作为元数据存储,与Hadoop集成后为用户提供了一种探索HDFS数据表格视图的方法。
9.TalendOpenStudio:
Talend’s工具用于协助进行数据质量、数据集成和数据管理等方面工作。
Talend是一个统一的平台,它通过提供一个统一的,跨企业边界生命周期管理的环境,使数据管理和应用更简单便捷。
这种设计可以帮助企业构建灵活、高性能的企业架构,在次架构下,集成并启用百分之百开源服务的分布式应用程序变为可能。
10.ApacheSpark
ApacheSpark是Hadoop开源生态系统的新成员。
它提供了一个比Hive更快的查询引擎,因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。
同时,它还用于事件流处理、实时查询和机器学习等方面。
9大数据十大企业级分析利器
10大数据十大经典挖掘算法
1.
C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)在树构造过程中进行剪枝;
3)能够完成对连续属性的离散化处理;
4)能够对不完整数据进行处理。
C4.5算法有如下优点:
产生的分类规则易于理解,准确率较高。
其缺点是:
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
2.Thek-meansalgorithm
即K-Means算法
k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k<
n。
它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。
它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
3.
Supportvectormachines
支持向量机,英文为SupportVectorMachine,简称SV机(论文中一般简称SVM)。
它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。
支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。
在分开数据的超平面的两边建有两个互相平行的超平面。
分隔超平面使两个平行超平面的距离最大化。
假定平行超平面间的距离或差距越大,分类器的总误差越小。
一个极好的指南是C.J.CBurges的《模式识别支持向量机指南》。
vanderWalt和Barnard将支持向量机和其他分类器进行了比较。
4.TheApriorialgorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
其核心是基于两阶段频集思想的递推算法。
该关联规则在分类上属于单维、单层、布尔关联规则。
在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
5.
最大期望(EM)算法
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariabl)。
最大期望经常用在机器学习和计算机视觉的数据集聚(DataClustering)领域。
6.
PageRank
PageRank是Google算法的重要内容。
2001年9月被授予美国专利,专利人是Google创始人之一拉里·
佩奇(LarryPage)。
因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
7.AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。
将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
8.kNN:
k-nearestneighborclassification
K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
该方法的思路是:
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
9.NaiveBayes
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(DecisionTreeModel)和朴素贝叶斯模型(NaiveBayesianModel,NBC)。
朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
理论上,NBC模型与其他分类方法相比具有最小的误差率。
但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。
而在属性相关性较小时,NBC模型的性能最为良好。
10.
CART:
分类与回归树
CART,ClassificationandRegressionTrees。
在分类树下面有两个关键的思想。
第一个是关于递归地划分自变量空间的想法;
第二个想法是用验证数据进行剪枝。
向永清_大数据应用
致力于大数据应用研究,打通企业数据孤岛,让数据再造企业,提升企业竞争力!
微信(QQ):
4401949
邮箱:
4401949@