大数据学习资源汇总Word文档格式.docx

资源描述

大数据学习资源汇总Word文档格式.docx

《大数据学习资源汇总Word文档格式.docx》由会员分享，可在线阅读，更多相关《大数据学习资源汇总Word文档格式.docx（24页珍藏版）》请在冰豆网上搜索。

大数据学习资源汇总Word文档格式.docx

散布式处置架构，结合了

MapReduce（并行处置）、YARN（作业调度）和HDFS（散布式文件系统）；

Tigon：

高吞吐量实时流处置框架。

AddThisHydra

：

最初在AddThis上开发的散布式数据处置和存储系统；

AMPLabSIMR：

用在HadoopMapReducev1上运行Spark；

ApacheBeam：

为统一的模型和一套用于概念和执行数据处置工作流的特定SDK语言；

ApacheCrunch：

一个简单的JavaAPI，用于执行在一般的MapReduce实现时比较单调的连接、数据聚合等任务；

ApacheDataFu：

由LinkedIn开发的针对Hadoopand

和Pig的用户概念的函数集合；

ApacheFlink：

具有高性能的执行时刻和自动程序优化；

ApacheGora：

内存中的数据模型和持久性框架；

ApacheHama：

BSP（整体同步并行）计算框架；

ApacheMapReduce

在集群上利用并行、散布式算法处置大数据集的编程模型；

ApachePig

Hadoop中，用于处置数据分析程序的高级查询语言；

ApacheREEF

用来简化和统一低层大数据系统的保留性评估执行框架；

ApacheS4

S4中流处置与实现的框架；

ApacheSpark

内存集群计算框架；

ApacheSparkStreaming

流处置框架，同时是Spark的一部份；

ApacheStorm

Twitter流处置框架，也可用于YARN；

ApacheSamza

基于Kafka和YARN的流处置框架；

ApacheTez

基于YARN，用于执行任务中的复杂DAG（有向无环图）；

ApacheTwill

基于YARN的抽象概念，用于减少开发散布式应用程序的复杂度；

Cascalog：

数据处置和查询库；

Cheetah

在MapReduce之上的高性能、自概念数据仓库；

ConcurrentCascading

在Hadoop上的数据治理/分析框架；

DamballaParkour

用于Clojure的MapReduce库；

DatasaltPangool

可选择的MapReduce范例；

DataTorrentStrAM

为实时引擎，用于以尽可能畅通的方式、最小的开支和对性能最小的阻碍，实现散布式、异步、实时的内存大数据计算；

FacebookCorona

为Hadoop做优化处置，从而排除单点故障；

FacebookPeregrine

MapReduce框架；

FacebookScuba

散布式内存数据存储；

GoogleDataflow

创建数据管道，以帮忙其分析框架；

NetflixPigPen

为MapReduce，用于编译成ApachePig；

NokiaDisco

由Nokia开发的MapReduc获取、转换和分析数据；

GoogleMapReduce

GoogleMillWheel

容错流处置框架；

JAQL

用于处置结构化、半结构化和非结构化数据工作的声明性编程语言；

Kite

为一组库、工具、实例和文档集，用于使在Hadoop的生态系统上成立系统加倍容易；

MetamarketsDruid

用于大数据集的实时e框架；

Onyx

散布式云计算；

PinterestPinlater

异步任务执行系统；

Pydoop

用于Hadoop的PythonMapReduce和HDFSAPI；

RackerlabsBlueflood

多租户散布式测度处置系统；

Stratosphere

通用集群计算框架；

Streamdrill

用于计算基于不同时刻窗口的事件流的活动，并找到最活跃的一个；

Tuktu

易于利用的用于分批处置和流计算的平台，通过Scala、

Akka和Play所建；

TwitterScalding：

基于Cascading，用于Map

Reduce工作的Scala库；

TwitterSummingbird

在Twitter上利用Scalding和Storm串流MapReduce；

TwitterTSAR

Twitter上的时刻序列聚合器。

ApacheHDFS：

在多台机械上存储大型文件的方式；

BeeGFS：

以前是FhGFS，并行散布式文件系统；

CephFilesystem：

设计的软件存储平台；

DiscoDDFS：

散布式文件系统；

FacebookHaystack：

对象存储系统；

GoogleColossus：

散布式文件系统（GFS2）；

GoogleGFS：

GoogleMegastore：

可扩展的、高度可用的存储；

GridGain：

兼容GGFS、Hadoop内存的文件系统；

Lustrefilesystem：

高性能散布式文件系统；

QuantcastFileSystemQFS：

开源散布式文件系统；

RedHatGlusterFS：

向外扩展的附网存储（Network-attached

Storage）文件系统；

Seaweed-FS：

简单的、高度可扩展的散布式文件系统；

Alluxio：

以靠得住的存储速度在跨集群框架上文件共享；

Tahoe-LAFS：

散布式云存储系统；

ActianVersant：

商用的面向对象数据库治理系统；

CrateData：

是一个开源的大规模可扩展的数据存储，需要零治理模式；

FacebookApollo：

Facebook的Paxos算法，类似于NoSQL数据库；

jumboDB：

基于Hadoop的面向文档的数据存储；

LinkedInEspresso：

可横向扩展的面向文档的NoSQL数据存储；

MarkLogic：

模式不可知的企业版NoSQL数据库技术；

MongoDB：

面向文档的数据库系统；

RavenDB：

一个事务性的，开源文档数据库；

RethinkDB：

支持连接查询和群组依据等查询的文档型数据库。

KeyMap

注意：

业内存在一些术语混乱，有两个不同的东西都叫做“列式数据库”。

那个地址列出的有一些是围绕“key-map”数据模型而建的散布式、持续型数据库，其中所有的数据都有（可能综合了）键，并与映射中的键-值对相关联。

在一些系统中，多个如此的值映射能够与键相关联，而且这些映射被称为“列族”（具有映射值的键被称为“列”）。

另一组也可称为“列式数据库”的技术因其存储数据的方式而有别于前一组，它在磁盘上或在存储器中——而不是以传统方式，即所有既定键的键值都相邻着、逐行存储。

这些系统也彼此相邻来存储所有列值，可是要取得给定列的所有值却不需要以前那么繁复的工作。

前一组在那个地址被称为“keymap数据模型”，这二者和Key-value

数据模型之间的界限是相当模糊的。

后者对数据模型有更多的存储格式，可在列式数据库中列出。

假假想了解更多关于这两种模型的区分，可阅读DanielAbadi的博客：

DistinguishingtwomajortypesofColumnStores。

ApacheAccumulo：

内置在Hadoop上的散布式键/值存储；

ApacheCassandra：

由BigTable授权，面向列的散布式数据存储；

ApacheHBase：

FacebookHydraBase：

Facebook所开发的HBase的衍化品；

GoogleBigTable：

面向列的散布式数据存储；

GoogleCloudDatastore：

为完全治理型的无模式数据库，用于存储在BigTable上非关系型数据；

Hypertable：

InfiniDB：

通过MySQL的接口访问，并利用大规模并行处置进行并行查询；

Tephra：

用于HBase处置；

TwitterManhattan：

Twitter的实时、多租户散布式数据库。

Aerospike：

支持NoSQL的闪存优化，数据存储在内存。

开源，“'

（不是Java或Erlang）中的效劳器代码可精准地调整从而幸免上下文切换和内存拷贝”。

AmazonDynamoDB：

散布式键/值存储，Dynamo论文的实现；

Edis：

为替代Redis的协议兼容的效劳器；

ElephantDB：

专门研究Hadoop中数据导出的散布式数据库；

EventStore：

散布式时刻序列数据库；

GridDB：

适用于存储在时刻序列中的传感器数据；

LinkedInKrati：

简单的持久性数据存储，拥有低延迟和高吞吐量；

LinkedinVoldemort：

散布式键/值存储系统；

OracleNoSQLDatabase：

Oracle公司开发的散布式键值数据库；

Redis：

内存中的键值数据存储；

Riak：

分散式数据存储；

Storehaus：

Twitter开发的异步键值存储的库；

Tarantool：

一个高效的NoSQL数据库和Lua应用效劳器；

TiKV：

由GoogleSpanner和HBase授权，Rust提供技术支持的散布式键值数据库；

TreodeDB：

可复制、共享的键-值存储，能提供多行原子写入。

ApacheGiraph：

基于Hadoop的Pregel实现；

ApacheSparkBagel：

可实现Pregel，为Spark的一部份；

ArangoDB：

多层模型散布式数据库；

DGraph：

一个可扩展的、散布式、低时延、高吞吐量的图形数据库，旨在为Google生产水平规模和吞吐量提供足够的低延迟，用于TB级的结构化数据的实时用户查询；

FacebookTAO：

TAO是facebook普遍用来存储和效劳于社交图形的散布式数据存储；

GCHQGaffer：

GCHQ中的Gaffer是一个易于存储大规模图形的框架，其中节点和边缘都有统计数据；

GoogleCayley：

开源图形数据库；

GooglePregel

图形处置框架；

GraphLabPowerGraph：

核心C++GraphLabAPI和成立在GraphLabAPI之上的高性能机械学习和数据挖掘工具包的集合；

GraphX：

Spark中的弹性散布式图形系统；

Gremlin：

图形追踪语言；

Infovore：

以RDF为中心的Map/Reduce框架；

IntelGraphBuilder：

在Hadoop上构建大规模图形的工具；

MapGraph：

用于在GPU上大规模并行图形处置；

Neo4j：

完全用Java写入的图形数据库；

OrientDB：

文档和图形数据库；

Phoebus：

大型图形处置框架；

Titan：

建于Cassandra的散布式图形数据库；

TwitterFlockDB：

散布式图形数据库。

ActianIngres：

由商业支持，开源的SQL关系数据库治理系统；

AmazonRedShift：

基于PostgreSQL的数据仓库效劳；

BayesDB：

面向统计数值的SQL数据库；

CitusDB：

通过度区和复制横向扩展PostgreSQL；

Cockroach：

可扩展、地址可复制、交易型的数据库；

Datomic：

旨在产生可扩展、灵活的智能应用的散布式数据库；

FoundationDB：

由F1授意的散布式数据库；

GoogleF1：

成立在Spanner上的散布式SQL数据库；

GoogleSpanner：

全世界性的散布式半关系型数据库；

H-Store：

是一个实验性主存并行数据库治理系统，用于联机事务处置（OLTP）应用的优化；

Haeinsa：

基于Percolator，HBase的线性可扩展多行多表交易库；

HandlerSocket：

MySQL/MariaDB的NoSQL插件；

InfiniSQL：

无穷可扩展的RDBMS；

MemSQL：

内存中的SQL数据库，其中有优化的闪存列存储；

NuoDB：

SQL/ACID兼容的散布式数据库；

OracleTimesTenin-MemoryDatabase：

内存中具有持久性和可恢复性的关系型数据库治理系统；

PivotalGemFireXD：

内存中低延时的散布式SQL数据存储，可为内存列表数据提供SQL接口，在HDFS中较持久化；

SAPHANA：

是在内存中面向列的关系型数据库治理系统；

SenseiDB：

散布式实时半结构化的数据库；

Sky：

用于行为数据的灵活、高性能分析的数据库；

SymmetricDS：

用于文件和数据库同步的开源软件；

Map-D：

为GPU内存数据库，也为大数据分析和可视化平台；

TiDB：

TiDB是散布式SQL数据库，基于谷歌F1的设计灵感；

VoltDB：

自称为最快的内存数据库。

请在键-值数据模型

阅读相关注释。

ColumnarStorage：

说明什么是列存储和何时会需要用到它；

ActianVector：

面向列的分析型数据库；

C-Store：

面向列的DBMS；

MonetDB：

列存储数据库；

Parquet：

Hadoop的列存储格式；

PivotalGreenplum：

专门设计的、专用的分析数据仓库，类似于传统的基于行的工具，提供了一个列式工具；

Vertica：

用来治理大规模、快速增加的大量数据，当用于数据仓库时，能够提供超级快的查询性能；

GoogleBigQuery

谷歌的云产品，由其在Dremel的开创工作提供支持；

AmazonRedshift

亚马逊的云产品，它也是基于柱状数据存储后端。

Cube：

利用MongoDB来存储时刻序列数据；

AxibaseTimeSeriesDatabase：

在HBase之上的散布式时刻序列数据库，它包括内置的RuleEngine、数据预测和可视化；

Heroic：

基于Cassandra和Elasticsearch的可扩展的时刻序列数据库；

InfluxDB：

Kairosdb：

类似于OpenTSDB但会考虑到Cassandra；

OpenTSDB：

在HBase上的散布式时刻序列数据库；

Prometheus：

一种时刻序列数据库和效劳监测系统；

Newts：

一种基于ApacheCassandra的时刻序列数据库。

ActianSQLforHadoop：

高性能交互式的SQL，可访问所有的Hadoop数据；

ApacheDrill：

由Dremel授意的交互式分析框架；

ApacheHCatalog：

Hadoop的表格和存储治理层；

ApacheHive：

Hadoop的类SQL数据仓库系统；

ApacheOptiq：

一种框架，可许诺高效的查询翻译，其中包括异构性及联合性数据的查询；

ApachePhoenix：

ApachePhoenix

是

HBase

的

SQL

驱动；

ClouderaImpala：

ConcurrentLingual：

Cascading中的类SQL查询语言；

DatasaltSploutSQL：

用于大数据集的完整的SQL查询工具；

FacebookPrestoDB：

散布式SQL查询工具；

GoogleBigQuery：

交互式分析框架，Dremel的实现；

PivotalHAWQ：

Hadoop的类SQL的数据仓库系统；

RainstorDB：

用于存储大规模PB级结构化和半结构化数据的数据库；

SparkCatalyst：

用于Spark和Shark的查询优化框架；

SparkSQL：

利用Spark操作结构化数据；

SpliceMachine：

一个全功能的Hadoop上的SQL

RDBMS，并带有ACID事务；

Stinger：

用于Hive的交互式查询；

Tajo：

Hadoop的散布式数据仓库系统；

Trafodion：

为企业级的SQL-on-HBase针对大数据的事务或业务工作负载的解决方案。

AmazonKinesis：

大规模数据流的实时处置；

ApacheChukwa：

数据搜集系统；

ApacheFlume：

治理大量日记数据的效劳；

ApacheKafka：

散布式发布-定阅消息系统；

ApacheSqoop：

在Hadoop和结构化的数据存储区之间传送数据的工具；

ClouderaMorphlines：

帮忙

Solr、HBase和HDFS完成ETL的框架；

FacebookScribe：

流日记数据聚合器；

Fluentd：

搜集事件和日记的工具；

GooglePhoton：

实时连接多个数据流的散布式运算机系统，具有高可扩展性和低延迟性；

Heka：

开源流处置软件系统；

HIHO：

用Hadoop连接不同数据源的框架；

Kestrel：

散布式消息队列系统；

LinkedInDatabus：

对数据库更改捕捉的事件流；

LinkedInKamikaze：

紧缩已分类整型数组的程序包；

LinkedInWhiteElephant：

日记聚合器和仪表板；

Logstash：

用于治理事件和日记的工具；

NetflixSuro：

像基于Chukwa

的Storm和Samza一样的日记聚合器；

PinterestSecor：

是实现Kafka日记持久性的效劳；

LinkedinGobblin：

LinkedIn的通用数据摄取框架；

Skizze：

是一种数据存储略图，利用概率性数据结构来处置计数、略图等相关的问题；

StreamSetsDataCollector：

持续大数据搜集的基础设施，可简单地利用IDE。

AkkaToolkit：

JVM中散布性、容错事件驱动应用程序的运行时刻；

ApacheAvro：

数据序列化系统；

ApacheCurator：

ApacheZooKeeper的Java库；

ApacheKaraf：

在任何OSGi框架之上运行的OSGi运行时刻；

ApacheThrift：

构建二进制协议的框架；

ApacheZookeeper：

流程治理集中式效劳；

GoogleChubby：

一种松耦合散布式系统锁效劳；

LinkedinNorbert：

集群治理器；

OpenMPI：

消息传递框架；

Serf：

效劳发觉和和谐的分散化解决方案；

SpotifyLuigi：

一种构建批处置作业的复杂管道的Python包，它能够处置依托性解析、工作流治理、可视化、故障处置、命令行一体化等等问题；

SpringXD：

数据摄取、实时分析、批量处置和数据导出的散布式、可扩展系统；

TwitterElephantBird：

LZO紧缩数据的工作库；

TwitterFinagle：

JVM的异步网络堆栈。

ApacheAurora：

在ApacheMesos之上运行的效劳调度程序；

ApacheFalcon：

数据治理框架；

ApacheOozie：

工作流作业调度程序；

Chronos：

散布式容错调度；

LinkedinAzkaban：

批处置工作流作业调度；

Schedoscope：

Hadoop作业敏捷调度的ScalaDSL；

Sparrow：

调度平台；

Airflow：

一个以编程方式编写、调度和监控工作流的平台。

ApacheMahout：

Hadoop的机械学习库；

brain：

JavaScript中的神经网络；

ClouderaOryx：

实时大规模机械学习；

展开阅读全文