大数据学习资源汇总Word文档格式.docx-资源下载

大数据学习资源汇总Word文档格式.docx

1、散布式处置架构，结合了MapReduce（并行处置）、YARN（作业调度）和HDFS（散布式文件系统）；Tigon：高吞吐量实时流处置框架。AddThis Hydra：最初在AddThis上开发的散布式数据处置和存储系统；AMPLab SIMR：用在Hadoop MapReduce v1上运行Spark；Apache Beam：为统一的模型和一套用于概念和执行数据处置工作流的特定SDK语言；Apache Crunch：一个简单的Java API，用于执行在一般的MapReduce实现时比较单调的连接、数据聚合等任务；Apache DataFu：由LinkedIn开发的针对Hadoop and和

2、Pig的用户概念的函数集合；Apache Flink：具有高性能的执行时刻和自动程序优化；Apache Gora：内存中的数据模型和持久性框架；Apache Hama：BSP（整体同步并行）计算框架；Apache MapReduce在集群上利用并行、散布式算法处置大数据集的编程模型；Apache PigHadoop中，用于处置数据分析程序的高级查询语言；Apache REEF用来简化和统一低层大数据系统的保留性评估执行框架；Apache S4S4中流处置与实现的框架；Apache Spark内存集群计算框架；Apache Spark Streaming流处置框架，同时是Spark的一部份；Ap

3、ache StormTwitter流处置框架，也可用于YARN；Apache Samza基于Kafka和YARN的流处置框架；Apache Tez基于YARN，用于执行任务中的复杂DAG（有向无环图）；Apache Twill基于YARN的抽象概念，用于减少开发散布式应用程序的复杂度；Cascalog：数据处置和查询库；Cheetah在MapReduce之上的高性能、自概念数据仓库；Concurrent Cascading在Hadoop上的数据治理/分析框架；Damballa Parkour用于Clojure的MapReduce库；Datasalt Pangool可选择的MapReduce范例

4、；DataTorrent StrAM为实时引擎，用于以尽可能畅通的方式、最小的开支和对性能最小的阻碍，实现散布式、异步、实时的内存大数据计算；Facebook Corona为Hadoop做优化处置，从而排除单点故障；Facebook PeregrineMapReduce框架；Facebook Scuba散布式内存数据存储；Google Dataflow创建数据管道，以帮忙其分析框架；Netflix PigPen为MapReduce，用于编译成Apache Pig；Nokia Disco由Nokia开发的MapReduc获取、转换和分析数据；Google MapReduceGoogle Mill

5、Wheel容错流处置框架；JAQL用于处置结构化、半结构化和非结构化数据工作的声明性编程语言；Kite为一组库、工具、实例和文档集，用于使在Hadoop的生态系统上成立系统加倍容易；Metamarkets Druid用于大数据集的实时e框架；Onyx散布式云计算；Pinterest Pinlater异步任务执行系统；Pydoop用于Hadoop的Python MapReduce和HDFS API；Rackerlabs Blueflood多租户散布式测度处置系统；Stratosphere通用集群计算框架；Streamdrill用于计算基于不同时刻窗口的事件流的活动，并找到最活跃的一个；Tuktu

6、易于利用的用于分批处置和流计算的平台，通过Scala、Akka和Play所建；Twitter Scalding：基于Cascading，用于MapReduce工作的Scala库；Twitter Summingbird在Twitter上利用Scalding和Storm串流MapReduce；Twitter TSARTwitter上的时刻序列聚合器。Apache HDFS：在多台机械上存储大型文件的方式；BeeGFS：以前是FhGFS，并行散布式文件系统；Ceph Filesystem：设计的软件存储平台；Disco DDFS：散布式文件系统；Facebook Haystack：对象存储系统；Go

7、ogle Colossus：散布式文件系统（GFS2）；Google GFS：Google Megastore：可扩展的、高度可用的存储；GridGain：兼容GGFS、Hadoop内存的文件系统；Lustre file system：高性能散布式文件系统；Quantcast File System QFS：开源散布式文件系统；Red Hat GlusterFS：向外扩展的附网存储（Network-attachedStorage）文件系统；Seaweed-FS：简单的、高度可扩展的散布式文件系统；Alluxio：以靠得住的存储速度在跨集群框架上文件共享；Tahoe-LAFS：散布式云存储系统；

8、Actian Versant：商用的面向对象数据库治理系统；Crate Data：是一个开源的大规模可扩展的数据存储，需要零治理模式；Facebook Apollo：Facebook的Paxos算法，类似于NoSQL数据库；jumboDB：基于Hadoop的面向文档的数据存储；LinkedIn Espresso：可横向扩展的面向文档的NoSQL数据存储；MarkLogic：模式不可知的企业版NoSQL数据库技术；MongoDB：面向文档的数据库系统；RavenDB：一个事务性的，开源文档数据库；RethinkDB：支持连接查询和群组依据等查询的文档型数据库。Key Map注意：业内存在一些术语

9、混乱，有两个不同的东西都叫做“列式数据库”。那个地址列出的有一些是围绕“key-map”数据模型而建的散布式、持续型数据库，其中所有的数据都有（可能综合了）键，并与映射中的键-值对相关联。在一些系统中，多个如此的值映射能够与键相关联，而且这些映射被称为“列族”（具有映射值的键被称为“列”）。另一组也可称为“列式数据库”的技术因其存储数据的方式而有别于前一组，它在磁盘上或在存储器中而不是以传统方式，即所有既定键的键值都相邻着、逐行存储。这些系统也彼此相邻来存储所有列值，可是要取得给定列的所有值却不需要以前那么繁复的工作。前一组在那个地址被称为“key map数据模型”，这二者和Key-value

10、数据模型之间的界限是相当模糊的。后者对数据模型有更多的存储格式，可在列式数据库中列出。假假想了解更多关于这两种模型的区分，可阅读Daniel Abadi的博客：Distinguishing two major types of Column Stores。Apache Accumulo：内置在Hadoop上的散布式键/值存储；Apache Cassandra：由BigTable授权，面向列的散布式数据存储；Apache HBase：Facebook HydraBase：Facebook所开发的HBase的衍化品；Google BigTable：面向列的散布式数据存储；Google Cloud

11、Datastore：为完全治理型的无模式数据库，用于存储在BigTable上非关系型数据；Hypertable：InfiniDB：通过MySQL的接口访问，并利用大规模并行处置进行并行查询；Tephra：用于HBase处置；Twitter Manhattan：Twitter的实时、多租户散布式数据库。Aerospike：支持NoSQL的闪存优化，数据存储在内存。开源，“C（不是Java或Erlang）中的效劳器代码可精准地调整从而幸免上下文切换和内存拷贝”。Amazon DynamoDB：散布式键/值存储，Dynamo论文的实现；Edis：为替代Redis的协议兼容的效劳器；ElephantD

12、B：专门研究Hadoop中数据导出的散布式数据库；EventStore：散布式时刻序列数据库；GridDB：适用于存储在时刻序列中的传感器数据；LinkedIn Krati：简单的持久性数据存储，拥有低延迟和高吞吐量；Linkedin Voldemort：散布式键/值存储系统；Oracle NoSQL Database：Oracle公司开发的散布式键值数据库；Redis：内存中的键值数据存储；Riak：分散式数据存储；Storehaus：Twitter开发的异步键值存储的库；Tarantool：一个高效的NoSQL数据库和Lua应用效劳器；TiKV：由Google Spanner和HBase授

13、权，Rust提供技术支持的散布式键值数据库；TreodeDB：可复制、共享的键-值存储，能提供多行原子写入。Apache Giraph：基于Hadoop的Pregel实现；Apache Spark Bagel：可实现Pregel，为Spark的一部份；ArangoDB：多层模型散布式数据库；DGraph：一个可扩展的、散布式、低时延、高吞吐量的图形数据库，旨在为Google生产水平规模和吞吐量提供足够的低延迟，用于TB级的结构化数据的实时用户查询；Facebook TAO：TAO是facebook普遍用来存储和效劳于社交图形的散布式数据存储；GCHQ Gaffer：GCHQ中的Gaffer是一

14、个易于存储大规模图形的框架，其中节点和边缘都有统计数据；Google Cayley：开源图形数据库；Google Pregel图形处置框架；GraphLab PowerGraph：核心C + GraphLab API和成立在GraphLab API之上的高性能机械学习和数据挖掘工具包的集合；GraphX：Spark中的弹性散布式图形系统；Gremlin：图形追踪语言；Infovore：以RDF为中心的Map / Reduce框架；Intel GraphBuilder：在Hadoop上构建大规模图形的工具；MapGraph：用于在GPU上大规模并行图形处置；Neo4j：完全用Java写入的图形数

15、据库；OrientDB：文档和图形数据库；Phoebus：大型图形处置框架；Titan：建于Cassandra的散布式图形数据库；Twitter FlockDB：散布式图形数据库。Actian Ingres：由商业支持，开源的SQL关系数据库治理系统；Amazon RedShift：基于PostgreSQL的数据仓库效劳；BayesDB：面向统计数值的SQL数据库；CitusDB：通过度区和复制横向扩展PostgreSQL；Cockroach：可扩展、地址可复制、交易型的数据库；Datomic：旨在产生可扩展、灵活的智能应用的散布式数据库；FoundationDB：由F1授意的散布式数据库；G

16、oogle F1：成立在Spanner上的散布式SQL数据库；Google Spanner：全世界性的散布式半关系型数据库；H-Store：是一个实验性主存并行数据库治理系统，用于联机事务处置（OLTP）应用的优化；Haeinsa：基于Percolator，HBase的线性可扩展多行多表交易库；HandlerSocket：MySQL/MariaDB的NoSQL插件；InfiniSQL：无穷可扩展的RDBMS；MemSQL：内存中的SQL数据库，其中有优化的闪存列存储；NuoDB：SQL / ACID兼容的散布式数据库；Oracle TimesTen in-Memory Database：内存中

17、具有持久性和可恢复性的关系型数据库治理系统；Pivotal GemFire XD：内存中低延时的散布式SQL数据存储，可为内存列表数据提供SQL接口，在HDFS中较持久化；SAP HANA：是在内存中面向列的关系型数据库治理系统；SenseiDB：散布式实时半结构化的数据库；Sky：用于行为数据的灵活、高性能分析的数据库；SymmetricDS：用于文件和数据库同步的开源软件；Map-D：为GPU内存数据库，也为大数据分析和可视化平台；TiDB：TiDB是散布式SQL数据库，基于谷歌F1的设计灵感；VoltDB：自称为最快的内存数据库。请在键-值数据模型阅读相关注释。Columnar Stor

18、age：说明什么是列存储和何时会需要用到它；Actian Vector：面向列的分析型数据库；C-Store：面向列的DBMS；MonetDB：列存储数据库；Parquet：Hadoop的列存储格式；Pivotal Greenplum：专门设计的、专用的分析数据仓库，类似于传统的基于行的工具，提供了一个列式工具；Vertica：用来治理大规模、快速增加的大量数据，当用于数据仓库时，能够提供超级快的查询性能；Google BigQuery谷歌的云产品，由其在Dremel的开创工作提供支持；Amazon Redshift亚马逊的云产品，它也是基于柱状数据存储后端。Cube：利用MongoDB来存储

19、时刻序列数据；Axibase Time Series Database：在HBase之上的散布式时刻序列数据库，它包括内置的Rule Engine、数据预测和可视化；Heroic：基于Cassandra和Elasticsearch的可扩展的时刻序列数据库；InfluxDB：Kairosdb：类似于OpenTSDB但会考虑到Cassandra；OpenTSDB：在HBase上的散布式时刻序列数据库；Prometheus：一种时刻序列数据库和效劳监测系统；Newts：一种基于Apache Cassandra的时刻序列数据库。Actian SQL for Hadoop：高性能交互式的SQL，可访问所

20、有的Hadoop数据；Apache Drill：由Dremel授意的交互式分析框架；Apache HCatalog：Hadoop的表格和存储治理层；Apache Hive：Hadoop的类SQL数据仓库系统；Apache Optiq：一种框架，可许诺高效的查询翻译，其中包括异构性及联合性数据的查询；Apache Phoenix：Apache Phoenix是HBase的SQL驱动；Cloudera Impala：Concurrent Lingual：Cascading中的类SQL查询语言；Datasalt Splout SQL：用于大数据集的完整的SQL查询工具；Facebook Presto

21、DB：散布式SQL查询工具；Google BigQuery：交互式分析框架，Dremel的实现；Pivotal HAWQ：Hadoop的类SQL的数据仓库系统；RainstorDB：用于存储大规模PB级结构化和半结构化数据的数据库；Spark Catalyst：用于Spark和Shark的查询优化框架；SparkSQL：利用Spark操作结构化数据；Splice Machine：一个全功能的Hadoop上的SQLRDBMS，并带有ACID事务；Stinger：用于Hive的交互式查询；Tajo：Hadoop的散布式数据仓库系统；Trafodion：为企业级的SQL-on-HBase针对大数据的

22、事务或业务工作负载的解决方案。Amazon Kinesis：大规模数据流的实时处置；Apache Chukwa：数据搜集系统；Apache Flume：治理大量日记数据的效劳；Apache Kafka：散布式发布-定阅消息系统；Apache Sqoop：在Hadoop和结构化的数据存储区之间传送数据的工具；Cloudera Morphlines：帮忙Solr、HBase和HDFS完成ETL的框架；Facebook Scribe：流日记数据聚合器；Fluentd：搜集事件和日记的工具；Google Photon：实时连接多个数据流的散布式运算机系统，具有高可扩展性和低延迟性；Heka：开源流处置

23、软件系统；HIHO：用Hadoop连接不同数据源的框架；Kestrel：散布式消息队列系统；LinkedIn Databus：对数据库更改捕捉的事件流；LinkedIn Kamikaze：紧缩已分类整型数组的程序包；LinkedIn White Elephant：日记聚合器和仪表板；Logstash：用于治理事件和日记的工具；Netflix Suro：像基于Chukwa的Storm和Samza一样的日记聚合器；Pinterest Secor：是实现Kafka日记持久性的效劳；Linkedin Gobblin：LinkedIn的通用数据摄取框架；Skizze：是一种数据存储略图，利用概率性数据结

24、构来处置计数、略图等相关的问题；StreamSets Data Collector：持续大数据搜集的基础设施，可简单地利用IDE。Akka Toolkit：JVM中散布性、容错事件驱动应用程序的运行时刻；Apache Avro：数据序列化系统；Apache Curator：Apache ZooKeeper的Java库；Apache Karaf：在任何OSGi框架之上运行的OSGi运行时刻；Apache Thrift：构建二进制协议的框架；Apache Zookeeper：流程治理集中式效劳；Google Chubby：一种松耦合散布式系统锁效劳；Linkedin Norbert：集群治理器；O

25、penMPI：消息传递框架；Serf：效劳发觉和和谐的分散化解决方案；Spotify Luigi：一种构建批处置作业的复杂管道的Python包，它能够处置依托性解析、工作流治理、可视化、故障处置、命令行一体化等等问题；Spring XD：数据摄取、实时分析、批量处置和数据导出的散布式、可扩展系统；Twitter Elephant Bird：LZO紧缩数据的工作库；Twitter Finagle：JVM的异步网络堆栈。Apache Aurora：在Apache Mesos之上运行的效劳调度程序；Apache Falcon：数据治理框架；Apache Oozie：工作流作业调度程序；Chronos：散布式容错调度；Linkedin Azkaban：批处置工作流作业调度；Schedoscope：Hadoop作业敏捷调度的Scala DSL；Sparrow：调度平台；Airflow：一个以编程方式编写、调度和监控工作流的平台。Apache Mahout：Hadoop的机械学习库；brain：JavaScript中的神经网络；Cloudera Oryx：实时大规模机械学习；

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？