大数据云计算系统高级架构师课程学习路线图.docx-资源下载

大数据云计算系统高级架构师课程学习路线图.docx

1、大数据、云计算系统高级架构师课程学习路线图大数据之Linux+大数据开发篇JavaLinux基础Shell编程Hadoop2.xHDFSYARNMapReduceETL数据清洗HiveSqoopFlume/Oozieo大数据WEB工具HueHBaseStormStormScalaSparkSpark核心源码剖析CM 5.3.x管理CDH 5.3.x集群项目部分项目一:北风网用户行为分析项目二:驴妈妈离线电商平台分析平台项目三:基于Spark技术实现的大型离线电商数据分析平台大数据之阿里云企业级认证篇阿里云数据处理和分析报表场景的实现(企业案例)企业自助沙箱实验（10个)阿里云企业认证(ACP1

2、1003模块)大数据之Java企业级核心技术篇Java性能调优Tomcat、Apache集群数据库集群技术分布式技术WebLogic企业级技术大数据之PB级别网站性能优化篇CDN镜像技术虚拟化云计算共享存储海量数据队列缓存Memcached+RedisNo-SqlLVS负载均Nginx项目部分PB级通用电商网站性能优化解决方案大数据之数据挖掘分析&机器学习篇Lucene爬虫技术Solr集群KI分词Apriori算法Tanagra工具决策树贝叶斯分类器人工神经网络K均值算法层次聚类聚类算法SPSS ModelerR语言数据分析模型统计算法回归聚类数据降维关联规则决策树Mahout-Python金

3、融分析项目部分项目一:地震预警分析系统项目二:文本挖掘（Mathout中文分词)项目三:电商购物车功能实现（R语言）项目四:使用Python构建期权分析系统大数据之运维、云计算平台篇ZookeeperDockerOpenStack云计算项目部分项目部分:Maven+Jenkins、日志管理ELK、WordPress博客了解更多详情课程体系北风大数据、云计算系统架构师高级课程阶段一、大数据、云计算 - Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程，帮大家进入大数据领域打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，d

4、ocker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。1）Linux系统概述2）系统安装及相关配置3）Linux网络基础4）OpenSSH实现网络安全连接5）vi文本编辑器6）用户和用户组管理7）磁盘管理8）Linux文件和目录管理9）Linux终端常用命令10）linux系统监测与维护课程二、大数据开发核心技术 - Hadoop 2.x从入门到精通本课程是整套大数据课程的基石：其一，分布式文件系统HDFS用于存储海量数据，无论是Hive、HBase或者Spark数据存储在其上面；其二是分布式资源管理框架YARN，是Hadoop 云操作系统（也称

5、数据系统），管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控；分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用，YARN 集群资源管理与任务监控，MapReduce编程，分布式集群的部署管理（包括高可用性HA）必须要掌握的。一、初识Hadoop 2.x1）大数据应用发展、前景2）Hadoop 2.x概述及生态系统3）Hadoop 2.x环境搭建与测试二、深入Hadoop 2.x1）HDFS文件系统的架构、功能、设计2）HDFS Java API使用3）YARN 架构、集

6、群管理、应用监控4）MapReduce编程模型、Shuffle过程、编程调优三、高级Hadoop 2.x1）分布式部署Hadoop 2.x2）分布式协作服务框架Zookeeper3）HDFS HA架构、配置、测试4）HDFS 2.x中高级特性5）YARN HA架构、配置6）Hadoop 主要发行版本（CDH、HDP、Apache）四、实战应用1）以【北风网用户浏览日志】数据进行实际的分析 2）原数据采集 3）数据的预处理（ETL） 4）数据的分析处理（MapReduce）课程三、大数据开发核心技术 - 大数据仓库Hive精讲hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映

7、射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。一、Hive 初识入门1）Hive功能、体系结构、使用场景2）Hive环境搭建、初级使用3）Hive原数据配置、常见交互方式二、Hive深入使用1）Hive中的内部表、外部表、分区表2）Hive 数据迁移3）Hive常见查询（select、where、distinct、join、group by）4）Hive 内置函数和UDF编程三、Hive高级进阶1）H

8、ive数据的存储和压缩2）Hive常见优化（数据倾斜、压缩等）四、结合【北风网用户浏览日志】实际案例分析1）依据业务设计表2）数据清洗、导入（ETL）3）使用HiveQL，统计常见的网站指标课程四、大数据协作框架 - Sqoop/Flume/Oozieo精讲Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql.)间进行数据的传递，可以将一个关系型数据库（例如： MySQL,Oracle ,Postgres等）中的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快

9、速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。一、数据转换工具Sqoop1）Sqoop功能、使用原则2）将RDBMS数据导入Hive表中（全量、增量）3）将HDFS上文件导出到RDBMS表中二、文件收集框架Flume1）Flume 设计架构、原理（三大组件）2）Flume初步使用，实时采集数据3）如何使用Flume监控文件夹数据，实时采集录入HDFS中 4）任务调度框架Oozie三、Oozie功能、安装部署1）使用Oozie调度MapReduce Job和HiveQL2）定时调度任务使用课程五、大数据Web开发框架 - 大数据WEB 工具Hue精讲Hue

10、是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job等等。1）Hue架构、功能、编译2）Hue集成HDFS3）Hue集成MapReduce4）Hue集成Hive、DataBase5）Hue集成Oozie课程六、大数据核心开发技术 - 分布式数据库HBase从入门到精通HBase是一个分布式的、面向列的开源数据库，该技术

11、来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。HBase在Hadoop之上提供了类似于Bigtable的能力，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群一、HBase初窥使用1）HBase是什么、发展、与RDBMS相比优势、企业使用2）HBase Schema、表的设计3）HBase 环境搭建、shell初步使用（CRUD等）二、HBase 深入使用1）HBase 数据存储模型2）HBase Java API使用（CRUD、SCAN等）3）HBase

12、架构深入剖析4）HBase 与MapReduce集成、数据导入导出三、HBase 高级使用1）如何设计表、表的预分区（依据具体业务分析讲解）2）HBase 表的常见属性设置（结合企业实际）3）HBase Admin操作（Java API、常见命令）四、【北风网用户浏览日志】进行分析1）依据需求设计表、创建表、预分区2）进行业务查询分析3）对于密集型读和密集型写进行HBase参数调优课程七、大数据核心开发技术 - Storm实时数据处理Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比

13、如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是流计算技术中的佼佼者和主流。按照storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语，使我们的批处理程序变得简单和高效。同样，Storm也为实时计算提供了一些简单高效的原语，而且Storm的Trident是基于Storm原语更高级的抽象框架，类似于基于Hadoop的Pig框架，让开发更加便利和高效。本课程会深入、全面的讲解Storm，并穿插企业场景实战

14、讲述Storm的运用。淘宝双11的大屏幕实时监控效果冲击了整个IT界，业界为之惊叹的同时更是引起对该技术的探索。学完本课程你可以自己开发升级版的“淘宝双11”，还等什么？1）Storm简介和课程介绍2）Storm原理和概念详解3）Zookeeper集群搭建及基本使用4）Storm集群搭建及测试5）API简介和入门案例开发6）Spout的Tail特性、storm-starter及maven使用、Grouping策略7）实例讲解Grouping策略及并发8）并发度详解、案例开发（高并发运用）9）案例开发计算网站PV，通过2种方式实现汇总型计算。10）案例优化引入Zookeeper锁控制线程操作

15、11）计算网站UV(去重计算模式)12）【运维】集群统一启动和停止shell脚本开发13）Storm事务工作原理深入讲解 14）Storm事务API及案例分析15）Storm事务案例实战之 ITransactionalSpout16）Storm事务案例升级之按天计算17）Storm分区事务案例实战18）Storm不透明分区事务案例实战19）DRPC精解和案例分析20）Storm Trident 入门21）Trident API和概念22）Storm Trident实战之计算网站PV23）ITridentSpout、FirstN(取Top N)实现、流合并和Join24）Storm Trident之函数、流聚合及核心概念State25）Storm Trident综合实战一（基于HBase的State）26）Storm Trident综合实战二27）Storm Trident综合实战三28）Storm集群和作业监控告警开发课程

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？