大数据云计算系统高级架构师课程学习路线图.docx
《大数据云计算系统高级架构师课程学习路线图.docx》由会员分享,可在线阅读,更多相关《大数据云计算系统高级架构师课程学习路线图.docx(26页珍藏版)》请在冰豆网上搜索。
![大数据云计算系统高级架构师课程学习路线图.docx](https://file1.bdocx.com/fileroot1/2022-10/7/46a73788-4f44-43b4-a0d5-f8b97b0a6042/46a73788-4f44-43b4-a0d5-f8b97b0a60421.gif)
大数据、云计算系统高级架构师课程学习路线图
大数据之Linux+大数据开发篇
Java Linux基础 Shell编程 Hadoop2.x HDFS YARN MapReduce ETL数据清洗Hive Sqoop Flume/Oozieo 大数据WEB工具Hue HBase Storm Storm ScalaSpark Spark核心源码剖析 CM5.3.x管理 CDH5.3.x集群
项目部分
项目一:
北风网用户行为分析 项目二:
驴妈妈离线电商平台分析平台 项目三:
基于Spark技术实现的大型离线电商数据分析平台
大数据之阿里云企业级认证篇
阿里云数据处理和分析 报表场景的实现(企业案例) 企业自助沙箱实验(10个) 阿里云企业认证(ACP11003模块)
大数据之Java企业级核心技术篇
Java性能调优 Tomcat、Apache集群 数据库集群技术 分布式技术 WebLogic企业级技术
大数据之PB级别网站性能优化篇
CDN镜像技术 虚拟化云计算 共享存储 海量数据 队列缓存 Memcached+Redis\No-SqlLVS负载均 Nginx
项目部分
PB级通用电商网站性能优化解决方案
大数据之数据挖掘\分析&机器学习篇
Lucene 爬虫技术 Solr集群 KI分词 Apriori算法 Tanagra工具 决策树 贝叶斯分类器人工神经网络 K均值算法 层次聚类 聚类算法 SPSSModeler R语言 数据分析模型统计算法 回归 聚类 数据降维 关联规则 决策树 Mahout->Python金融分析
项目部分
项目一:
地震预警分析系统 项目二:
文本挖掘(Mathout\中文分词) 项目三:
电商购物车功能实现(R语言)项目四:
使用Python构建期权分析系统
大数据之运维、云计算平台篇
Zookeeper Docker OpenStack云计算
项目部分
项目部分:
Maven+Jenkins、日志管理ELK、WordPress博客
了解更多详情
课程体系
北风大数据、云计算系统架构师高级课程
阶段一、大数据、云计算-Hadoop大数据开发技术
课程一、大数据运维之Linux基础
本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。
因为企业
中的项目基本上都是使用Linux环境下搭建或部署的。
1)Linux系统概述
2)系统安装及相关配置
3)Linux网络基础
4)OpenSSH实现网络安全连接
5)vi文本编辑器
6)用户和用户组管理
7)磁盘管理
8)Linux文件和目录管理
9)Linux终端常用命令
10)linux系统监测与维护
课程二、大数据开发核心技术-Hadoop2.x从入门到精通
本课程是整套大数据课程的基石:
其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark数据存储在其上面;其二是分布式资源管理框架
YARN,是Hadoop云操作系统(也称数据系统),管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控;分布式并行计算框架
MapReduce目前是海量数据并行处理的一个最常用的框架。
Hadoop2.x的编译、环境搭建、HDFSShell使用,YARN集群资源管理与任务监控,MapReduce编
程,分布式集群的部署管理(包括高可用性HA)必须要掌握的。
一、初识Hadoop2.x
1)大数据应用发展、前景
2)Hadoop2.x概述及生态系统
3)Hadoop2.x环境搭建与测试
二、深入Hadoop2.x
1)HDFS文件系统的架构、功能、设计
2)HDFSJavaAPI使用
3)YARN架构、集群管理、应用监控
4)MapReduce编程模型、Shuffle过程、编程调优
三、高级Hadoop2.x
1)分布式部署Hadoop2.x
2)分布式协作服务框架Zookeeper
3)HDFSHA架构、配置、测试
4)HDFS2.x中高级特性
5)YARNHA架构、配置
6)Hadoop主要发行版本(CDH、HDP、Apache)
四、实战应用
1)以【北风网用户浏览日志】数据进行实际的分析2)原数据采集3)数据的预处理(ETL)4)数据的分析处理(MapReduce)
课程三、大数据开发核心技术-大数据仓库Hive精讲
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行
运行。
其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
一、Hive初识入门
1)Hive功能、体系结构、使用场景
2)Hive环境搭建、初级使用
3)Hive原数据配置、常见交互方式
二、Hive深入使用
1)Hive中的内部表、外部表、分区表
2)Hive数据迁移
3)Hive常见查询(select、where、distinct、join、groupby)
4)Hive内置函数和UDF编程
三、Hive高级进阶
1)Hive数据的存储和压缩
2)Hive常见优化(数据倾斜、压缩等)
四、结合【北风网用户浏览日志】实际案例分析
1)依据业务设计表
2)数据清洗、导入(ETL)
3)使用HiveQL,统计常见的网站指标
课程四、大数据协作框架-Sqoop/Flume/Oozieo精讲
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:
MySQL
Oracle,Postgres等)中的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部
署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
一、数据转换工具Sqoop
1)Sqoop功能、使用原则
2)将RDBMS数据导入Hive表中(全量、增量)
3)将HDFS上文件导出到RDBMS表中
二、文件收集框架Flume
1)Flume设计架构、原理(三大组件)
2)Flume初步使用,实时采集数据
3)如何使用Flume监控文件夹数据,实时采集录入HDFS中4)任务调度框架Oozie
三、Oozie功能、安装部署
1)使用Oozie调度MapReduceJob和HiveQL
2)定时调度任务使用
课程五、大数据Web开发框架-大数据WEB工具Hue精讲
Hue是一个开源的ApacheHadoopUI系统,最早是由ClouderaDesktop演化而来,由Cloudera贡献给开源社区,它是基于PythonWeb框架Django实现的。
通
过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduceJob等等。
1)Hue架构、功能、编译
2)Hue集成HDFS
3)Hue集成MapReduce
4)Hue集成Hive、DataBase
5)Hue集成Oozie
课程六、大数据核心开发技术-分布式数据库HBase从入门到精通
HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:
一个结构化数据的分布式存储系统”。
HBase在
Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大
规模结构化存储集群
一、HBase初窥使用
1)HBase是什么、发展、与RDBMS相比优势、企业使用
2)HBaseSchema、表的设计
3)HBase环境搭建、shell初步使用(CRUD等)
二、HBase深入使用
1)HBase数据存储模型
2)HBaseJavaAPI使用(CRUD、SCAN等)
3)HBase架构深入剖析
4)HBase与MapReduce集成、数据导入导出
三、HBase高级使用
1)如何设计表、表的预分区(依据具体业务分析讲解)
2)HBase表的常见属性设置(结合企业实际)
3)HBaseAdmin操作(JavaAPI、常见命令)
四、【北风网用户浏览日志】进行分析
1)依据需求设计表、创建表、预分区
2)进行业务查询分析
3)对于密集型读和密集型写进行HBase参数调优
课程七、大数据核心开发技术-Storm实时数据处理
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。
随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、
推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是
流计算技术中的佼佼者和主流。
按照storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。
Hadoop提供了map、reduce原语,使我
们的批处理程序变得简单和高效。
同样,Storm也为实时计算提供了一些简单高效的原语,而且Storm的Trident是基于Storm原语更高级的抽象框架,类似于基于
Hadoop的Pig框架,让开发更加便利和高效。
本课程会深入、全面的讲解Storm,并穿插企业场景实战讲述Storm的运用。
淘宝双11的大屏幕实时监控效果冲击
了整个IT界,业界为之惊叹的同时更是引起对该技术的探索。
学完本课程你可以自己开发升级版的“淘宝双11”,还等什么?
1)Storm简介和课程介绍
2)Storm原理和概念详解
3)Zookeeper集群搭建及基本使用
4)Storm集群搭建及测试
5)API简介和入门案例开发
6)Spout的Tail特性、storm-starter及maven使用、Grouping策略
7)实例讲解Grouping策略及并发
8)并发度详解、案例开发(高并发运用)
9)案例开发——计算网站PV,通过2种方式实现汇总型计算。
10)案例优化引入Zookeeper锁控制线程操作
11)计算网站UV(去重计算模式)
12)【运维】集群统一启动和停止shell脚本开发
13)Storm事务工作原理深入讲解14)Storm事务API及案例分析
15)Storm事务案例实战之ITransactionalSpout
16)Storm事务案例升级之按天计算
17)Storm分区事务案例实战
18)Storm不透明分区事务案例实战
19)DRPC精解和案例分析
20)StormTrident入门
21)TridentAPI和概念
22)StormTrident实战之计算网站PV
23)ITridentSpout、FirstN(取TopN)实现、流合并和Join
24)StormTrident之函数、流聚合及核心概念State
25)StormTrident综合实战一(基于HBase的State)
26)StormTrident综合实战二
27)StormTrident综合实战三
28)Storm集群和作业监控告警开发
课程