大数据课程体系.docx

资源描述

大数据课程体系.docx

《大数据课程体系.docx》由会员分享，可在线阅读，更多相关《大数据课程体系.docx（5页珍藏版）》请在冰豆网上搜索。

大数据课程体系.docx

Java基础

JAVA开发基础知识

Eclipse开发环境

多线程技术

Socket网络技术

RegularExpression

Java反射技术

各种实战设计模式

面向对象设计原则详解

Javacollection

Reflection

JVM原理与配置、调优

Java设计模式

Linux大纲

Linux的介绍与安装

VMwareWorkstation虚拟软件安装ubuntu安装

Linux的常用命令

Linux系统进程管理常用命令ps、pkill、top、htop等的使用；

Linux启动流程，运行级别详解，chkconfig详解

nano编辑器

Linux权限管理：

用户、组

Linux权限管理：

文件权限rwx

Linux网络管理：

hosts,hostname,ifconfig

安装JDK

Hadoop

Hadoop介绍，发展史，国内外现状，未来

Hadoop核心组成介绍及hdfs、mapreduce体系结构

Hadoop的集群结构

Hadoop独立模式安装与测试

Hadoop启动与停止

SSH安装与配置

Hadoop伪分布式和完全分布式安装配置

HDFS底层工作原理

HDFSdatanode,namenode详解

Hdfsshell

Hdfsjavaapi

InputSplit和OutputSplit

BlockSize配置

最少副本数配置

MR作业流程分析

编写Mapper程序

编写Reducer程序

执行Mapreduce过程

Hadoop核心类讲解,RM,NM,NN,DN

YARN调度框架事件分发机制

Hadoop底层IPC原理和RPC

Hadoop的底层googleProtoBuf的协议分析

分布式数据库

Hbase

HBase简介与RDBMS的对比

系统架构

HBase上的MapReduce

Hbase核心术语介绍

Hbase基本操作

HBaseShell以及演示

Hbase树形表设计

Hbase一对多和多对多表设计

Hbase调优（读、写、设计）

数据仓库Hive

Hive简介

Hive集群

客户端简介

HiveQL介绍与SQL的比较

数据类型

外部表和分区表

ddl与CLI客户端演示

dml与CLI客户端演示

select与CLI客户端演示

Operators和functions与CLI客户端演示

Hiveserver2与jdbc

用户自定义函数（UDF和UDAF）的开发与演示

Hive优化

数据迁移工具Sqoop

Sqoop简介和配置

Sqoopshell常见命令

Sqoop导入与导出

Flume分布式

日志框架

flume简介-基础知识

flume安装与测试

flume部署方式

flumesource相关配置及测试

flumesink相关配置及测试

flumeselector相关配置与案例分析

flumeSinkProcessors相关配置和案例分析

flumeInterceptors相关配置和案例分析

flumeAVROClient开发

flume和kafka的整合

Zookeeper

开发

Zookeeperjavaapi开发

Zookeeperrmi高可用分布式集群开发

Zookeeperredis高可用监控实现

Netty异步io通信框架

Zookeeper实现netty分布式架构的高可用

kafka

kafka是什么

kafka体系结构

kafka配置详解

kafka的安装

kafka的存储策略

kafka分区特点

kafka的发布与订阅

zookeeper协调管理

java编程操作kafka

scala编程操作kafka

flume和kafka的整合

Kafka和storm的整合

Storm

Storm的基本概念

Storm的应用场景

Storm和Hadoop的对比

Storm集群的安装的linux环境准备

zookeeper集群搭建

Storm集群搭建

Storm配置文件配置项讲解

集群搭建常见问题解决

Storm常用组件和编程API：

Topology、Spout、Bolt

Storm分组策略（streamgroupings）

使用Strom开发一个WordCount例子

Storm程序本地模式debug、Storm程序远程debug

Storm事物处理

Storm消息可靠性及容错原理

Storm结合消息队列Kafka：

消息队列基本概念（Producer、Consumer、Topic、Broker等）、消息队列Kafka使用场景、Storm结合Kafka编程API

StormTrident概念

Tridentstate原理

Trident开发实例

StormDRPC（分布式远程调用）介绍

StormDRPC实战讲解

Storm和Hadoop2.x的整合：

StormonYarn

Storm开发实战：

Kafka+Storm+Hbase+redis项目实战，以及多个案例

Scala

scala解释器、变量、常用数据类型等

scala的条件表达式、输入输出、循环等控制结构

scala的函数、默认参数、变长参数等

scala的数组、变长数组、多维数组等

scala的映射、元组等操作

scala的类，包括bean属性、辅助构造器、主构造器等

scala的对象、单例对象、伴生对象、扩展类、apply方法等

scala的包、引入、继承等概念

scala的特质

scala的操作符

scala的高阶函数

scala的集合

scala数据库连接

Spark

大数据处理

Spark简介与应用场景

RDD

Transformation

Action

Spark计算PageRank

Lineage

Spark模型简介

Spark缓存策略和容错处理

宽依赖与窄依赖

Spark配置讲解

Spark集群搭建

集群搭建常见问题解决

Spark原理核心组件和常用RDD

数据本地性

任务调度

DAGScheduler

TaskScheduler

Spark源码解读

性能调优

Spark和Hadoop2.x整合：

SparkonYarn原理

SparkStreaming

实时计算

SparkStreaming：

数据源和DStream

无状态transformation与有状态transformation

StreamingWindow的操作

sparksql编程实战

spark的多语言操作

SparkMLlib

机器学习

介绍

回归算法

分类算法

第四章推荐系统

第五章聚类

Kmeans

Docker

基本介绍

vmdocker对比

docker基本架构介绍

unfscgroupnamespace

进程虚拟化轻量级虚拟化

docker安装

docker镜像制作

docker常用命令

docker镜像迁移

dockerpipework

1dockerweave

虚拟化KVM

虚拟化介绍，虚拟化适用场景等等

QemuLibvirt&KVM

安装KVM,Qemu,Libvirt

QEMU-KVM:

安装第一个能上网的虚拟机

Kvm虚拟机nat,网桥基本原理

kvm虚拟机克隆

kvm虚拟机vnc配置

kvm虚拟机扩展磁盘空间

Kvm快照

Kvm迁移

Java,python,c语言编程控制kvm

云平台OpenStack

openstack介绍和模块基本原理分析

openstack多节点安装部署【a.采用centos6.x系统】

Keystone基本原理

glance

Cinder

Swift

Neutron

Openstackapi二次开发

综合项目演练1

结合基于SSH技术的jee项目—互联网大数据调查系统，可针对当下流行的事件进行网络调查，然后从海量的调查调查问卷中通过大数据手段对其进行分析和汇总，最终对大众的消费习惯、文化倾向、未知领域的认知以及新事物趋势做数据上的可靠性分析，掌握大众的心理导向，有效指定企业的战略规划和部署。

综合项目演练2

结合国内某知名网站账户的泄露信息，运用大数据技术对所有账户的密码部分进行分析，从而判断国人在密码设置上的缺陷和漏洞，进而计算我们自己所设密码被成功破解的概率，最终通过改变个人的密码设置习惯有效保护个人的账户和财产安全。

展开阅读全文