课程目标:
1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
培训时间:5天(周末)
招生对象:本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士。
一、Hadoop入门,了解什么是hadoop | 1、 Hadoop产生背景 2、 Hadoop在大数据、云计算中的位置和关系 3、 国内外Hadoop应用案例介绍 4、 国内Hadoop的就业情况分析及课程大纲介绍 5、 分布式系统概述 6、 Hadoop生态圈以及各组成部分的简介 7、 Hadoop核心MapReduce例子说明 |
二、分布式文件系统HDFS,是数据库管理员的基础课程 | 1、 分布式文件系统DFS简介 2、 HDFS的系统组成介绍 3、 HDFS的组成部分详解 4、 副本存放策略及路由规则 5、 NameNode Federation 6、 命令行接口 7、 Java接口 8、 客户端与HDFS的数据流讲解 9、 HDFS的可用性(HA) |
三、初级MapReduce,成为Hadoop开发人员的基础课程 | 1、 如何理解map、reduce计算模型 2、 剖析伪分布式下MapReduce作业的执行过程 3、 Yarn模型 4、 序列化 5、 MapReduce的类型与格式 6、 MapReduce开发环境搭建 7、 MapReduce应用开发 8、 更多示例讲解,熟悉MapReduce算法原理 |
四、高级MapReduce,高级Hadoop开发人员的关键课程 | 1、 使用压缩分隔减少输入规模 2、 利用Combiner减少中间数据 3、 编写Partitioner优化负载均衡 4、 如何自定义排序规则 5、 如何自定义分组规则 6、 MapReduce优化 7、 编程实战 |
五、Hadoop集群与管理,是数据库管理员的高级课程 | 1、 Hadoop集群的搭建 2、 Hadoop集群的监控 3、 Hadoop集群的管理 4、集群下运行MapReduce程序 |
六、ZooKeeper基础知识,构建分布式系统的基础框架 | 1、ZooKeeper体现结构 2、ZooKeeper集群的安装 3、操作ZooKeeper |
七、HBase基础知识,面向列的实时分布式数据库 | 1、 HBase定义 2、 HBase与RDBMS的对比 3、 数据模型 4、 系统架构 5、HBase上的MapReduce 6、表的设计 |
八、HBase集群及其管理 | 1、集群的搭建过程讲解 2、集群的监控 3、集群的管理 |
九、HBase客户端 | 1、 HBase Shell以及演示 2、Java客户端以及代码演示 |
十、Pig基础知识,进行hadoop计算的另一种框架 | 1、 Pig概述 2、 安装Pig 3、 使用Pig完成手机流量统计业务 |
十一、Hive,使用sql进行计算的hadoop框架 | 1、 数据仓库基础知识 2、 Hive定义 3、 Hive体系结构简介 4、 Hive集群 5、 客户端简介 6、 HiveQL定义 7、 HiveQL与SQL的比较 8、 数据类型 9、表与表分区概念 10、表的操作与CLI客户端演示 11、数据导入与CLI客户端演示 12、查询数据与CLI客户端演示 |