快3在线

  • <tr id='TeiPbQ'><strong id='TeiPbQ'></strong><small id='TeiPbQ'></small><button id='TeiPbQ'></button><li id='TeiPbQ'><noscript id='TeiPbQ'><big id='TeiPbQ'></big><dt id='TeiPbQ'></dt></noscript></li></tr><ol id='TeiPbQ'><option id='TeiPbQ'><table id='TeiPbQ'><blockquote id='TeiPbQ'><tbody id='TeiPbQ'></tbody></blockquote></table></option></ol><u id='TeiPbQ'></u><kbd id='TeiPbQ'><kbd id='TeiPbQ'></kbd></kbd>

    <code id='TeiPbQ'><strong id='TeiPbQ'></strong></code>

    <fieldset id='TeiPbQ'></fieldset>
          <span id='TeiPbQ'></span>

              <ins id='TeiPbQ'></ins>
              <acronym id='TeiPbQ'><em id='TeiPbQ'></em><td id='TeiPbQ'><div id='TeiPbQ'></div></td></acronym><address id='TeiPbQ'><big id='TeiPbQ'><big id='TeiPbQ'></big><legend id='TeiPbQ'></legend></big></address>

              <i id='TeiPbQ'><div id='TeiPbQ'><ins id='TeiPbQ'></ins></div></i>
              <i id='TeiPbQ'></i>
            1. <dl id='TeiPbQ'></dl>
              1. <blockquote id='TeiPbQ'><q id='TeiPbQ'><noscript id='TeiPbQ'></noscript><dt id='TeiPbQ'></dt></q></blockquote><noframes id='TeiPbQ'><i id='TeiPbQ'></i>

                课程

                课程介绍

                现今是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark Hadoo系统基础知识,概念及架构,Spark Hadoo实战技巧,Spark、Hadoo经典案例等。

                培训对象

                各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员;
                学员应具备:了解Linux系统及相关语言环境;

                课程收益

                帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;
                理解Spark、Hadoo系统适用的场景;
                掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadook集群,满足生产环境的标准;

                知识概要

                1、大数据整体体解决方案架构介绍  2、Cloudera CDH安装及集群『介绍  3、Kafka的使用场景  4、HDFS HIVE IMPALA组件  5、HIVE、IMPALA区别:特性不同点,架构不同特点  6、Zookeeper组件  7、Azkaban、Yarn 调度资源协调  8、yarn架构组件(Resourcemanager、NodeManager、ApplicationMaster)  9、yarn作业调度流程  10、大数据安全管理  11、Hadoop安全机制Kerberos。

                课程大纲

                模块

                学习内容

                第一天AM

                大数据整体体解决方案、架构介绍、流处理、批处理

                硬件选型,操作系统选型

                开源软件,Hadoop生态软件

                大数据组件(开发语言介绍)

                Cloudera CDH安装及集群介绍

                Cloudera CDH 安装

                Hadoop集群介绍,Hadoop集群使用

                HDFS分布式文件系统介绍

                Kafka的使用场景

                Kakfa的设计思想,Kafka文件存储机制

                持久化\负载均衡\Topic模型

                消息传输一致性\分布式

                Leader的选择\集群分区

                生产者消费者配置

                案例:Kafka从flume获取消息,实现传输

                flume+sqoop介绍及开发实例

                flume实现数据采集流程

                flume agent配置,flume sink配置,flume 数据过滤

                案例(1): 使用flume动态采集日志

                Sqoop功能及软件结构

                从关系型数据库导入数据到HDFS,从HDFS导入数据到关系型数据库

                第一天PM

                案例: 从HDFS导入数据到MySQL数据库

                案例: 从MySQL数据库导入数据到HDFS

                Hadoop集群搭建、Spark集群部署及测试

                Spark交互〗式命令行

                如何使用Spark交互式命令行、理解Spark任务提交流程、执行流程

                如何通过WebUI查看任何执行状态

                spark streaming运行原理spark 生态及运行原理

                集群模式

                Spark工作机制

                RDD弹性分布式数据集@ ,介绍RDD实现原理

                理解什么是Action和Transformation,理解窄依赖与宽依赖

                Spark核心概念之RDD

                RDD函数

                Spark核心概念之Shuffle

                Spark Job执行原理分析、shuffle操作解析

                Spark核心概念之Cache

                Spark广播变量与累加器、Cache与checkpoint问题

                Spark多语言编程

                第二天AM

                Spark SQL组件、架构

                DataFrame、SparkSQL运行原理

                Spark SQL基础应用

                Spark Streaming运行原理、DStream

                DStream 常用函数

                Machine Learning On Spark简介、常用数据结构

                Spark 资源调优

                案例:spark streaming数据处理

                HDFS HIVE IMPALA组件

                DHFS分布式存储特性

                DHFS访问方式

                HDFS优化方案

                HIVE IMPALA查询

                共同点:如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等

                HIVE、IMPALA区别:特性不同点,架构不同特点

                第二天PM

                Zookeeper组件

                Zookeeper应用

                Zookeeper注册中心管理

                Zookeeper配置与协调

                实验:HDFS存取数据、HIVE、IMPALA实现数据分析和报表

                Azkaban、Yarn 调度资源协调

                Azkaban的适用场景

                Azkaban特点

                Azkaban的架构

                配置文件

                启动executor服务器

                启动web服务器

                案例:多job工作流案例

                yarn架构组件(Resourcemanager\NodeManager\ApplicationMaster)

                yarn作业调度流程

                综合案例

                Flume实现日志采集+kafka(消息队列、缓存)+spark streaming(数据处理)+数据库/DHFS

                sqoop 导入关系型数据库,实现hive impala查询

                大数据安全管理

                Apache Sentry

                Hadoop安全机制Kerberos

                认证过程

                无认证考试

                开班信息

                暂无开班信息