曙海教育集团
全国报名免费热线:4008699035 微信:shuhaipeixun
或15921673576(微信同号) QQ:1299983702
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
大数据 Spark SQL培训

 
  班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
      每个班级的人数限3到5人,互动授课, 保障效果,小班授课。
  上间和地点
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山学院/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦
最近开间(周末班/连续班/晚班):2019年1月26日
  实验设备
    ◆小班教学,教学效果好
       
       ☆注重质量☆边讲边练

       ☆合格学员免费推荐工作
       ★实验设备请点击这儿查看★
  质量保障

       1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
       2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
       3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,曙海学员的能力得到大家的认同,受到用人单位的广泛赞誉,曙海的证书受到广泛认可。

部份程大纲
 
  • 第1章 初探大数据
    本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识
  • 1-1 导学
    1-2 -如何学好大数据
    1-3 -开发环境介绍
    1-4 -OOTB镜像文件使用介绍
    1-5 -大数据概述
    1-6 -Hadoop概述
    1-7 -HDFS概述及设计目标
    1-8 -HDFS架构
    1-9 -HDFS副本机制
    1-10 -Hadoop下载及JDK安装
    1-11 -机器参数设置
    1-12 -HDFS核心配置文件内容配置
    1-13 -HDFS格式化及启停
    1-14 -HDFS shell常用操作
    1-15 -HDFS优缺点
    1-16 -MapReduce概述
    1-17 -MapReduce编程模型及WordCount案例
    1-18 -YARN产生背景
    1-19 -YARN架构和执行流程
    1-20 -YARN环境搭建及提交作业到YARN上运行
    1-21 -Hive产生背景及Hive是什么
    1-22 -为什么要使用Hive及Hive发展历程
    1-23 -Hive体系架构及部署架构
    1-24 -Hive环境搭建
    1-25 -Hive基本使用
    第2章 Spark及其生态圈概述
    Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 ...
  • 2-1 -课程目录
    2-2 -Spark概述及特点
    2-3 -Spark产生背景
    2-4 -Spark发展历史
    2-5 -Spark Survey
    2-6 -Spark对比Hadoop
    2-7 -Spark和Hadoop的协作性
    第3章 实战环境搭建
    工欲善其事必先利其器,本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行
  • 3-1 -课程目录
    3-2 -Spark源码编译
    3-3 补录:Spark源码编译中的坑
    3-4 Spark Local模式环境搭建
    3-5 Spark Standalone模式环境搭建
    3-6 Spark简单使用
    第4章 Spark SQL概述
    Spark SQL面世已来,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构,这几个角度进行展开讲解...
  • 4-1 课程目录
    4-2 -Spark SQL前世今生
    4-3 -SQL on Hadoop常用框架介绍
    4-4 -Spark SQL概述
    4-5 -Spark SQL愿景
    4-6 -Spark SQL架构
    第5章 从Hive平滑过渡到Spark SQL
    Hive是SQL-on-Hadoop的解决方案和默认的标准,如何将数据处理从Hive过渡到Spark SQL上来是我们必须要掌握的。本章我们将讲解在Spark中操作Hive中的数据几种方式
  • 5-1 -课程目录
    5-2 -A SQLContext的使用
    5-3 -B HiveContext的使用
    5-4 -C SparkSession的使用
    5-5 spark-shell&spark-sql的使用
    5-6 -thriftserver&beeline的使用
    5-7 -jdbc方式编程访问
    第6章 DateFrame&Dataset
    DataFrame&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用DataFrame或Dataset来进行数据的交互操作。本章将从DataFrame的产生背景、DataFrame对比RDD、DataFrame API操作等方面对DataFrame做详细的编程开发讲解
  • 6-1 -课程目录
    6-2 -DataFrame产生背景
    6-3 -DataFrame概述
    6-4 -DataFrame和RDD的对比
    6-5 -DataFrame基本API操作
    6-6 -DataFrame与RDD互操作方式一
    6-7 -DataFrame与RDD互操作方式二
    6-8 -DataFrame API操作案例实战
    6-9 -Dataset概述及使用
    第7章 External Data Source
    Spark SQL中的核心功能,可以使用外部数据源非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用外部数据源来操作Hive、Parquet、MySQL中的数据以及综合使用
  • 7-1 -课程目录
    7-2 -产生背景
    7-3 -概述
    7-4 -目标
    7-5 -操作Parquet文件数据
    7-6 -操作Hive表数据
    7-7 -操作MySQL表数据
    7-8 -Hive和MySQL综合使用
    第8章 SparkSQL愿景
    本章将讲解Spark的愿景:写更少的代码、读更少的数据、让优化器自动优化程序
  • 8-1 -A SparkSQL愿景之一写更少的代码(代码量和可读性)
    8-2 -B SparkSQL愿景之一写更少的代码(统一访问操作接口)
    8-3 -C SparkSQL愿景之一写更少的代码(强有力的API支持)
    8-4 -D SparkSQL愿景之一些更少的代码(Schema推导)
    8-5 -E SparkSQL愿景之一写更少的代码(Schema Merge)
    8-6 -F SparkSQL愿景之一写更少的代码(Partition Discovery)
    8-7 -G SparkSQL愿景之一写更少的代码(执行速度更快)
    8-8 -SparkSQL愿景之二读取更少的数据
    8-9 -SparkSQL愿景之三让查询优化器帮助我们优化执行效率
    8-10 -SparkSQL愿景总结
    第9章 慕课网日志实战
    本章使用Spark SQL对慕课网主站的访问日志进行各个维度的统计分析操作,涉及到的过程有:数据清洗、数据统计、统计结果入库、数据的可视化、调优及Spark on YARN。通过本实战项目将Spark SQL中的知识点融会贯通,达到举一反三的效果 ...
  • 9-1 -课程目录
    9-2 -用户行为日志概述
    9-3 -离线数据处理架构
    9-4 -项目需求
    9-5 imooc网主站日志内容构成
    9-6 数据清洗之第一步原始日志解析
    9-7 -数据清洗之二次清洗概述
    9-8 -数据清洗之日志解析
    9-9 -数据清洗之ip地址解析
    9-10 -数据清洗存储到目标地址
    9-11 -需求一统计功能实现
    9-12 -Scala操作MySQL工具类开发
    9-13 -需求一统计结果写入到MySQL
    9-14 -需求二统计功能实现
    9-15 -需求二统计结果写入到MySQL
    9-16 -需求三统计功能实现
    9-17 -需求三统计结果写入到MySQL
    9-18 -代码重构之删除指定日期已有的数据
    9-19 -功能实现之数据可视化展示概述
    9-20 -ECharts饼图静态数据展示
    9-21 -ECharts饼图动态展示之一查询MySQL中的数据
    9-22 -ECharts饼图动态展示之二前端开发
    9-23 -使用Zeppelin进行统计结果的展示
    9-24 -Spark on YARN基础
    9-25 -数据清洗作业运行到YARN上
    9-26 -统计作业运行在YARN上
    9-27 -性能优化之存储格式的选择
    9-28 -性能调优之压缩格式的选择
    9-29 -性能优化之代码优化
    9-30 -性能调优之参数优化
    第10章 Spark SQL扩展和总结
    本章将列举Spark SQL在工作中经常用到的方方方面的总结
  • 10-1 -课程目录
    10-2 -Spark SQL使用场景
    10-3 -Spark SQL加载数据
    10-4 -DataFrame与SQL的对比
    10-5 -Schema
    10-6 -SaveMode
    10-7 -处理复杂的JSON数据
    10-8 -SQL的覆盖程度
    10-9 -外部数据源
 

-

 

  备案号:沪ICP备08026168号 .(2014年7月11)..............