曙海教育集团
全国报名免费热线:4008699035 微信:shuhaipeixun
或15921673576(微信同号) QQ:1299983702
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
Spark企业级大数据项目实战课程

 
  班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
      每个班级的人数限3到5人,互动授课, 保障效果,小班授课。
  上间和地点
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山学院/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦
最近开间(周末班/连续班/晚班):即将开课,详情请咨询客服!
  实验设备
    ◆小班教学,教学效果好
       
       ☆注重质量☆边讲边练

       ☆合格学员免费推荐工作
       ★实验设备请点击这儿查看★
  质量保障

       1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
       2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
       3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,曙海学员的能力得到大家的认同,受到用人单位的广泛赞誉,曙海的证书受到广泛认可。

部份程大纲
 

第一部份: 生产项目的演进和改造思路
1. 三大生产项目(离线日志分析、企业预警实时监控、安全日志上报之Spark Streaming+Kafka保证数据零丢失)业务介绍
2. 离线分析和实时分析的场景介绍
3. 改造思路
4. Hadoop、Spark、Hbase、Kafka、ElasticSearch等项目软件选型

第二部份: 手把手从零搭建开发环境
1. Hadoop、Spark、Hbase、Kafka、ElasticSearch软件安装
2. IDEA安装
3. Maven工程构建
4. IDEA调试Spark项目
5. Spark源码编译
6. Spark作业提交方式

第三部份:安全日志上报之Spark Streaming+Kafka保证数据零丢失(一)
1. Spark Streaming 整合Kafka的几种方式对比
2. 彻底搞懂Kafka 消息检索原理
3. 使用Spark Streaming进行Kafka 的Offset管理(Checkpoints、Hbase、Zookeeper、Kafka)
4. Spark Streaming保存offset到zookeeper乱码处理

第四部份:安全日志上报之Spark Streaming+Kafka保证数据零丢失(二)
1. 实时作业的at most once、at least once、exactly once语义
2. 方案选型和对比(四种方案)
3. Spark Streming + Kafka 如何获取每条消息的offset、partition以及每批次的from offset、end offset、count。
4. Spark Streming + Kafka(消费) + Kafka(清洗后入)方案和代码实操

第五部份: 安全日志上报之Spark Streaming+Kafka保证数据零丢失(三)
1. SQL on Hbase 实现的几种方式
2. Spark Streming + Kafka(消费) + Hbase(清洗后入)实现exactly once语义方案
3. 代码实操
4. SQL on Hbase 性能优化

第六部份: 安全日志上报之Spark Streaming+Kafka保证数据零丢失(四)
1. Spark 整合Elasticsearch要点和案例实操
2. Spark Streming + Kafka(消费) + Elasticsearch实现exactly once语义方案
3. Spark Streming + Kafka(消费) +Oracle实现exactly once语义方案
4. 代码实操
5 Spark 整合Elasticsearch性能优化

第七部份: 离线日志分析项目(一)
1. 第一版问题分析
2. ETL流程分析
3. Flume+Nginx整合, 数据采集,日志分割
4. Flume如何实现负载均衡和高可用
5. 日志收集系统架构(可用性、可靠性、可扩展性)

第八部份: 离线日志分析项目(二)
1. 文件存储格式对比
2. Spark 整合 Hive
3. 第二版项目方案的演进和代码实操
4. 解决小文件问题
5. 数据质量监控

第九部份: 离线日志分析项目(三)
1. 理解Spark的Stage划分,如何定位导致数据倾斜代码,数据倾斜的场景和需要注意的地方
2. 广播变量使用的坑
3. Spark整合Oracle的表需要注意的地方
4. Spark作业调度异常问题案例汇总

第十部份: 企业预警实时监控
1. 第一版: 使用Spark Streaming清洗数据(Hive动态分区等) + 代码实操
2. 第一版存在的问题分析
3. 第二版项目方案的演进和代码实操
4. 中文乱码问题解决

第十一部份: 通用解决方案
1. Hbase 二级索引
2. Hbase + ElasticSearch整合, 实现海量数据查询
3. 不通场景下, Spark 写数据到Oracle的方案(集群和Oracle服务器网络是否连通等. )
4. Driver内存调优

 

-

 

  备案号:沪ICP备08026168号 .(2014年7月11)...................
友情链接:Cadence培训 ICEPAK培训 EMC培训 电磁兼容培训 sas容培训 罗克韦尔PLC培训 欧姆龙PLC培训 PLC培训 三菱PLC培训 西门子PLC培训 dcs培训 横河dcs培训 艾默生培训 robot CAD培训 eplan培训 dcs培训 电路板设计培训 浙大dcs培训 PCB设计培训 adams培训 fluent培训系列课程 培训机构课程短期培训系列课程培训机构 长期课程列表实践课程高级课程学校培训机构周末班培训 南京 NS3培训 OpenGL培训 FPGA培训 PCIE培训 MTK培训 Cortex训 Arduino培训 单片机培训 EMC培训 信号完整性培训 电源设计培训 电机控制培训 LabVIEW培训 OPENCV培训 集成电路培训 UVM验证培训 VxWorks培训 CST培训 PLC培训 Python培训 ANSYS培训 VB语言培训 HFSS培训 SAS培训 Ansys培训 短期培训系列课程培训机构 长期课程列表实践课程高级课程学校培训机构周末班 曙海 教育 企业 学院 培训课程 系列班 长期课程列表实践课程高级课程学校培训机构周末班 短期培训系列课程培训机构 曙海教育企业学院培训课程 系列班