专注大数据培训
我们一直在领跑

零基础大数就业实训营

基础编程阶段

模块名称 内容提要
Java编程基础Java基本语法;
数据类型、方法;
面向对象编程基础;
面向对象高级特性加强;
Java集合数据结构详解;
IO、多线程并发编程详解;
Socket网络编程;
Java8新特性等;
数据库与SQL语言MySQL数据库;
SQL语法体系;
JDBC编程;
存储过程和SQL查询增强等;
Java综合案例实战地理位置快速查找;
网站流量统计分析;
车牌号图像识别等大量数据分析综合实战案例;
数据结构与算法加强常用数据结构;
递归算法;
查找算法;
排序算法;
二叉树等;
动态规划;
JavaWeb与数据可视化Web基础;
MyBatis持久化框架;
SpringMVC表现层框架;
Spring中间层框架;
SpringBoot新一代整合框架;
Echarts图表前端框架等;
Linux操作系统与ShellLinux系统简介;
Linux系统服务器集群安装部署;Linux文件/进程/服务等常用操作;
Linux系统管理;
Shell编程等;

DESCRIPTION

Java语言编程技能是大数据开发的基本功,其实不管是大数据开发还是Android开发还是JavaEE开发,都是在使用Java语言进行软件开发,区别只是开发技能的应用领域不同,所以Java语言是当之无愧的重中之重;

而在大数据开发课程中,加入JavaWeb技术的学习,则主要为数据采集的理解和数据可视化开发做铺垫,大数据开发人员并不需要系统性全面掌握JavaEE技术体系,它也不是大数据技术体系的重点

HADOOP离线计算系统

模块名称 内容提要
Hadoop基础Hadoop生态体系简介;
HDFS基本架构;
HDFS核心原理;
HDFS客户端编程实战;
HDFS集群运维与调优经验;MapReduce基本架构;
MapReduce核心原理;
MapReduce编程实战等;
Hadoop高级MapReduce组件自定义案例实战;
MapReduce高级应用;
Yarn资源调度机制;
Yarn调度策略最佳实践;
Hadoop运维,Hadoop调优;Hadoop内核解析等;
Hive基础Hive核心架构;
Hive开发环境和使用方式;
Hive核心原理解析;
Hive核心概念(分区、分桶、外部表、内部表、文件格式等);
HQL查询详解等;
Hive高级Hive批处理脚本开发;
Hive函数详解;
Hive内部原理源码解析;
Hive执行计划剖析;
Hive高级特性与调优等;
Hbase基础Hbase核心架构;
Hbase开发环境及基本使用;
Hbase核心原理解析(物理存储、逻辑存储、角色架构、数据缓存机制、数据访问机制等);
Hbase客户端API详解等;
Hbase高级 Hbase索引机制与最佳实践;
Hbase集群运维;
Hbase与MapReduce整合;
Hbase region分裂与合并机制;
HFile合并机制;
Hbase调优案例等;
HADOOP外围组件Sqoop数据迁移工具;
Azkaban任务调度系统;
Ooze任务管理调度平台;
Atlas元数据管理系统;
Zookeeper分布式协调服务等;

DESCRIPTION

本阶段的重点在于通过HDFS和MAPREDUCE,建立起分布式大数据软件系统的整体架构概念,体会分布式并行计算的特点;框架应用方面,则重点且彻底地精通掌握HIVE

SPARK内存计算系统

模块名称 内容提要
Scala函数式编程Scala基本语法与数据类型;
Scala函数与方法;
Scala面向对象高级特性;
Scala隐式转换;
Scala柯里化泛型界定等高级语法;Scala并发编程体系等;
Kafka消息缓存系统 Kafka基本架构开发环境及基本使用;Kafka核心概念详解;
Kafka客户端编程API详解;
Kafka Streaming、Kafka原理深入剖析(Broker数据备份机制、Broker日志存储管理机制、消费者偏移量管理机制等);
Kafka集群日常运维技术等;
Spark CoreSpark开发环境及基本使用;
RDD/Stage/DAG等核心概念详解;
BroadCast广播变量;
Accumulator累加器;
RDD编程api详解;
RDD编程实战加强;
Spark原理解析(Stage划分机制、任务提交机制、任务运行机制、RDD数据缓存机制、Task序列化机制、Executor内存管理机制等);
Spark SQLDataFrame核心概念及api详解;
DataSet核心概念及api详解;
SparkSQL语法解析模块;
SparkSQL内存管理模型;
SparkSQL编程加强;
自定义函数UDF/UDAF/UDTF;
Spark StreamingSparkStreaming流式计算核心概念;
DStream数据模型及api详解;
Kafka等各类外围存储系统整合;
SparkStreaming Exactly Once;
分布式事务控制方案;
Spark MLlib机器学习算法核心概念详解;
常见机器学习算法数学思想;
SparkMLlib基础编程接口;
SparkMLlib特征工程编程工具;
SparkMLlib各类算法应用实战;

DESCRIPTION

本阶段是大数据平台体系的重中之重,Spark是当今企业界最主流的大数据计算引擎,已经是目前行业内的事实标准;可以说,你只要学好了spark技术体系,那么你就已经能够胜任大数据开发的绝大部分岗位;

各类OLAP处理系统

模块名称 内容提要
NoSQL数据库(Redis)Redis简介安装及基本使用;
Redis Java API的使用;
Redis各种集合;
Redis Pipeline;
Redis Key的设计;
Redis查询优化;
Redis高可用集群搭建;
park结合Redis;
NoSQL数据库(MongoDB)MongoDB简介安装;
MongDB文档数据库的特点;
MongoDB Java API的使用;
MongDB数据库表的设计;
MongoDB高可用集群搭建;
MongoDB分片和主键设计;
MongoDB查询优化;
Spark结合MongoDB
Presto实时查询引擎Presto核心概念及架构详解;
Presto内存管理与调优;
Presto查询语法详解;
Presto各类数据源对接及跨源查询;
Presto JDBC连接程序开发;
基于Presto的即席OLAP平台开发等;
搜索引擎(LEK技术栈)(Elasticsearch/Logstash/Kibana) Lucene基本原理/工作机制/索引管理/Lucene插件编程;
ElasticSearch集群搭建/API详解;
Elastic Search构建搜索引擎实战;
LogStash日志采集工具;
Kibana数据可视化工具
OLAP多维分析引擎(Kylin)Kylin的特点/Kylin与Hive对比;
Kylin的运行机制/核心算法;
Kylin数据分析案例;
Kylin数据可视化与 Zepplin使用;
Kylin任务优化策略;

DESCRIPTION

各类OLAP相关工具,属于大数据生态体系中的上层工具,它们都是基于底层的hadoop、spark等核心提供了一些更快捷更方便更丰富的应用功能,学习难度小,但实际工作中发挥的作用很大;掌握这一部分工具的使用,能起到快速提升实际工作经验的作用

FLINK实时流式计算

模块名称 内容提要
Flink基础Flink基本架构;
Flink开发环境及基本使用;
Flink核心概念详解;
Flink与Spark Streaming对比;
Flink流式处理API详解;
Flink批处理API详解、
Flink加强Flink核心原理深入剖析;
Flink的Checkoint原理和使用场景;Flink State的原理;
Flink WaterMark高级特性;
Flink 侧流输出等高级特性;
Flink与Redis、Kafka、Hbase等组件整合;
Flink On Yarn运行机制;
Flink源码剖析;
Flink集群运维与常用调优策略等;

DESCRIPTION

Flink是大数据圈内近期快速崛起的一匹流式计算黑马;它先进的流式计算架构理念为它带来了极为强悍而灵活的功能特性,能高度适应各种复杂及高性能要求的流式计算场景,在面世后即快速获得了业界的高度关注,而多易教育则是在培训圈中率先推出Flink课程的先驱,等别的机构跟进的时候,多易教育又快速更新迭代课程,让课程内容在短时间内即达到一个别的机构暂时无法跟进的高度;Flink是目前获取高薪Offer的一个杀手锏,重要!

大数据综合实战项目

主打项目:

  1. 某著名生鲜卖场实时数据运营系统
  2. Titan大型综合数据运营平台
  3. 某同城用户画像及智能推荐数据挖掘系统
  4. 某著名搜索引擎搜索反作弊系统

附赠项目:

  1. 玖富金融大数据数仓系统
  2. 中国天气网访客行为与流量分析系统
  3. 茄子快传用户大数据分析系统
  4. 某著名页游运营大数据分析系统
  5. 精准广告推送DMP系统
  6. 共享单车数据分析系统

说明

多易教育的项目课程一直有一个难题,就是项目太多!而由于培训周期的限制,不可能让学员将所有项目一一实践,所以,本阶段的重点在四大主打项目,学有余力的学员可以学习其他附赠项目; 项目课程的关键在实战性,真实性,深入性;不能光看项目名称来判断项目含金量,市场上大量的培训机构所讲授的项目,名字看起来像一回事,实际内容则与一个简单的入门小案例相差无几;

实战项目(一)

某著名生鲜卖场实时数据运营系统

核心业务实现一个大型电商的各类用户浏览行为、交易行为、事件交互行为等数据流进行实时监控、分析、统计、核算等业务;
核心技术数据采集: FLUME
计算引擎: Flink FlinkSQL
存储系统: MySQL Redis Kafka HDFS
项目特色:Flink精确一次性语义Exactly-Once保证数据安全; 高吞吐量情况下的压测调优; 系统故障时的分析修复等;

实战项目(二)

Titan大型综合数据运营平台

核心 业务基于用户、app交互行为、加购、订单来等业务和用户行为数据,构建贴源层、数据集市、数据仓库层次架构,构建各类主题、领域模型,提供各类数据统计、分析、挖掘需求,为公司构筑全方位的数据运营系统。
核 心 技 术核心运算引擎Spark SQL/Impala/Hue
数据采集系统:SQOOP/FLUME/Canal
其他技术:HDFS/Nginx/Kafka/Spark MLlib/Spring Boot

实战项目(三)

xx同城用户画像及个性化推荐系统

核心 业务xx同城,一个神奇的网站,国内最大的分类信息网站,上千万级别的用户产生海量的数据,为了给用户提供更优质的服务,针对用户构建根个性化的用户画像系统。
核 心 技 术核心运算引擎: Spark Flink
核心存储系统: HDFS Druid HBase Kafka Elasticsearch
其他技术: Canal FLUME SQOOP SPARK GRAPHX 图计算 SPARK MLLIB 机器学习算法

实战项目(四)

某著名搜索引擎实时风控及反作弊系统

核心 业务实时监视搜索平台上的各类用户搜索行为,利用相关算法模型,主动侦测、发现刷榜黑产中的各类作弊行为,对作弊客户端进行实时黑名单标记以通知上层搜索风控策略系统进行数据回溯及警告等;
核 心 技 术采集技术: FLUME SQOOP
运算引擎: SPARK CORE SPARK STREAMIG SPARK SQL
存储系统: KAFKA REDIS HDFS MYSQL HBASE ELASTIC SEARCH
数仓系统: HIVE
其他: ZOOKEEPER SPARK GRAPHX 图计算 SPARK MLLIB 机器学习算法 Hanlp 语义处理工具(分词、提取摘要、提取关键词TF-IDF) 爬虫及HTML页面内容提取;

欢迎分享,转载有奖:多易教育 » 零基础大数就业实训营