项目
| 模块
| 具体内容
| 涉及技术
|
大数据Spark实战项目:
精准广告推送系统
DMP平台
| 广告行业现状
| 广告行业现状分析
| 传统广告和互联网广告投放优劣PK
|
广告行业知识介绍
| 互联网广告的程序化采买概念
|
DSP业务需求详解
| SSP详解
|
AD Exchange详解
|
RTB实时竞价详解
|
DSP平台详解
|
DMP平台详解
|
项目背景
| 项目背景介绍
| DMP平台建设的必要性分析
|
项目业务流程梳理
| DMP业务流程详解
|
项目技术架构分析
| DMP技术架构设计分析
|
日志采集
| 日志采集方案设计分析
|
日志格式
| 日志格式详解
|
项目数据采集
| Flume自定义插件详解
| Flume自定义插件开发流程详解及实际场景应用;
source、channel、sink的使用详解及实战经验;
Flume HDFS sink深入剖析及实战经验;
数据存储目录结构设计;
|
Flume组件使用详解
|
Flume采集日志到HDFS
|
日志存储目录设计
|
数据存储技术选型
| parquet选型
| Paruqet存储原理详解
|
Parquet优势分析
| Parquet存储优点详解
|
Parquet实战
| 日志文件转Parquet文件实战
|
离线业务
| 日志数据量分布统计
| Spark SQL实战
|
广告投放效果地域分析
| Spark Transformations各算子在各业务模型中的实战应用;
Spark Action的实战应用最佳实践经验;
Spark SQL在项目数据分析业务场景中的各类复杂应用,如
如参与竞价数、竞价成功数、竞价成功率、ECPC、ECPM等。
|
广告投放效果渠道分析
|
广告投放效果终端分析
|
广告投放效果媒体分析
|
实时业务
| 广告日志到Kafka
| 使用Spark Streaming结合Kafka对业务指标进行实时统计分析,并将计算的结果数据存储到Redis中
Kafka分区调优应用;
Kafka整合Spark Streaming的数据可靠性优化实战;
Kafka整合Spark Streaming的吞吐量协调优化实战;
Spark Streaming在复杂业务模型下的逻辑开发实战;
Spark Streaming线上环境各类复杂异常处理经验;
Spark Streaming线上环境各类监控、JVM优化经验
|
媒体数据实时分析
|
渠道数据实时分析
|
用户画像
| 标签体系建设
| 定制一套标签体系
|
用户上下文标签
| 使用Spark Transformations、Action、Broadcast及外部爬虫抓到的网络数据进行处理分析将数据标签化
|
统一用户识别
| 使用Spark GraphX算法,对数据进行分析处理,识别出同一用户跨多个设备的问题
|
基于地理位置的广告投放
| 使用GEOHASH算法结合HBASE解决用户的地理位置识别问题
|
用户数据标签聚合
| 使用Spark Transformations、Action将上下文标签数据和统一用户数据进行合并
|
HBase存储用户标签
| 将合并的用户标签数据存储到Hbase中,并根据日志动态扩列
|
用户标签数据衰减
| 将Hbase中的标签数据按照日期自动衰减,形成当天最新的标签
|
数据可视化
| ElasticSearch
| 使用Echarts、ELK将Hbase中的数据做可视化的web平台;
Echarts实际应用实战技能;
ELK实际应用实战技能;
|
| Echarts
|
标签可视化平台建设
|
===============课程目录===============