admin 发表于 2018-11-30 00:00:00

《Spark 1.X 大数据平台V2》11月开班[完整版附课件]

第一周 Spark生态系统概述与编程模型
•    Spark生态系统概述
•    回顾Hadoop MapReduce
•    Spark运行模式
•    RDD
•    Spark运行时模型简介
•    缓存策略介绍
•    transformation
•    action
•    lineage
•    容错处理
•    宽依赖与窄依赖
•    集群配置
第二周 深入Spark内核
•    Spark术语解释
•    集群概览
•    核心组件
•    数据本地性
•    常用RDD
•    任务调度
•    DAGScheduler
•    TaskScheduler
•    Task细节
•    广播变量
•    累加器
•    性能调优
第三周 Spark on Yarn & Spark as a service
•    Spark on Yarn原理
•    Spark on Yarn实践
•    JobServer架构
•    JobServer API介绍
•    JobServer配置与部署
第四周 Spark Streaming原理与实践
•    DStream
•    数据源
•    无状态transformation与有状态transformation
•    checkpoint
•    容错
•    性能优化
第五周 Shark与Spark SQL
•    Shark数据模型
•    Shark数据类型
•    Shark架构
•    Shark部署
•    缓存(分区)表
•    SharkServer
•    Shark与Spark结合
•    Spark SQL架构
•    Parquet支持
•    DSL
•    SQL on RDD
•    Hive支持
•    UDF
•    JDBC Server
第六周 Machine Learning on Spark
•    LinearRegression
•    K-Means
•    Collaborative Filtering
第七周 Spark多语言编程
•    Python简介
•    PySpark API
•    使用Python编写Spark程序
•    Spark with Java
第八周 图计算GraphX
•    现存的图计算框架
•    Table Operators
•    Graph Operators
•    GraphX设计
第九周 Tachyon原理与实践
•    Tachyon原理与架构
•    Tachyon实践
第十周 SparkR
•    SparkR原理介绍
•    安装配置与运行

   
   
**** Hidden Message *****
页: [1]
查看完整版本: 《Spark 1.X 大数据平台V2》11月开班[完整版附课件]