Spark编程模型和解析
Spark的♀编程模型;Spark编程模型解析;RDD的特点、操作、依赖关系;Spark应用程▅序的配置;Spark的架构;spark的容⊙错机制;数据的本地性;缓存策略介绍;宽依赖与窄依赖∞
Spark 数据挖掘
Mllib的介绍;graphX核心原理;table operator和graph operator区别;vertices、edges和triplets介绍;构建一个graph;SparkR原理;SparkR实战
Spark Streaming原理和实践
Spark Streaming与Strom的区别;Kafka的部署;Kafka与Spark Streaming的整合;Spark Streaming原理;Spark流式处理架构;DStream的特点;Dstream的操作和RDD的区别;带状态的transformation与无状态transformation;Spark Streaming的优化;Spark Streaming实例;Streaming的容错机制;streaming在yarn模式下的注意事项;对于需结合第三方存储机制的与流式处理方案;文本实例;网络数据处理;Kafka+Spark Streaming实现日志的实时分析案例
Spark的优化
序列︽化优化——Kryo;Spark参数优化实战;Spark 任务的均匀分布策略;Partition key倾斜的解∩决方案;Spark任务的监控;GC的优化;Spark Streaming吞吐量优化;Spark RDD使用内存的优化策略;Spark在使用中的感想分▆享