本书共11章。书中第1章首先通过介绍Spark的生态系统和企业应用,使读者能够快速的对Spark技术的生态环境以及Spark的应用现状有个非常直观的了解。随后第2章,通过Spark集群的安装和部署把开发环境快速的搭建起来(对于90%以上想学习Spark技术的人来说,如何搭建集群是其难点之一),方便学习者进行一些简单的实战初体验。第3章,通过Spark API编程动手实战,进一步加深对Spark技术的理解。第4章,深入分析了Spark的工作机制,尤其是Spark的作业和任务调度,是Spark学习的重点和难点。 第5章,简单介绍了运行架构,特意分析了集群默认的Spark Standalone运行架构以及目前公认的最佳的分布式集群资源管理框架YARN的原理和最佳实践。第6章到第9章,详细介绍了基于Spark内核的四大子框架,如Spark Streaming、Spark SQL、Spark GraphX的原理和实例操作,更深一步的理解Spark的“One stack to rule them all”的特性。最后,介绍最著名的分布式内存存储系统Tachyon的架构和使用以及Spark的性能调优。