且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《Spark大数据处理:技术、应用与性能优化》——导读

更新时间:2022-09-30 17:43:19


《Spark大数据处理:技术、应用与性能优化》——导读https://yqfile.alicdn.com/9fc1970337c275b04055dec83fdf7e27687dd205.png" >

前 言
Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、流处理和图计算等多种计算范式,是大数据系统领域的全栈计算平台。Spark当下已成为Apache基金会的***开源项目,拥有庞大的社区支持,技术也逐渐走向成熟。

为什么要写这本书

大数据还在如火如荼地发展着,突然之间,Spark就火了。还记得最开始接触Spark技术时资料匮乏,只有官方文档和源码可以作为研究学习的资料。写一本Spark系统方面的技术书籍,是我持续了很久的一个想法。由于学习和工作较为紧张,最初只是通过几篇笔记在博客中分享自己学习Spark过程的点滴,但是随着时间的推移,笔记不断增多,最终还是打算将笔记整理成书,也算是一个总结和分享。
在国外Yahoo!、Intel、Amazon、Cloudera等公司率先应用并推广Spark技术,在国内淘宝、腾讯、网易、星环等公司敢为人先,并乐于分享。在随后的发展中,IBM、MapR、Hortonworks、微策略等公司纷纷将Spark融进现有解决方案,并加入Spark阵营。Spark在工业界的应用也呈星火燎原之势。
随着Spark技术在国内的大范围落地、Spark中***会的召开,及各地meetup的火爆举行,开源软件Spark也因此水涨船高。随着大数据相关技术和产业的逐渐成熟,公司生产环境往往需要同时进行多种类型的大数据分析作业:批处理、各种机器学习、流式计算、图计算、SQL查询等。在Spark出现前,要在一个平台内同时完成以上数种大数据分析任务,就不得不与多套独立的系统打交道,这需要系统间进行代价较大的数据转储,但是这无疑会增加运维负担。
 在1年之前,关注Spark的人和公司不多,由于它包含的软件种类多,版本升级较快,技术较为新颖,初学者难以在有限的时间内快速掌握Spark蕴含的价值。同时国内缺少一本实践与理论相结合的Spark书籍,很多Spark初学者和开发人员只能参考网络上零星的Spark技术相关博客,自己一点一滴地阅读源码和文档,缓慢地学习Spark。本书也正是为了解决上面的问题而编写的。
本书从一个系统化的视角,秉承大道至简的主导思想,介绍Spark中最值得关注的内容,讲解Spark部署、开发实战,并结合Spark的运行机制及拓展,帮读者开启Spark技术之旅。

本书特色

本书是国内首本系统讲解Spark编程实战的书籍,涵盖Spark技术的方方面面。
1)对Spark的架构、运行机制、系统环境搭建、测试和调优进行深入讲解,以期让读者知其所以然。讲述Spark最核心的技术内容,以激发读者的联想,进而衍化至繁。
2)实战部分不但给出编程示例,还给出可拓展的应用场景。
3)剖析BDAS生态系统的主要组件的原理和应用,让读者充分了解Spark生态系统。
本书的理论和实战安排得当,突破传统讲解方式,使读者读而不厌。
本书中一些讲解实操部署和示例的章节,比较适合作为运维和开发人员工作时手边的书;运行机制深入分析方面的章节,比较适合架构师和Spark研究人员,可帮他们拓展解决问题的思路。

识开始学起。
目 录

[第1章 Spark简介
1.1 Spark是什么 ](https://yq.aliyun.com/articles/120200)
1.2 Spark生态系统BDAS
1.3 Spark架构
[1.4 Spark分布式架构与单机多核
架构的异同 ](https://yq.aliyun.com/articles/120219)
1.5 Spark的企业级应用
1.6 本章小结
[第2章 Spark集群的安装与部署
2.1 Spark的安装与部署 ](https://yq.aliyun.com/articles/120247)
2.2 Spark集群初试
2.3 本章小结
[第3章 Spark计算模型
3.1 Spark程序模型 ](https://yq.aliyun.com/articles/120261)
3.2 弹性分布式数据集
3.3  本章小结