品鉴三国

导航菜单



当前位置: 首页  /  人物  /  正文

十年大数据专家,手把手带你玩转大数据,Spark技术栈的深度解析

阅读:43

十年大数据专家,手把手带你玩转大数据,Spark技术栈的深度解析

Spark 简介

Spark官网为: http://spark.apache.org/, Spark也是用于海量数据处理的计算框架. 官方对Spark的定义是:

Apache Spark™ is a unified analytics engine for large-scale data processing.

翻译过来是: Spark是用于大规模数据处理的统一分析引擎。

Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发. Spark是基于内存计算的大数据并行计算框架, 可用于构建大型的、低延迟的数据分析应用程序. 2013年, Spark加入Apache孵化器项目后, 开始迅猛发展, 如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一.

  Spark作为大数据计算平台的后起之秀, 在2014年打破了Hadoop保持的基准排序 (Sort Benchmark) 纪录, 使用206个节点在23分钟的时间里完成了100TB数据的排序; 而Hadoop则是使用2000个节点在72分钟的时间里完成同样数据的排序. 也就是说, Spark仅使用了Hadoop十分之一的计算资源, 获得了比Hadoop快3倍的速度. 新纪录的诞生, 使得Spark获得多方追捧, 也表明了Spark可以作为一个更加快速、高效的大数据计算平台.

Spark具有如下几个主要特点:

运行速度快, 高效: Spark使用先进的DAG(Directed Acyclic Graph, 有向无环图)执行引擎, 以支持循环数据流与内存计算, 减少了迭代过程中的数据落地. 基于内存的执行速度可比MapReduce快上百倍, 基于磁盘的执行速度能快十倍;

容易使用: Spark支持使用Scala、Java、Python和R语言进行编程, 简洁的API设计有助于用户轻松构建并行程序, 并且可以通过Spark Shell进行交互式编程;

通用性: Spark提供了完整而强大的技术栈, 包括SQL查询、流式计算、机器学习和图算法组件, 这些组件可以无缝整合在同一个应用中, 足以应对复杂的计算;

运行模式多样: Spark有4中运行模式, 分别是Local(多用于测试环境), Standalone(Spark自带资源调度器), Yarn(生产环境使用最多), Mesos. 其中Standalone, Yarn和Mesos都是资源调度器.

  Spark源码托管在Github中,截至2018年11月,共有超过1300名来自不同公司的开发人员贡献了23000多次代码提交,可见Spark的受欢迎程度是非常高的。Spark源码仓库

Spark 历史

  Spark相比于Hadoop, 其发展更加迅速. Hadoop 已经有12年的历史而Spark只有6年(2012开始), 但Spark在应用上逐渐取代Hadoop。

  截至到目前为止, Spark已经更新到2.4.0版本. 目前常用的稳定版本是1.6.3, 初步学习也是建议使用这个版本.

Spark 技术栈

  Spark诞生于AMP实验室, APM实验室在做数据分析时使用到的技术基本就是我们将要学习的技术. 接下来看看都有哪些技术:


  从下往上来看:

Mesos(了解): 对Spark集群资源进行管理的工具, 其功能于Hadoop集群中Yarn的作用相似, 但国内用的较少, 基本上还是使用Yarn来进行集群资源管理.

HDFS: Hadoop生态圈中用来存储的分布式文件系统, HDFS是基于磁盘来进行存储的. 在之前的文章中进行过详细的介绍

Tachyon(了解): 基于内存的分布式存储系统.

HadoopMR: Hadoop生态圈中用来进行批量处理的计算框架.

Hive: 构建数据仓库的工具, Hive是基于HDFS和MR的, 它支持编写SQL语句同时支持创建多种类型的表.

Strom: 流式计算框架, 由于SparkStreaming的出现, Strom逐渐被SparkStreaming代替.

MPI(了解): 基于消息传递的分布式计算框架.

Spark Core: Spark的核心部分, 这是学习下面技术的基础, 我们会在之后进行重点讲解.

SparkStreaming: 流式计算框架, 能轻松构建可扩展的容错流应用程序.

SparkMlib(MLbase): Spark提供的可扩展机器学习库, 里面封装了大量用于机器学习的方法.

SparkSQL(Shark): 是Spark用于处理结构化数据的模块, SparkSQL除了支持编写SQL语句之外, 还可以操作Hive中的数据源.

GraphX: Spark用于图形和图形并行计算的API。

BlinkDB: 可指定容错率的数据库, 即在使用SQL语句查询时, 查询结果可以有一部分是错误的, 这部分数据量的比重可以指定.

  了解技术栈之后, 就可以明白下面这句话了.

One stack rule them all.

  即一栈式解决所有大数据的处理场景.


  常见大数据处理场景以及对应解决的技术:

Spark之前的每个技术都需要搭建一套服务, MR需要搭建高可用的Hadoop集群, Strom也要搭建, Hive也需要安装工具, 然后再整合Mahout.

  像这样集群搭建过多,容易带来许多问题: 1. 资源抢占; 2. 搭建成本高; 3.维护成本高.

  如果选择Spark, 则只需要搭建一套Spark集群即可. SparkStreaming, SparkSQL与SparkCore之间的关系就类似于Struts2, SpringMVC和Servlet的关系. SparkCore和Servlet两者都是基础, 是核心部分.

Spark相较于Hadoop的优点

  Hadoop虽引领大数据技术并成为大数据技术的标准, 但其本身还存在诸多不足, 最主要问题是MR计算框架的高延迟, 无法满足实时、快速计算的需求, 只适用离线批处理的场景.


MapReduce在其工作流程中存在如下缺点:

表达能力有限. --计算需要转化成Map和Reduce两个操作, 但这并不适合所有的情况, 难以描述复杂的数据处理过程;

磁盘IO开销大. --每次执行时都需要从磁盘读取数据, 并且在计算完成后需要将中间结果写入到磁盘中, IO开销较大;

延迟高. 一次计算可能需要分解成一系列按顺序执行的MR任务, 任务之间的衔接涉及IO开销, 从而产生较高延迟. 而且, 在前一个任务执行完成之前, 其他任务无法开始, 难以胜任复杂、多阶段的计算任务.

MR使用细粒度资源调度, 每一个Job都需要单独申请资源.

  Spark在借鉴MR优点的同时, 又很好地解决了MR所面临的问题. 相比于MR, Spark主要具有如下优点:

Spark的计算模式也属于MR, 但不局限于Map和Reduce操作. 它还提供了多种数据集(RDD, DataFrame, DStream等)操作类型, 编程模型比MR更加灵活;

Spark支持内存计算, 中间结果直接放内存中, 带来了更高的迭代运算效率;

Spark基于DAG的任务调度执行机制, 要优于MR的迭代执行机制;

Spark支持粗粒度资源调度, Spark Application在执行时, 一次申请资源可以多个Job复用;

Spark可根据不同场景选择不同的shuffle(SortShuffle, HashShuffle).

  Spark最大的优势就是将计算数据、中间结果都存储在内存中, 大大减少IO开销. 因此, Spark更适合于迭代运算比较多的数据挖掘与机器学习运算. 在使用Hadoop进行迭代计算时非常耗资源, 因为每次迭代都需要从磁盘中读取、写入中间数据, IO开销大. 而Spark将数据载入内存后, 之后的迭代计算都可以直接使用内存中的中间结果作运算, 避免了从磁盘中频繁读取数据.

  在实际进行开发时, 使用Hadoop需要编写许多相对底层的代码, 不够高效. 相对而言, Spark提供了多种高层次、简洁的API, 通常情况下, 对于实现相同功能的应用程序, Spark的代码量要比Hadoop少2-5倍. 更重要的是, Spark提供了实时交互式编程反馈, 可以方便地验证、调整算法.

  尽管Spark相对于Hadoop而言具有较大优势, 但Spark并不能完全替代Hadoop, 主要用于替代Hadoop中的MapReduce计算模型. 实际上, Spark已经很好地融入了Hadoop生态圈, 并成为其中的重要一员, 它可以借助于Yarn实现资源调度管理, 借助于HDFS实现分布式存储. 此外, 虽然Hadoop可以使用廉价、异构的机器来做分布式存储与计算, 但Spark对硬件的要求较高, 对内存与CPU有一定的要求.

好了,spark初始以及基本介绍完了,从这篇文章之后,我们会进入正式的数据处理阶段。

感谢大家的支持,多多转发,关注不迷路~~~


标签

十年数据专家手把手玩转Spark技术深度解析


相关文章列表

超越时代的大数据技术——Spark

超越时代的大数据技术——Spark

Spark是UC Berkeley AMP LAB所开源的类MapReduce的通用并行框架, 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是一种与Hadoop MapReduce相似的...


30年开发经验大牛分享:数据算法、Hadoop/Spark大数据处理技巧PDF

30年开发经验大牛分享:数据算法、Hadoop/Spark大数据处理技巧PDF

前言随着大规模搜索引擎(如Google和Yahoo!) 、基因组分析(DNA测序、RNA测序和生物标志物分析)以及社交网络(如Facebook和Twitter)的不断发展,需要生成和处理的数据量已经超...


T4专家精心整理:Java大数据、机器学习、数据挖掘算法大集结

T4专家精心整理:Java大数据、机器学习、数据挖掘算法大集结

前言本篇文章总共八大部分组成,包括数据挖掘:概念、模型、方法和算法;大数据日知录:架构与算法;大数据算法;数据结构与算法经典问题解析;算法基础:打开算法之门;机器学习算法大集结;Java数据结构和算法...


儿子被四川大学锦城学院数据科学与大数据技术专业录取,这个专业怎么样?

儿子被四川大学锦城学院数据科学与大数据技术专业录取,这个专业怎么样?

川大锦城学院是独立学院,三本院校。这个学校2005年成立,我认识的一位老师当过这学院院长。看这学校介绍,有不少教授、长江学者和学......


「三顾茅庐」:诸葛亮十大精彩事迹深度解析

「三顾茅庐」:诸葛亮十大精彩事迹深度解析

三顾茅庐三顾茅庐的故事发生在三国时期,刘备在听闻诸葛亮的名声后,认为他是天下无双的才子,希望能把他招揽到自己的麾下,成为自己的谋......


Java快速入门Hadoop大数据技术,一站式解决方案!

Java快速入门Hadoop大数据技术,一站式解决方案!

给大家推荐一本比较系统的Hadoop大数据书籍,方便大家快速入门图书简介:本书以Hadoop及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章,第1章讲解了VMwar...


友情链接