Spark 技术背景在Spark 之前,大多数集群编程模型(如MapReduce、Dryad等)是基于非循环的数据流模型。即从稳定的物理存储(如HDFS)中加载记录,记录被传入由一组确定性操作构成的DAG(Directed Acyclic Graph,有向无环图),然后写回稳定存储。DAG 数据流图