Spark中的故障容错

Failures tolerance in Spark

是否有一种方法可以为每个阶段设置运行Spark作业时可以容忍的故障数量?例如,如果我有1000个节点并且可以容忍10个故障,那么在5个节点发生故障的情况下,我的工作将不会重新运行它们并忽略它们的结果。

结果是,我得到的结果将不太准确,但是这种功能会加快运行时间,因为我得到的结果是无需等待发生故障的节点(假定它们的执行时间太长),而无需等待它们。

谢谢!


我认为您正在寻找的是

1
spark.speculation=true

这来自http://spark.apache.org/docs/1.2.0/configuration.html#scheduling

如果明显滞后,将使用启发式方法在另一台计算机上重新启动任务。