关于azure:如何使用Data Factory在HDInsights群集中设置自定义Spark参数

How to setup custom Spark parameter in HDInsights cluster with Data Factory

我正在根据此描述在Azure上创建HDInsights群集

现在我想设置spark自定义参数,例如

群集配置时的spark.yarn.appMasterEnv.PYSPARK3_PYTHON或spark_daemon_memory。

是否可以使用Data Factory / Automation Account进行设置?我找不到执行此操作的任何示例。

谢谢


您可以在Data Factory中使用SparkConfig将这些配置传递给Spark。

例如:

1
2
3
4
5
6
7
"typeProperties": {
...
 "sparkConfig": {
    "spark.submit.pyFiles":"/dist/package_name-1.0.0-py3.5.egg",
    "spark.yarn.appMasterEnv.PYSPARK_PYTHON":"/usr/bin/anaconda/envs/py35/bin/python3"
  }
}

这样,您可以在此处指定文档中列出的所有Spark配置。