How to setup custom Spark parameter in HDInsights cluster with Data Factory
我正在根据此描述在Azure上创建HDInsights群集
现在我想设置spark自定义参数,例如
群集配置时的spark.yarn.appMasterEnv.PYSPARK3_PYTHON或spark_daemon_memory。
是否可以使用Data Factory / Automation Account进行设置?我找不到执行此操作的任何示例。
谢谢
您可以在Data Factory中使用
例如:
1 2 3 4 5 6 7 | "typeProperties": { ... "sparkConfig": { "spark.submit.pyFiles":"/dist/package_name-1.0.0-py3.5.egg", "spark.yarn.appMasterEnv.PYSPARK_PYTHON":"/usr/bin/anaconda/envs/py35/bin/python3" } } |
这样,您可以在此处指定文档中列出的所有Spark配置。