关于Spark SQL:Spark SQL-在Spark Streams上部署SQL查询的选项

Spark SQL - Options for deploying SQL queries on Spark Streams

我是Spark的新手,并且想在Spark流上运行Spark SQL查询。

我目前的理解是,我需要在Spark作业的代码中定义SQL查询,因为从Spark SQ主页显示的此代码段显示:-

1
2
3
4
5
6
spark.read.json("s3n://...")
.registerTempTable("json")
results = spark.sql(
"""SELECT *
FROM people
JOIN json ...""")

我想做的就是在某个地方自己定义查询-例如。 .sql文件-然后将其部署在Spark集群上。

谁能告诉我Spark当前是否对此架构有任何支持?例如。一些API?


您可以使用open的python来满足您的目的:

1
2
3
4
with open('filepath/filename.sql') as fr:
    query = fr.read()
x = spark.sql(query)
x.show(5)

使用sys.argv[]

提交作业时,可以将filename.sql作为参数传递

请参考此链接以获取更多帮助:Spark SQL问题