Spark SQL - Options for deploying SQL queries on Spark Streams
我是Spark的新手,并且想在Spark流上运行Spark SQL查询。
我目前的理解是,我需要在Spark作业的代码中定义SQL查询,因为从Spark SQ主页显示的此代码段显示:-
1 2 3 4 5 6 | spark.read.json("s3n://...") .registerTempTable("json") results = spark.sql( """SELECT * FROM people JOIN json ...""") |
我想做的就是在某个地方自己定义查询-例如。 .sql文件-然后将其部署在Spark集群上。
谁能告诉我Spark当前是否对此架构有任何支持?例如。一些API?
您可以使用open的python来满足您的目的:
1 2 3 4 | with open('filepath/filename.sql') as fr: query = fr.read() x = spark.sql(query) x.show(5) |
使用
提交作业时,可以将
请参考此链接以获取更多帮助:Spark SQL问题