Как перезаписать файл с помощью pyspark в Azure Spark Cluster - PullRequest
0 голосов
/ 19 октября 2018

Я использую следующий скрипт для вывода результатов запроса SPARQL в файл в хранилище данных Azure.Однако вместо создания файла с именем myresults.json и публикации результатов в файле myresults.json сценарий публикует результаты в произвольном имени файла, например part-0000-tid, как показано на рисунке ниже:

pyspark

Код выглядит следующим образом:

example1 = spark.sql("""SELECT
  CF.CountryName AS CountryCarsSold
 ,COUNT(CF.CountryName) AS NumberCountry
 ,MAX(CB.SalesDetailsID) AS TotalSold
FROM Data_SalesDetails CB
INNER JOIN Data_Sales CD
  ON CB.SalesID = CD.SalesID
INNER JOIN Data_Customer CG
  ON CD.CustomerID = CG.CustomerID
INNER JOIN Data_Country CF
  ON CG.Country = CF.CountryISO2
GROUP BY CF.CountryName""")
example1.coalesce(1).write.mode("append").json("adl://carlslake.azuredatalakestore.net/jfolder2/outputfiles/myoutput3/myresults.json")

Может кто-нибудь сообщить мне, как сохранить как один файл, и каждый файл перезаписывается при каждом сохранении.

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...