Я использую следующий скрипт для вывода результатов запроса SPARQL в файл в хранилище данных Azure.Однако вместо создания файла с именем myresults.json
и публикации результатов в файле myresults.json
сценарий публикует результаты в произвольном имени файла, например part-0000-tid
, как показано на рисунке ниже:
Код выглядит следующим образом:
example1 = spark.sql("""SELECT
CF.CountryName AS CountryCarsSold
,COUNT(CF.CountryName) AS NumberCountry
,MAX(CB.SalesDetailsID) AS TotalSold
FROM Data_SalesDetails CB
INNER JOIN Data_Sales CD
ON CB.SalesID = CD.SalesID
INNER JOIN Data_Customer CG
ON CD.CustomerID = CG.CustomerID
INNER JOIN Data_Country CF
ON CG.Country = CF.CountryISO2
GROUP BY CF.CountryName""")
example1.coalesce(1).write.mode("append").json("adl://carlslake.azuredatalakestore.net/jfolder2/outputfiles/myoutput3/myresults.json")
Может кто-нибудь сообщить мне, как сохранить как один файл, и каждый файл перезаписывается при каждом сохранении.
Спасибо