Как избежать случайного числа при написании Dataframe для заданного пути в pyspark? - PullRequest
0 голосов
/ 16 мая 2018

У меня есть DataFrame pyspark, выполнив приведенный ниже код. Я сохраняю Dataframe в заданном пути.

df.write.format("csv").options(header='false', inferschema='true',sep="|").option("codec", "org.apache.hadoop.io.compress.GzipCodec").save("path")

после сохранения файлов в папке пути, когда я выводю список файлов с помощью команды ls -ltr.

-rw-r--r-- 1 administrator administrator 101 May 16 12:47 part-00002-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 201 May 16 12:47 part-00000-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 227 May 16 12:47 part-00005-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 214 May 16 12:47 part-00004-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz 

мой выходной файл содержит случайное число, например '41096c1e-314a-4191-bd50-2ecc2c23b760-c000 '.Как избежать этого случайного числа в имени файла, т.е. я ожидаю, что мой выходной файл должен быть part-00001.gz,part-00002.gz etc or part-00001.csv.gz,part-00002.csv.gz

Пожалуйста, помогите мне в этом. Как этого добиться?

...