Question

У меня есть DataFrame pyspark, выполнив приведенный ниже код. Я сохраняю Dataframe в заданном пути.

df.write.format("csv").options(header='false', inferschema='true',sep="|").option("codec", "org.apache.hadoop.io.compress.GzipCodec").save("path")

после сохранения файлов в папке пути, когда я выводю список файлов с помощью команды ls -ltr.

-rw-r--r-- 1 administrator administrator 101 May 16 12:47 part-00002-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 201 May 16 12:47 part-00000-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 227 May 16 12:47 part-00005-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz
-rw-r--r-- 1 administrator administrator 214 May 16 12:47 part-00004-41096c1e-314a-4191-bd50-2ecc2c23b760-c000.csv.gz

мой выходной файл содержит случайное число, например '41096c1e-314a-4191-bd50-2ecc2c23b760-c000 '.Как избежать этого случайного числа в имени файла, т.е. я ожидаю, что мой выходной файл должен быть part-00001.gz,part-00002.gz etc or part-00001.csv.gz,part-00002.csv.gz

Пожалуйста, помогите мне в этом. Как этого добиться?

Как избежать случайного числа при написании Dataframe для заданного пути в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как избежать случайного числа при написании Dataframe для заданного пути в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы