Я столкнулся с проблемой с выводом писателя pyspark2.2 CSV - PullRequest
0 голосов
/ 02 июня 2018

Я хочу перенести код pyspark с 1.6 на 2.x.В 1.6 я использовал синтаксис

input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .format(file_format) \
    .option("header", "true") \
    .save(nfs_path)

и получал вывод в следующем формате.

part-00000

part-00001

..

Я запустил один и тот же код в pyspark2.2, он дал мне разные имена файлов деталей

part-00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

part-00001-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

Затем я изменяю код в соответствии с 2.x

input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .option("header", "true") \
    .csv(nfs_path)

Но все тот же результат

part-00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

Может кто-нибудь помочь, почему это происходит?

...