Расхождение в количестве строк в pyspark написать CSV - PullRequest
0 голосов
/ 18 апреля 2020

У меня есть фрейм данных pyspark, который я хочу записать в HDFS. Я использую следующую команду: df.write.mode("overwrite").option("header", "true").option("sep", "|").csv(outfile, compression="bzip2")

Я наблюдаю странную вещь. Фрейм данных содержит 366 000 строк, которые я получил с помощью функции df.count () . Однако выходные данные команды write содержат только 72 557 строк (команда w c -l). В идеале каждая строка должна иметь соответствующую строку в выводе. Что-то не так с командой write, которую я использовал?

...