Преобразование искрового фрейма данных в плоский файл .csv - PullRequest
0 голосов
/ 13 июня 2019

У меня есть искровой фрейм данных (здесь и далее spark_df), и я хотел бы преобразовать его в формат .csv.Я попробовал два следующих метода:

spark_df_cut.write.csv('/my_location/my_file.csv')
spark_df_cut.repartition(1).write.csv("/my_location/my_file.csv", sep=',')

, где я не получаю сообщение об ошибке ни для одного из них, и оба завершаются [кажется], но я не могу найти любой выходной .csv файлв целевом месте!Любое предложение?

Я использую облачный Jupyternotebook с использованием spark '2.3.1'.

Ответы [ 2 ]

0 голосов
/ 14 июня 2019

spark_df_cut.write.csv сохранить файлы как файлы деталей.В spark нет прямого решения для сохранения в виде файла .csv, который можно открыть напрямую с помощью xls или другого файла.но есть несколько обходных путей, один из таких обходных путей - преобразовать спарк Dataframe в panda Dataframe и использовать метод to_csv, как показано ниже

df  = spark.read.csv(path='game.csv', sep=',')
pdf = df.toPandas()
pdf.to_csv(path_or_buf='<path>/real.csv')

, при этом данные будут сохранены в виде файла .csv

и другой подход заключается в использовании открыть файл с помощью команды hdfs и cat, что в файл.пожалуйста, напишите, если вам нужна дополнительная помощь

0 голосов
/ 13 июня 2019
spark_df_cut.write.csv('/my_location/my_file.csv') 
//will create directory named my_file.csv in your specified path and writes data in CSV format into part-* files. 

Мы не можем контролировать имена файлов во время записи кадра данных, ищите каталог с именем my_file.csv в вашем местоположении (/my_location/my_file.csv).

Если вы хотите, чтобы имя файла оканчивалось на * .csv , вам нужно переименовать , используя fs.rename метод.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...