Невозможно сохранить файл CSV с помощью PySpark Dataframe в AWS EMR - PullRequest
1 голос
/ 11 июля 2019

Я хочу сохранить файл CSV со сжатием gzip. Код выполняется успешно, но он молча завершается с ошибкой - , т.е. Я не вижу файлов по указанному пути.

Я попытался прочитать файл, который должен быть успешно сохранен, но «Такой файл не найден» - это то, что я получаю после выполнения команды file -i <path_to_the_file>.

Мой код для записи файла CSV:

>>> df
DataFrame[id: int, name: string, alignment: string, gender: string, eyecolor: string, race: string, haircolor: string, publisher: string, skincolor: string, height: int, weight: int, _paseena_row_number_: bigint, _paseena_timestamp_: timestamp, _paseena_commit_id_: string]
>>> df.write.csv('check_csv_post_so.csv')
>>>

Теперь, когда я проверяю, файла не существует.

Я бы использовал неизвестную методологию dfs, но суть в том, что я работал с spark на других машинах и не нашел такой проблемы.

Я ожидаю, что файл будет присутствовать или код завершится ошибкой и покажет ошибки.

1 Ответ

1 голос
/ 12 июля 2019

Я думаю, что файл хранится в HDFS.Попробуйте сохранить файл с file:// или s3://.Или используйте hdfs dfs -ls, чтобы увидеть, есть ли файл.

...