Question

Я работаю на кластере EMR через AWS и работаю на Jupyterhub.

У меня есть фрейм данных pyspark, который я хотел бы сохранить в один CSV. Я пробовал различные методы для сохранения в CSV, код выполняется, но в моем каталоге ничего не появляется. Я пробовал также выводить другие каталоги, но безрезультатно.

Я проверил каталоги в кластере oop и файлы нигде не были.

Есть идеи, почему я не могу записать файл?

Если я перезапущу команду, я вижу, что сохранено:

pyspark.sql.utils.AnalysisException: 'path hdfs://myip.ec2.internal:8020/home/sanjay/mydata.csv already exists.;'

Jupyterhub - сохранить pyspark df в csv, код выполняется, но файл не создается на странице jupyterhub, только создается в файловой системе HDFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Jupyterhub - сохранить pyspark df в csv, код выполняется, но файл не создается на странице jupyterhub, только создается в файловой системе HDFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы