Как получить Python в Qubole для сохранения файлов CSV и TXT в озеро данных Azure? - PullRequest
0 голосов
/ 03 августа 2020

У меня Qubole подключен к Azure озеру данных, и я могу запустить искровой кластер и запустить на нем PySpark. Однако я не могу сохранить собственный Python вывод, например текстовые файлы или CSV. Я не могу сохранить ничего, кроме Spark SQL DataFrames. Что мне делать, чтобы решить эту проблему? Заранее спасибо!

Ответы [ 2 ]

0 голосов
/ 12 августа 2020

Я решил это. Мне нужно было добавить файл в сеанс PySpark, используя детали textFile() и пример кода здесь Для любого файла, который я хочу, мне нужно добавить его в сеанс Spark. Например, если мне нужно было добавить файл .py из озера данных Azure, мне нужно добавить его, используя addPyFile() с путем к файлу.

0 голосов
/ 04 августа 2020

Если я правильно понимаю ваш вопрос, я считаю, что вы не можете загрузить результат вывода команды pyspark в текст или CSV, в то время как вы можете сделать это для вывода команды spark sql в красивом табличном формате.

К сожалению, нет прямого разделителя полей для выходного текста для выходных данных Python или команд оболочки. Вам нужно будет разделить вывод через запятую, чтобы вы могли загрузить необработанный вывод и сохранить его как csv.

Если это не то, что вы имели в виду, пожалуйста, поделитесь более подробной информацией о том, что именно вы пытаетесь сделать вместе со скриншотами. Это поможет нам лучше ответить на ваш вопрос.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...