Сохранить результат функции printSchema () в переменную в Pyspark? - PullRequest
0 голосов
/ 27 января 2020

Я использую функцию printSchema для определения схемы файла Json. Я хочу сохранить результат этого вызова функции в переменной, чтобы анализировать ее построчно, чтобы я мог извлечь структуру схемы и преобразовать ее в схему DDL для создания таблицы в кусте.

Как это можно сделать?

1 Ответ

2 голосов
/ 27 января 2020

Если вы проверите исходный код для printSchema(), вы увидите, что эта функция просто выполняет следующее:

print(self._jdf.schema().treeString())

Поэтому вы можете сохранить выходные данные следующим образом:

printSchemaString = df._jdf.schema().treeString()

Другие ссылки:

...