Чтение файла json в pyspark без изменения старой схемы - PullRequest
0 голосов
/ 26 мая 2019

Я получал json каждый день с 10 атрибутами, но иногда, если какой-либо атрибут не имеет значения, они отправляют 9 атрибутов, а 10-й атрибут отсутствует в json.Как я могу прочитать файл json в pyspark без изменения старой схемы таблицы

1 Ответ

1 голос
/ 27 мая 2019

Похоже, вы должны принудительно установить schema при чтении файлов.Я предполагаю, что у вас есть что-то вроде этого:

df = spark.read.json(path_to_json_files)

Чтобы сохранить все атрибуты / поля, используйте схему следующим образом:

df = spark.read.schema(file_schema).json(path_to_json_files)

Чтобы получить file_schemaВы можете использовать старые файлы, которые, как вы знаете, доступны каждому атрибуту:

file_schema = spark.read.json(full_json_file).schema
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...