Question

Я пытаюсь записать PySpark DataFrame (DF) в формате JSON.DF имеет несколько строк со значениями NAN.Я использую следующий подход для записи DF

DF.coalesce(1).write.format('json').mode('overwrite').save('myDest/' + ext)

Выходной JSON игнорирует ключи, значения которых отсутствуют.

Это пример:

{"id":"890226","dt":"2018-01 14T17:05:00.000Z","key":2.9427571,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:10:00.000Z","key":2.9815376,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:15:00.000Z","key":2.94226,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:20:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:25:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:30:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:35:00.000Z","anotherkey":1}

как показано в последних 4 ролях, результирующий JSON пропускает атрибут «ключ», потому что в DF он имеет значение NAN

В кадре данных Panadas есть возможность сохранить NAN как ключ = Нет

Есть ли способ сохранить Нан в PySpark DF

Нужны ключи Nan: значение при записи PySpark DF как Json

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нужны ключи Nan: значение при записи PySpark DF как Json

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов