Я пытаюсь записать PySpark DataFrame (DF) в формате JSON.DF имеет несколько строк со значениями NAN.Я использую следующий подход для записи DF
DF.coalesce(1).write.format('json').mode('overwrite').save('myDest/' + ext)
Выходной JSON игнорирует ключи, значения которых отсутствуют.
Это пример:
{"id":"890226","dt":"2018-01 14T17:05:00.000Z","key":2.9427571,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:10:00.000Z","key":2.9815376,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:15:00.000Z","key":2.94226,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:20:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:25:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:30:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:35:00.000Z","anotherkey":1}
как показано в последних 4 ролях, результирующий JSON пропускает атрибут «ключ», потому что в DF он имеет значение NAN
В кадре данных Panadas есть возможность сохранить NAN как ключ = Нет
Есть ли способ сохранить Нан в PySpark DF