Нужны ключи Nan: значение при записи PySpark DF как Json - PullRequest
0 голосов
/ 26 февраля 2019

Я пытаюсь записать PySpark DataFrame (DF) в формате JSON.DF имеет несколько строк со значениями NAN.Я использую следующий подход для записи DF

DF.coalesce(1).write.format('json').mode('overwrite').save('myDest/' + ext) 

Выходной JSON игнорирует ключи, значения которых отсутствуют.

Это пример:

{"id":"890226","dt":"2018-01 14T17:05:00.000Z","key":2.9427571,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:10:00.000Z","key":2.9815376,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:15:00.000Z","key":2.94226,"anotherkey":3}
{"id":"890226","dt":"2018-01-14T17:20:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:25:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:30:00.000Z","anotherkey":1}
{"id":"890226","dt":"2018-01-14T17:35:00.000Z","anotherkey":1} 

как показано в последних 4 ролях, результирующий JSON пропускает атрибут «ключ», потому что в DF он имеет значение NAN

В кадре данных Panadas есть возможность сохранить NAN как ключ = Нет

Есть ли способ сохранить Нан в PySpark DF

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...