Избегайте записи полей NULL, присутствующих в кадре данных pyspark - PullRequest
0 голосов
/ 29 мая 2020

У меня есть искровый фрейм данных, содержащий следующие записи column1 | column2 "a" | "b" "x" | "c" null | "a" null | "b" "x" | null Поэтому, когда я конвертирую его в динамический c фрейм и записываю его в корзину S3 в формате json, также записываются нулевые значения. Я не хочу преобразовывать пустое поле в пустую строку или число et c. Обычно, если значение поля равно нулю, его не следует записывать. Как избежать записи пустых полей?

1 Ответ

1 голос
/ 29 мая 2020

Вы можете сделать что-то вроде .na.fill('') значения по умолчанию для пустой строки

df = spark.createDataFrame([("a",), ("b",), ("c",), (None,)], ['col'])
df.show()
+----+
| col|
+----+
|   a|
|   b|
|   c|
|null|
+----+

df.na.fill('').show()
+---+
|col|
+---+
|  a|
|  b|
|  c|
|   |
+---+
...