Question

Предположим, у нас есть следующий DataFrame в (Py) Spark. (Я взял данные из этого вопроса .)

+----+--------+
|  id|idAsLong|
+----+--------+
|   0|       0|
|null|    null|
|   5|       5|
|null|    null|
|null|    null|
|  -8|      -8|
+----+--------+

Вопрос: Как определить / найти функцию smax, которая не игнорирует null. То есть .smax("isAsLong") дает null.

Этот вопрос возникает, когда я создаю сводную таблицу. А именно

df.groupBy("id").pivot("var").max("val")

дает таблицу, которая заполнена 0, даже если нет значения для вычисления.

pasha701 · Answer 1 · 01 сентября 2018

В качестве значения null можно использовать очень большое значение при вычислении максимального значения:

val borderValue = Long.MaxValue

// null as border value
df.select(max(when(isnull($"idAsLong"), borderValue).otherwise($"idAsLong")).alias("res"))

  // back to null
  .withColumn("res", when($"res" === borderValue, null.asInstanceOf[Long]).otherwise($"res"))

Как предотвратить игнорирование функции агрегирования NULL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как предотвратить игнорирование функции агрегирования NULL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов