У меня есть Spark Dataframe следующей формы:
+------+-------+-----+--------+
| Year | Month | Day | Ticker |
+------+-------+-----+--------+
Я пытаюсь сгруппировать все значения по «году» и подсчитать количество пропущенных значений в каждом столбце за год.
Я нашел следующий фрагмент (забыл, откуда):
df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)).show()
Это отлично работает при расчете количества пропущенных значений в столбце.Тем не менее, я не уверен, как бы я изменил это, чтобы вычислить пропущенные значения в год.
Любые указатели в правильном направлении будут высоко оценены.