Агрегировать по столбцу с пустыми значениями в pyspark - PullRequest
0 голосов
/ 20 марта 2020

Я боролся с этим некоторое время. Мне нужно удалить «дубликаты» в моем фрейме данных, составленном так:

---------------------
X     |  Y   |  Z   |
---------------------
team1 | ABC  | DEF  |
team1 |      |      |
team2 |      |      |
team2 | GHK  | LMN  |
team3 |      | RST  |
team4 | UVW  | WYZ  |

Мне нужно, чтобы результат был:

team1 | ABC  | DEF  |
team2 | GHK  | LMN  |
team3 |      | RST  |
team4 | UVW  | WYZ  |

Проблема в том, что не все строки имеют эти пустые значения , Я пытался использовать кулак ('Y', True), я пытался сначала (coalesce (col ('Y')), True), но это не пустые значения, просто пустые значения. В результате я удалил дубликаты, но в качестве значений я получил пустые значения. Есть ли способ выбрать первое непустое значение, если оно существует? Некоторые строки имеют «естественно» пустые значения, там нет дубликатов. Извините, я новичок здесь, большое вам спасибо!

...