ликвидировать дубликаты в столбце - PullRequest
0 голосов
/ 31 октября 2019

Можно ли удалить несколько значений в столбце 3, столбце 4

+--------+--------+--------+--------+
|Column_1|Column_2|Column_3|Column_4|
+--------+--------+--------+--------+
|       1|       x|     abc|     www|
|       1|       x|     abc|     sdf|
|       1|       x|     abc|     xyz|
|       1|       x|     def|     www|
|       1|       x|     def|     sdf|
|       1|       x|     def|     xyz|
+--------+--------+--------+--------+

ожидаемый результат

+--------+--------+--------+--------+
|Column_1|Column_2|Column_3|Column_4|
+--------+--------+--------+--------+
|       1|       x|     abc|     www|
|       1|       x|     def|     sdf|
|       1|       x|    null|     xyz|
+--------+--------+--------+--------+

1 Ответ

0 голосов
/ 31 октября 2019

Использовать df.dropDuplicates (Column_3, Column_4)

Кроме того, дублировать из Удаление дубликатов из строк на основе определенных столбцов в кадре данных RDD / Spark

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...