Pyspark находит наиболее часто встречающееся значение в столбцах - PullRequest
0 голосов
/ 08 октября 2019

У меня есть CSV-файл a.csv, и я прочитал его с помощью PySpark и преобразовал его в фрейм данных

df = spark.read.csv("a.csv")

Это выглядит так

col1 col2 col3
a     b    c
a     nn    nn
nn     b    c

Как мне найтиНаиболее частое значение каждого столбца и заменить все значения nn на него?

Ожидаемое o / p:

col1   col2   col3
a        b     c

После замены фрейм данных должен выглядеть следующим образом:

col1  col2  col3
a      b      c
a      b      c
a      b      c
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...