У меня есть CSV-файл a.csv, и я прочитал его с помощью PySpark и преобразовал его в фрейм данных
df = spark.read.csv("a.csv")
Это выглядит так
col1 col2 col3
a b c
a nn nn
nn b c
Как мне найтиНаиболее частое значение каждого столбца и заменить все значения nn на него?
Ожидаемое o / p:
col1 col2 col3
a b c
После замены фрейм данных должен выглядеть следующим образом:
col1 col2 col3
a b c
a b c
a b c