Question

У меня есть CSV-файл a.csv, и я прочитал его с помощью PySpark и преобразовал его в фрейм данных

df = spark.read.csv("a.csv")

Это выглядит так

col1 col2 col3
a     b    c
a     nn    nn
nn     b    c

Как мне найтиНаиболее частое значение каждого столбца и заменить все значения nn на него?

Ожидаемое o / p:

col1   col2   col3
a        b     c

После замены фрейм данных должен выглядеть следующим образом:

col1  col2  col3
a      b      c
a      b      c
a      b      c

Pyspark находит наиболее часто встречающееся значение в столбцах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.