У меня возникла проблема с заменой нулевых значений на 0
в некоторых PySpark
данных.
Пусть df1
и df2
два кадра данных. После процедуры join
на col1
я получаю фрейм данных df
, который содержит два столбца с одинаковым именем столбца (возможно, с разными значениями), унаследованных от df1
и df2
, скажем, df1.dup_col
и df2.dup_col
. У меня есть нулевые значения для каждого из них, я хочу заменить их на 0
в df1.dup_col
.
Итак, сначала я опускаю столбцы df2.dup_col
, затем я вызываю
df.fillna({"df1.dup_col":'0'})
, но я все еще получаю значения null
. Поэтому я попытался
df.select("df1.dup_col").na.fill(0)
с тем же результатом. Поэтому я попытался
df = df.withColumn("df1.dup_col", when(df["df1.dup_col"].isNull(), 0).otherwise(
df["df1.dup_col"]))
без лучшего результата.
Я что-то упустил?