Я пытаюсь заполнить нулевые значения из ColY значениями из ColX, сохраняя вывод как новый столбец в моем DataFrame Col_new.
Я использую pyspark в блоках данных, однако я довольно новичок в этом.
Пример данных выглядит следующим образом:
ColX ColY
apple orange
pear null
grapefruit pear
apple null
Желаемый результат будет выглядеть следующим образом:
ColX ColY Col_new
apple orange orange
pear null pear
grapefruit pear pear
apple null apple
Я пробовал несколько строк кода безрезультатно. Моя последняя попытка была следующей:
.withColumn("Col_new", col('ColX').select(coalesce('ColY')))
Любая помощь будет принята с благодарностью. Большое спасибо.