У меня есть фрейм данных (df) , а внутри фрейма данных у меня есть столбец user_id
df = sc.parallelize([(1, "not_set"),
(2, "user_001"),
(3, "user_002"),
(4, "n/a"),
(5, "N/A"),
(6, "userid_not_set"),
(7, "user_003"),
(8, "user_004")]).toDF(["key", "user_id"])
df:
+---+--------------+
|key| user_id|
+---+--------------+
| 1| not_set|
| 2| user_003|
| 3| user_004|
| 4| n/a|
| 5| N/A|
| 6|userid_not_set|
| 7| user_003|
| 8| user_004|
+---+--------------+
Я хотел бы заменить следующие значения: not_set, n / a, N / A и userid_not_set на null.
Было бы хорошо, если бы я мог добавить любые новые значения в списоки они могут быть изменены.
В настоящее время я использую оператор CASE в spark.sql , чтобы предварительно преобразовать это, и хотел бы изменить его на pyspark.