У меня есть датафрейм в искре, и я хочу вручную отобразить значения одного из столбцов:
Col1
Y
N
N
Y
N
Y
Я хочу, чтобы "Y" был равен 1, а "N" был равен 0, например:
Col1
1
0
0
1
0
1
Я пробовал StringIndexer, но я думаю, что он случайным образом кодирует категориальные данные. (Я не уверен)
Эквивалент Python для этого:
df["Col1"] = df["Col1"].map({"Y": 1, "N": 0})
Подскажите, пожалуйста, как мне этого добиться в Pyspark?