У меня есть датафрейм, показанный ниже:
+----------+--------------------------------+
| Index | flagArray |
+----------+--------------------------------+
| 1 | ['A','S','A','E','Z','S','S'] |
+----------+--------------------------------+
| 2 | ['A','Z','Z','E','Z','S','S'] |
+--------- +--------------------------------+
Я хочу представить элементы массива с соответствующими им числовыми значениями c.
A - 0
F - 1
S - 2
E - 3
Z - 4
Поэтому мой выходной фрейм данных должен выглядеть следующим образом
+----------+--------------------------------+--------------------------------+
| Index | flagArray | finalArray |
+----------+--------------------------------+--------------------------------+
| 1 | ['A','S','A','E','Z','S','S'] | [0, 2, 0, 3, 4, 2, 2] |
+----------+--------------------------------+--------------------------------+
| 2 | ['A','Z','Z','E','Z','S','S'] | [0, 4, 4, 3, 4, 2, 2] |
+--------- +--------------------------------+--------------------------------+
Я написал udf в pyspark, где я добился этого, написав некоторые операторы if else. Есть ли лучший способ справиться с тем же.