У меня есть два кадра данных в PySpark, скажем, A, B, структура которых выглядит как показано ниже.Я хочу обновить значение в столбце Dataframe A, используя значения поиска, найденные в Dataframe B. Есть ли в PySpark встроенная функция для достижения этого или мне нужно рекурсивно запустить pyspark.sql.functions.regexp_replace
?
DataFrame A Dataframe B Resultant
--------------- --------------- ---------------
| seqn | colB | | colX | colY | | colA | colB |
--------------- --------------- ---------------
| s1 | x,y,z| | p | c | | a | e,f,g |
| s2 | p,y,r| takes | r | d | ==> | a | c,f,g |
| s3 | y,z | value | x | e | | a | f,g |
| s4 | p,z | from | y | f | | a | c,g |
--------------- | z | g | ----------------
---------------