Встроенная функция для замены всех вхождений значения в данном столбце значением из столбца другого фрейма данных - PullRequest
0 голосов
/ 03 октября 2018

У меня есть два кадра данных в PySpark, скажем, A, B, структура которых выглядит как показано ниже.Я хочу обновить значение в столбце Dataframe A, используя значения поиска, найденные в Dataframe B. Есть ли в PySpark встроенная функция для достижения этого или мне нужно рекурсивно запустить pyspark.sql.functions.regexp_replace?

DataFrame A               Dataframe B             Resultant
---------------           ---------------       --------------- 
| seqn | colB |           | colX | colY |       | colA | colB  |  
---------------           ---------------       ---------------
| s1   | x,y,z|           | p    | c    |       | a    | e,f,g |
| s2   | p,y,r|  takes    | r    | d    |  ==>  | a    | c,f,g |
| s3   | y,z  |  value    | x    | e    |       | a    | f,g   |
| s4   | p,z  |  from     | y    | f    |       | a    | c,g   |
---------------           | z    | g    |       ---------------- 
                          ---------------
...