Ваш пример ветки в B согласно SSIS или Informatica и др. Невозможен в Spark.Вам нужно было бы «смоделировать» это, используя последовательные конкретные DataFrames, которые представляют такой шаг для действительно отдельных «путей» с фильтрами и преобразованиями, представленными withColumns, и «общим» таким набором для общего потока.Например, 1. a -> b, 2. c -> d, 3. c '-> d'.
В прошлом я нашел эту ссылку, которая должна дать вам хорошее представление о том, как этого добиться:https://medium.com/@mrpowers/how-to-write-spark-etl-processes-df01b0c1bec9