Почему не допускается многократное преобразование DataFrame (с несколькими операциями, такими как Joins, Groupby et c) в структурированном потоке? - PullRequest
0 голосов
/ 04 мая 2020

У нас есть требование, когда двум входящим DataSet / DataFrame нужно go через несколько операций (таких как join, groupby и т. Д. c), чтобы достичь конечного состояния.

Например, входящие фреймы данных df1 и df2:

df3 = df1.groupby("key")
df4 = df3.join(df2)
...

Позволяет сказать, что наконец df7 - это фрейм данных, который мне нужно отправить на writeStream.

Вопросы:

  1. Есть ли способ достичь этого в структурированном потоке?
  2. Какова основная причина не поддерживать это прямым способом?

PS: Я сталкивался с этим вопросом и возможным решением, используя flatMapGroupWithState: Несколько агрегаций в Spark Structured Streaming . Можете ли вы привести пример того, как можно выполнить вышеупомянутый сценарий, используя flatMapGroupWithState для моего первого вопроса, и мой второй вопрос не является частью ссылки выше.

Заранее спасибо

...