У нас есть требование, когда двум входящим DataSet / DataFrame нужно go через несколько операций (таких как join, groupby и т. Д. c), чтобы достичь конечного состояния.
Например, входящие фреймы данных df1
и df2
:
df3 = df1.groupby("key")
df4 = df3.join(df2)
...
Позволяет сказать, что наконец df7
- это фрейм данных, который мне нужно отправить на writeStream
.
Вопросы:
- Есть ли способ достичь этого в структурированном потоке?
- Какова основная причина не поддерживать это прямым способом?
PS: Я сталкивался с этим вопросом и возможным решением, используя flatMapGroupWithState
: Несколько агрегаций в Spark Structured Streaming . Можете ли вы привести пример того, как можно выполнить вышеупомянутый сценарий, используя flatMapGroupWithState
для моего первого вопроса, и мой второй вопрос не является частью ссылки выше.
Заранее спасибо