Question

У нас есть требование, когда двум входящим DataSet / DataFrame нужно go через несколько операций (таких как join, groupby и т. Д. c), чтобы достичь конечного состояния.

Например, входящие фреймы данных df1 и df2:

df3 = df1.groupby("key")
df4 = df3.join(df2)
...

Позволяет сказать, что наконец df7 - это фрейм данных, который мне нужно отправить на writeStream.

Вопросы:

Есть ли способ достичь этого в структурированном потоке?
Какова основная причина не поддерживать это прямым способом?

PS: Я сталкивался с этим вопросом и возможным решением, используя flatMapGroupWithState: Несколько агрегаций в Spark Structured Streaming . Можете ли вы привести пример того, как можно выполнить вышеупомянутый сценарий, используя flatMapGroupWithState для моего первого вопроса, и мой второй вопрос не является частью ссылки выше.

Заранее спасибо

Почему не допускается многократное преобразование DataFrame (с несколькими операциями, такими как Joins, Groupby et c) в структурированном потоке?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Почему не допускается многократное преобразование DataFrame (с несколькими операциями, такими как Joins, Groupby et c) в структурированном потоке?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы