Как обновить статический фрейм данных с помощью потокового фрейма данных в структурированной потоковой передаче Spark - PullRequest
0 голосов
/ 26 октября 2018

У меня есть Static DataFrame с миллионами строк следующим образом.

Static DataFrame:

--------------
id|time_stamp|
--------------
|1|1540527851|
|2|1540525602|
|3|1530529187|
|4|1520529185|
|5|1510529182|
|6|1578945709|
--------------

Теперь в каждом пакете формируется Streaming DataFrameкоторый содержит id и обновленный time_stamp после некоторых операций, как показано ниже.

В первом пакете:

--------------
id|time_stamp|
--------------
|1|1540527888|
|2|1540525999|
|3|1530529784|
--------------

Теперь в каждом пакете я хочу обновить Static DataFrame с обновленными значениями Streaming Dataframeкак следует. Как это сделать?

Статический DF после первой партии:

--------------
id|time_stamp|
--------------
|1|1540527888|
|2|1540525999|
|3|1530529784|
|4|1520529185|
|5|1510529182|
|6|1578945709|
--------------

Я уже пробовал кроме (), union () или 'left_anti'присоединиться .Но, похоже, структурированная потоковая передача не поддерживает такие операции .

1 Ответ

0 голосов
/ 26 декабря 2018

Итак, я решил эту проблему с помощью метода AddBatch Spark 2.4.0, который охватывает потоковый Dataframe в мини-Batch Dataframes. Но для версии <2.4.0 это все еще головная боль. </p>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...