Внешний поиск Искровой поток - PullRequest
0 голосов
/ 09 мая 2018

У меня есть поток данных, поступающих из таблицы mysql в kafka в мою программу spark. Когда вставляется новая строка, я выполняю преобразования в потоке и сохраняю в cassandra.

Моя проблема в том, что при обновлении строки я хотел бы объединить преобразования, которые я сделал ранее, когда строка была создана, и новое обновление. Я понимаю, что у меня есть возможность использования потоковых соединителей и коннекторов базы данных, может кто-нибудь объяснить, какие у меня есть варианты, когда мне нужно выполнить внешний поиск.

1 Ответ

0 голосов
/ 09 мая 2018

Я полагаю, вы спрашиваете, как обрабатывать мутации данных в Spark Streaming в дополнение к структурированной потоковой передаче?

Для внешнего поиска существует большое разнообразие хранилищ данных, доступных для использования в сочетании с Spark. Я создал своего рода главный список здесь некоторое время назад. Насколько я знаю, SnappyData является единственным, который позволяет выполнять мутации данных в самом DataFrame .

Отказ от ответственности: я работаю на SnappyData

...