Как использовать Hive Caching между двумя очень похожими запросами - PullRequest
0 голосов
/ 12 июня 2019

Я выполняю запросы улья через искровое задание. Теперь каждое искровое задание выполняет 1 конкретный шаг, который включает в себя выполнение запроса улья и обновление коллекции монго.

Один конкретный вариант использования, над которым я работаю, требует обновления двух коллекций монго. Это означает, что мне нужно написать два спарк-шага, где первый шаг вычисляет статистику и вставляет в collection1, а второй шаг обновляет collection2 по состоянию.

Оба запроса состоят из 12 CTE с 11 CTE, одинаковыми, за исключением последнего, который подготавливает выходные данные.

У меня вопрос, есть ли способ кэшировать результат запроса между двумя шагами искры?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...