Hive - Как Hive выполняет несколько запросов на объединение больших таблиц (в MapReduce) внутри и как его оптимизировать? - PullRequest
0 голосов
/ 27 июня 2018

Предположим, у меня есть 4-5 ВСЕХ БОЛЬШИХ таблиц (данные в ТБ), и я хочу объединить их в улье. Насколько оптимально соединения будут выполняться внутри (в MapReduce) Hive.

1 Ответ

0 голосов
/ 27 июня 2018

Многие большие таблицы могут быть оптимально объединены с помощью Bucketized-Join или Sort-Merge-Join, см. Стратегии присоединения HIVE . Все таблицы должны быть соответствующим образом структурированы (с одинаковым разбивкой или отсортированы и с одинаковым разбивкой). Если ваши таблицы не организованы одинаково (с одинаковым разбивкой), тогда остается только вариант с произвольным объединением, при котором все таблицы копируются (медленно).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...