Предположим, у меня есть 4-5 ВСЕХ БОЛЬШИХ таблиц (данные в ТБ), и я хочу объединить их в улье. Насколько оптимально соединения будут выполняться внутри (в MapReduce) Hive.
Многие большие таблицы могут быть оптимально объединены с помощью Bucketized-Join или Sort-Merge-Join, см. Стратегии присоединения HIVE . Все таблицы должны быть соответствующим образом структурированы (с одинаковым разбивкой или отсортированы и с одинаковым разбивкой). Если ваши таблицы не организованы одинаково (с одинаковым разбивкой), тогда остается только вариант с произвольным объединением, при котором все таблицы копируются (медленно).