CubaDest 23 мая 2019 16

Как объединить в HDFS 2 таблицы, из которых 1 мала для хранения в ОЗУ узла в кластере?

CubaDest / 23 мая 2019

У меня есть следующие таблицы в HDFS / Hive:

Один стол, например D, который достаточно мал для хранения в оперативной памяти одного вычислительного узла в кластере
Другая таблица, например E, который намного больше, чем D (E превышает среднее ОЗУ узла кластера)

Исходя из вышеизложенного, и поскольку я новичок в HDFS, у меня есть следующие вопросы:

Какое влияние имеет наличие таких таблиц, как указано выше, в HDFS / Hive?
Как я могу написать эффективный запрос в Hive, который оптимизирует соединение между D и E (INNER JOIN over D.key = E.key), предполагая, что запрос возвращает D.value и E.value?

Заранее спасибо.

...