Как объединить в HDFS 2 таблицы, из которых 1 мала для хранения в ОЗУ узла в кластере? - PullRequest
0 голосов
/ 23 мая 2019

У меня есть следующие таблицы в HDFS / Hive:

  • Один стол, например D, который достаточно мал для хранения в оперативной памяти одного вычислительного узла в кластере
  • Другая таблица, например E, который намного больше, чем D (E превышает среднее ОЗУ узла кластера)

Исходя из вышеизложенного, и поскольку я новичок в HDFS, у меня есть следующие вопросы:

  1. Какое влияние имеет наличие таких таблиц, как указано выше, в HDFS / Hive?
  2. Как я могу написать эффективный запрос в Hive, который оптимизирует соединение между D и E (INNER JOIN over D.key = E.key), предполагая, что запрос возвращает D.value и E.value?

Заранее спасибо.

...