У меня есть следующие таблицы в HDFS / Hive:
- Один стол, например D, который достаточно мал для хранения в оперативной памяти одного вычислительного узла в кластере
- Другая таблица, например E, который намного больше, чем D (E превышает среднее ОЗУ узла кластера)
Исходя из вышеизложенного, и поскольку я новичок в HDFS, у меня есть следующие вопросы:
- Какое влияние имеет наличие таких таблиц, как указано выше, в HDFS / Hive?
- Как я могу написать эффективный запрос в Hive, который оптимизирует соединение между D и E (INNER JOIN over D.key = E.key), предполагая, что запрос возвращает D.value и E.value?
Заранее спасибо.