2 основных вопроса, которые меня беспокоят:
- Как я могу быть уверен, что каждый из 32 файлов куста, используемый для хранения моих таблиц, находится на своей уникальной машине?
- Если этослучается, как я могу быть уверен, что если улей создаст 32 картографа, каждый из них будет работать со своими локальными данными?Гарантирует ли hadoop / hdfs это волшебство, или hive, как умное приложение, гарантирует, что это произойдет?
Справочная информация: у меня кластер кустов из 32 машин и:
- Все мои таблицы созданы с помощью
"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
- Я использую
hive.enforce.bucketing = true;
- Я проверил, и действительно каждая таблица хранится в виде 32 файлов в файле user / hive / warehouse
- Я использую коэффициент репликации HDFS 2
Спасибо!