Отвечает ли принцип Hadoop локальности данных при использовании s3 в качестве хранилища данных с Hive - PullRequest
0 голосов
/ 06 марта 2019

Я использую S3 в качестве хранилища данных и создаю внешние таблицы Hive, определяющие местоположение данных, хранящихся в S3. Что мне интересно, так это то, что всякий раз, когда я запрашиваю Hive, данные, хранящиеся на S3, передаются на узлы кластера Hadoop для обработки? Если да, то это означает, что мы теряем принцип локальности данных Hadoop, и обработка будет очень медленной (по сравнению с использованием HDFS вместо S3), так как большой объем данных будет перемещаться с узлов кластера H3 для обработки

Может кто-нибудь, пожалуйста, просветите меня об этом?

...