Удаление таблицы кустов и обработка запросов - PullRequest
0 голосов
/ 31 мая 2018

В соответствии с моим пониманием концепций Hive, если мы загрузим набор данных в таблицу кустов, файл данных будет перемещен из исходного пути в хранилище кустов в HDFS, а для HDFS было установлено три реплики для данных.

эти вопросы могут показаться глупыми, но поскольку я новичок, я хочу прояснить свои сомнения.

мои вопросы:

1) если я удалю таблицу кустов, удалит ли он файл данных из ульятолько в хранилище или вместе с двумя другими репликами из HDFS?

2) если мы обрабатываем запрос к таблице кустов, будет ли этот запрос выполняться как распределенная обработка?скажем, один файл данных имеет размер 1 ГБ (интерны 8 блоков x 128 МБ), и, поскольку у нас есть три коэффициента репликации, для этого файла будет доступно всего 24 блока, если наш запрос улья будет распределен по всем блокам данных или он будетобрабатывать только на ульях?

Заранее спасибо ..

1 Ответ

0 голосов
/ 31 мая 2018

Если вы выполните «загрузку пути к данным» по пути HDFS, данные будут перемещены из исходного пути к пути HDFS. Если вы «загрузите данные по локальному пути», вместо этого данные не будут перемещены с локального на путь HDFS.он копирует

По вашему вопросу. Если вы удаляете файл в HDFS, удаляются все реплики.

Если у вас есть файл размером 1 ГБ (8 блоков) с 3 коэффициентами репликации, при запуске запроса вУлей CLI, он преобразует ваш запрос в MR.Он обрабатывает только 8 блоков, в случае сбоя датодета сработавшего задания, он получает доступ ко 2-й реплике на другом узле и обрабатывает данные (спекулятивное выполнение)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...