В соответствии с моим пониманием концепций Hive, если мы загрузим набор данных в таблицу кустов, файл данных будет перемещен из исходного пути в хранилище кустов в HDFS, а для HDFS было установлено три реплики для данных.
эти вопросы могут показаться глупыми, но поскольку я новичок, я хочу прояснить свои сомнения.
мои вопросы:
1) если я удалю таблицу кустов, удалит ли он файл данных из ульятолько в хранилище или вместе с двумя другими репликами из HDFS?
2) если мы обрабатываем запрос к таблице кустов, будет ли этот запрос выполняться как распределенная обработка?скажем, один файл данных имеет размер 1 ГБ (интерны 8 блоков x 128 МБ), и, поскольку у нас есть три коэффициента репликации, для этого файла будет доступно всего 24 блока, если наш запрос улья будет распределен по всем блокам данных или он будетобрабатывать только на ульях?
Заранее спасибо ..