Создать внешнюю таблицу в Impala в каталоге Parquet с несколькими файлами паркета с различными схемами - PullRequest
0 голосов
/ 25 октября 2018

В Spark мы можем читать несколько файлов паркета с разными схемами, установив для параметра mergedSchema значение true.Есть ли подобная функциональность в Impala, которая позволяет нам указывать Внешнюю таблицу на каталог, содержащий несколько файлов паркета с разной схемой?

Пример: у нас есть каталог MEDICAL.parquet, под ним у нас есть два подкаталога: data_supplier_id = 140060 и data_supplier_id = 140059, в каждом из этих подкаталогов у нас есть другие подкаталоги для каждого файла, такие какfile_uuid = vwefvkn-dfw16563e-qebebebeb, тогда в каждом из этих каталогов file_uuid = ... у нас есть фактические файлы паркета, которые каждый file_uuid = ... может потенциально иметь различную схему.

В Spark мы простонаправьте искру в каталог верхнего уровня (в данном случае Medical.parquet), и он прочитает все данные в нем в одном наборе данных.

Есть ли в Impala способ указать его на файл MEDICAL.parquet при создании внешней таблицы и загрузить в нее все данные?вместо создания внешней таблицы в каждом каталоге file_uuid = ....

...