Я создал кластер EMR с Glue Data Catalog, и это здорово, что я вижу постоянные хранилища данных в Hive и Presto, которые размещены на S3.
Однако я заметил, что если я создаю новые таблицы в Hive (сохраняя данные в HDFS внутри кластера), они автоматически становятся доступными в Glue Data Catalog - хотя они бесполезны, поскольку ссылаются на IP-адреса внутри кластера.
Похоже, что GDC является Hive Metastore для кластера. Есть ли обходной путь, когда я могу вызвать второе метастор для таблиц, размещенных на HDFS?