Описанный сценарий может быть достигнут с помощью общего метастаза.Поскольку у вас уже есть внешнее хранилище метастазов, вы можете использовать его и для других кластеров.Обязательным условием является то, что версия Hive-Metastore для кластеров, обращающихся к этому метастару, одинакова.
Вы также можете изменить настройки основного сайта в шаблонах создания кластера, чтобы иметь одинаковую структуру файловой системы (если вы не используете полные имена учетных записей хранения):
"core-site": {
"fs.defaultFS": "adl://home",
"dfs.adls.home.hostname": "<your-datalake-store>.azuredatalakestore.net",
"dfs.adls.home.mountpoint": "/<your-adl-home-mountpoint-dir>",...
},
В Spark это будет сделано с помощью:
spark.conf.set("dfs.adls.home.hostname", "<your-datalake-store>.azuredatalakestore.net")
spark.conf.set("dfs.adls.home.mountpoint", "/<your-adl-home-mountpoint-dir>")
См. Также сообщение в блоге .
Проверьте также следующий ответ как получить доступ к HDInsight из pyspark (также "извне").