Для пользовательских версий hadoop вам необходимо получить свои собственные артефакты на локальных компьютерах и в файле spark tar, который распространяется по кластеру (обычно в HDFS), и загружен при развертывании рабочих (в YARN; нетидея о k8s)
Лучший способ сделать это надежно - это локально создать релиз Hadoop с новым номером версии и создать искру против этого.
dev/make-distribution.sh -Phive -Phive-thriftserver -Pyarn -Pkubernetes -Phadoop-3.1 -Phadoop-cloud -Dhadoop.version=2.9.3-SNAPSHOT
Это создаст искрудистрибутив с hadoop-aws и соответствующим SDK, который вы создали.
Это довольно медленно: запустите nailgun / цинк, если можете, для некоторого ускорения.Если вы ссылаетесь на версию, которая также есть в общедоступных репозиториях, есть большая вероятность того, что кешированные копии в вашем репозитории maven ~ / .m2 / repository проникли.
Затем: вызовите оболочку spark и выполните тестирование изтам, прежде чем пытаться выполнить более сложные настройки.
Наконец, есть некоторая открытая JIRA для s3guard, чтобы не беспокоиться о s3 vs s3a в URL.Это ваш патч?Если нет, это работает?мы могли бы получить его в будущих выпусках Hadoop, если люди, которые в этом нуждаются, счастливы