Это правда, что все еще существуют известные проблемы из-за определенных зависимостей от фактической HDFS;Документы не предназначались для того, чтобы подразумевать, что установка fs.defaultFS на путь GCS во время создания кластера будет работать, а просто для того, чтобы предоставить удобный пример свойства, которое появляется в core-site.xml
;теоретически, например, будет работать fs.defaultFS
для другого существующего кластера HDFS.Я подал заявку на изменение примера в документации, чтобы избежать путаницы.
Два варианта:
- Просто переопределить
fs.defaultFS
во время отправки задания, используя свойства для каждого задания - Обойти некоторые из известных проблем, явно указав
fs.defaultFS
с использованием действия инициализации вместо свойств кластера.
Опция 1 лучше работает, поскольку победили зависимости HDFS на уровне кластеране меняется.Вариант 2 работает, потому что большинство несовместимостей возникает только во время первоначального запуска, а действия по инициализации запускаются после запуска соответствующих демонов.Чтобы переопределить настройку в действии инициализации, вы должны использовать bdconfig
:
bdconfig set_property \
--name 'fs.defaultFS' \
--value 'gs://my-bucket' \
--configuration_file /etc/hadoop/conf/core-site.xml \
--clobber