Не удается создать кластер Dataproc при установке свойства fs.defaultFS? - PullRequest
0 голосов
/ 20 февраля 2019

Это уже было предметом обсуждения в предыдущем посте , однако я не убежден в ответах, поскольку Google docs указывает, что можно создать настройку кластерасвойство fs.defaultFS.Более того, даже если возможно установить это свойство программно, иногда удобнее установить его из командной строки.

Итак, я хотел бы знать, почему не работает следующая опция при передаче моей команде создания кластера: --properties core:fs.defaultFS=gs://my-bucket?Обратите внимание, что я не включил все параметры, так как я выполнил команду без предыдущего флага, и он успешно создал кластер.Тем не менее, при прохождении этого я получаю: «ошибка: не удается запустить мастер: недостаточное количество отчетов узлов данных».

Если кому-то удалось создать кластер dataproc, установив fs.defaultFS, что было бы здорово?Благодаря.

1 Ответ

0 голосов
/ 20 февраля 2019

Это правда, что все еще существуют известные проблемы из-за определенных зависимостей от фактической HDFS;Документы не предназначались для того, чтобы подразумевать, что установка fs.defaultFS на путь GCS во время создания кластера будет работать, а просто для того, чтобы предоставить удобный пример свойства, которое появляется в core-site.xml;теоретически, например, будет работать fs.defaultFS для другого существующего кластера HDFS.Я подал заявку на изменение примера в документации, чтобы избежать путаницы.

Два варианта:

  1. Просто переопределить fs.defaultFS во время отправки задания, используя свойства для каждого задания
  2. Обойти некоторые из известных проблем, явно указав fs.defaultFS с использованием действия инициализации вместо свойств кластера.

Опция 1 лучше работает, поскольку победили зависимости HDFS на уровне кластеране меняется.Вариант 2 работает, потому что большинство несовместимостей возникает только во время первоначального запуска, а действия по инициализации запускаются после запуска соответствующих демонов.Чтобы переопределить настройку в действии инициализации, вы должны использовать bdconfig:

bdconfig set_property \
    --name 'fs.defaultFS' \
    --value 'gs://my-bucket' \
    --configuration_file /etc/hadoop/conf/core-site.xml \
    --clobber
...