Question

При создании кластера dataproc с gs: // в качестве FS по умолчанию я получаю сообщение об ошибке «Недостаточное количество узлов данных». Ниже приведена команда, в которой я использую кластер dataproc.

gcloud dataproc clusters create cluster-538f --image-version 1.2 \
    --bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
    --master-machine-type n1-standard-1 --master-boot-disk-size 500 \
    --num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
    --scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
    --properties 'core:fs.default.name=gs://dataproc_bucket_test/'

Я проверил и подтвердил, что используемая корзина может создать папку по умолчанию в ней.

rsantiago · Answer 1 · 15 сентября 2018

Ошибка возникает при попытке доступа к файловой системе (HdfsClientModule). Итак, я думаю, что вероятно, что Google Cloud Storage не имеет особой функции, которая требуется для Hadoop, и создание завершается неудачно после создания некоторых папок (первое изображение).

Как уже упоминалось ранее, лучше отказаться от идеи использовать GCS в качестве fs по умолчанию и оставить работу HDFS в Dataproc. Тем не менее, вы все равно можете воспользоваться преимуществами облачного хранилища, чтобы обеспечить постоянство, надежность и производительность данных, поскольку помните, что данные в HDFS удаляются при завершении работы кластера.

1.- С узла Dataproc вы можете получить доступ к данным с помощью команды hadoop, чтобы перемещать и выводить данные, например:

hadoop fs -ls gs://CONFIGBUCKET/dir/file 

hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file

2.- Для доступа к данным из Spark или любого приложения Hadoop просто используйте префикс gs: // для доступа к вашему ведру.

Кроме того, если в помещении установлен соединитель Dataproc , это может помочь переместить данные HDFS в облачное хранилище и затем получить к ним доступ из кластера Dataproc.

tix · Answer 2 · 11 сентября 2018

Как предполагает Игорь, Dataproc не поддерживает GCS в качестве FS по умолчанию.Я также предлагаю сбросить это свойство.Обратите внимание, что свойство fs.default.name может быть передано отдельным заданиям и будет работать нормально.

Недостаточное количество отчетов узлов данных при создании кластера dataproc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Недостаточное количество отчетов узлов данных при создании кластера dataproc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы