Недостаточное количество отчетов узлов данных при создании кластера dataproc - PullRequest
0 голосов
/ 09 сентября 2018

При создании кластера dataproc с gs: // в качестве FS по умолчанию я получаю сообщение об ошибке «Недостаточное количество узлов данных». Ниже приведена команда, в которой я использую кластер dataproc.

gcloud dataproc clusters create cluster-538f --image-version 1.2 \
    --bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
    --master-machine-type n1-standard-1 --master-boot-disk-size 500 \
    --num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
    --scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
    --properties 'core:fs.default.name=gs://dataproc_bucket_test/'

Я проверил и подтвердил, что используемая корзина может создать папку по умолчанию в ней.

enter image description here

enter image description here

Ответы [ 2 ]

0 голосов
/ 15 сентября 2018

Ошибка возникает при попытке доступа к файловой системе (HdfsClientModule). Итак, я думаю, что вероятно, что Google Cloud Storage не имеет особой функции, которая требуется для Hadoop, и создание завершается неудачно после создания некоторых папок (первое изображение).

Как уже упоминалось ранее, лучше отказаться от идеи использовать GCS в качестве fs по умолчанию и оставить работу HDFS в Dataproc. Тем не менее, вы все равно можете воспользоваться преимуществами облачного хранилища, чтобы обеспечить постоянство, надежность и производительность данных, поскольку помните, что данные в HDFS удаляются при завершении работы кластера.

1.- С узла Dataproc вы можете получить доступ к данным с помощью команды hadoop, чтобы перемещать и выводить данные, например:

hadoop fs -ls gs://CONFIGBUCKET/dir/file 

hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file 

2.- Для доступа к данным из Spark или любого приложения Hadoop просто используйте префикс gs: // для доступа к вашему ведру.

Кроме того, если в помещении установлен соединитель Dataproc , это может помочь переместить данные HDFS в облачное хранилище и затем получить к ним доступ из кластера Dataproc.

0 голосов
/ 11 сентября 2018

Как предполагает Игорь, Dataproc не поддерживает GCS в качестве FS по умолчанию.Я также предлагаю сбросить это свойство.Обратите внимание, что свойство fs.default.name может быть передано отдельным заданиям и будет работать нормально.

...