Ошибка возникает при попытке доступа к файловой системе (HdfsClientModule). Итак, я думаю, что вероятно, что Google Cloud Storage не имеет особой функции, которая требуется для Hadoop, и создание завершается неудачно после создания некоторых папок (первое изображение).
Как уже упоминалось ранее, лучше отказаться от идеи использовать GCS в качестве fs по умолчанию и оставить работу HDFS в Dataproc. Тем не менее, вы все равно можете воспользоваться преимуществами облачного хранилища, чтобы обеспечить постоянство, надежность и производительность данных, поскольку помните, что данные в HDFS удаляются при завершении работы кластера.
1.- С узла Dataproc вы можете получить доступ к данным с помощью команды hadoop, чтобы перемещать и выводить данные, например:
hadoop fs -ls gs://CONFIGBUCKET/dir/file
hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file
2.- Для доступа к данным из Spark или любого приложения Hadoop просто используйте префикс gs: // для доступа к вашему ведру.
Кроме того, если в помещении установлен соединитель Dataproc , это может помочь переместить данные HDFS в облачное хранилище и затем получить к ним доступ из кластера Dataproc.