Проблема с подключением к hdfs с помощью облачной оболочки - PullRequest
1 голос
/ 30 сентября 2019

Мне довольно сложно получить доступ к моей файловой системе данных hadoop с помощью облачной оболочки Google ( Я создал кластер на Google Cloud Platform только для изучения ).

Общий 'hdfs dfs -ls ' или ' hadoop fs -ls gs: // ', похоже, не работает, и я делал довольноно пробных ошибок, чтобы выяснить, как. Кто-нибудь может мне помочь в этом? Спасибо:)

Ответы [ 2 ]

2 голосов
/ 30 сентября 2019

Вы можете использовать Соединитель облачного хранилища , который обеспечивает реализацию абстракции FileSystem и доступен в различных версиях HDP, чтобы облегчить доступ к GCS, и тогда вы сможете использовать 'hadoop fs -ls gs: // CONFIGBUCKET / dir / file 'в оболочке hadoop. Пожалуйста, проверьте этот учебник, а также убедитесь, что вы правильно настроили доступ к Google Cloud Storage .

0 голосов
/ 01 октября 2019

Самый простой способ получить доступ к HDFS через Hadoop CLI - это использовать SSH на главном узле кластера Dataproc и использовать там утилиты CLI:

gcloud compute ssh ${DATAPROC_CLUSTER_NAME}-m
hdfs dfs -ls
hadoop fs -ls gs:/

Он не работает в Cloud Shell, потому что у него нетПредустановленные утилиты Hadoop CLI.

...