Подключение GCP к Hive через Pyspark - PullRequest
0 голосов
/ 03 августа 2020

Я получаю ошибку ниже, когда пытаюсь создать таблицу Hive с помощью моего pyspark job

pyspark.sql.utils.AnalysisException: u'org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:java.io.IOException: Error accessing Bucket xyz)

Более того, я указал ниже параметры -

.config("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem") \
                    .config("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS") \
                    .config("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem")\
                    .config("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS")\
                    .config("fs.gs.working.dir", "/")\
                    .config("fs.gs.path.encoding", "uri-path")\
                    .config("fs.gs.reported.permissions", "777")\
                    .config("google.cloud.auth.service.account.enable", "true")\
                    .config("google.cloud.auth.service.account.json.keyfile", JSON_KEY_FILE)

А также с с помощью учетной записи службы JSON, которую я могу записать в свою корзину GCP.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...