Google DataProc Presto: как записать результаты запроса Presto в облачное хранилище Google? - PullRequest
3 голосов
/ 04 мая 2019

У меня есть кластер DataProc с Presto, установленным в качестве дополнительного компонента. Мои данные хранятся в облачном хранилище Google (GCS), и я могу запросить их с помощью Presto. Однако я не нашел способа записать результат запроса обратно в GCS. Я могу писать в hdfs, если я вошел в мастер-узел и запускаю оттуда команды Presto, но он не распознает местоположение GCS.

Как мне записать результаты запроса Presto в GCS?

1 Ответ

2 голосов
/ 04 мая 2019

Вам необходимо создать внешнюю таблицу Hive на основе GCS, например:

gcloud dataproc jobs submit hive \
    --cluster <cluster> \
    --execute "
        CREATE EXTERNAL TABLE my_table(id  INT, name  STRING)
        STORED AS PARQUET
        location 'gs://<bucket>/<dir>/';"

затем вставьте результат запроса Presto в таблицу.

...