Перемещение данных из видов улья в aws s3 - PullRequest
2 голосов
/ 20 сентября 2019

Привет, есть ли способы, которыми мы могли бы переместить данные из видов улья в S3?Для таблиц я использую distcp, но так как представления не имеют данных, находящихся в папке HDFS, я не смог выполнить distcp, и у меня нет доступа к таблицам, используемым при создании представлений.Если я сделаю CTAS из вида, я не буду получать последние данные из вида, когда они были обновлены.Есть ли другие способы, кроме создания таблицы из представления и выполнения distcp?Пожалуйста, помогите спасибо заранее.

Ответы [ 2 ]

2 голосов
/ 26 сентября 2019

Лучшим вариантом было бы написать программу spark, которая будет загружать данные из вашего представления / таблицы с использованием контекста улья и записывать обратно в S3 в требуемом формате, таком как parquet / orc / csv / json

0 голосов
/ 27 сентября 2019

Один из подходов, который вы можете использовать, - это скопировать стандартные выходные данные Hive Stream Data в S3 с помощью интерфейса командной строки AWS S3 (CLI).

Вот пример кода.

beeline -u jdbc:hive2://192.168.0.41:10000/test_db -n user1 -p password --outputformat=csv2 -e "select * from t1_view" | aws s3 cp - s3://testbucket/upload/test_view.txt

Обратите внимание, для использования этого метода необходимо установить AWS S3 CLI .

...