Импорт данных в Hdfs из AWS S3 с помощью Sqoop - PullRequest
0 голосов
/ 14 сентября 2018

Я использую distcp (для пакетных данных), чтобы получить данные из S3.

Но по данным сайта sqoop мы можем импортировать из s3 в hdfs. Я пытался, но каждый раз получаю ошибку для connection build error:

https://sqoop.apache.org/docs/1.99.7/user/examples/S3Import.html

Так, есть кто-нибудь, кто может сказать мне, как я могу сделать это прекрасно?

Кроме того, что я могу сделать для автоматической синхронизации добавочных данных.

1 Ответ

0 голосов
/ 16 сентября 2018

Вы можете вместо этого взглянуть на s3distcp. Смотри https://aws.amazon.com/blogs/big-data/seven-tips-for-using-s3distcp-on-amazon-emr-to-move-data-efficiently-between-hdfs-and-amazon-s3/

...