Экспорт Sqoop на 100 миллионов записей быстрее - PullRequest
0 голосов
/ 22 сентября 2018

У меня есть запрос, подобный приведенному ниже

sqoop export 
    --connect jdbc:teradata://server/database=BIGDATA 
    --username dbuser 
    --password dbpw 
    -Dsqoop.export.records.per.statement=500
    --batch 
    --hive-table country
    --table COUNTRY
    --input-null-non-string '\\N' \ --input-null-string '\\N'  

Приведенный выше запрос работает нормально для 3 миллионов записей (для загрузки данных в таблицу TeraData требуется 1 час).Я думаю, что для экспорта 100 миллионов записей в пустую таблицу Teradata может потребоваться больше времени для завершения экспорта.Как я могу эффективно написать запрос, чтобы экспортировать данные быстрее, без сбоев запроса?

1 Ответ

0 голосов
/ 25 сентября 2018

Возможно, вы захотите увеличить --fetch-size (количество записей, которые sqoop должен извлечь для каждой порции данных) со значения по умолчанию 1000 до e.g --fetch-size 10000 0r 20000 в зависимости от доступной памяти, а также от вашейпропускная способность среды.

...