Работа с большими таблицами, как вы описали, означает изменение некоторых дополнительных параметров, таких как map, и уменьшение памяти и кучи Java Max.Я поделился некоторыми конфигурациями для таблиц, не слишком больших, но это оптимизирует время обработки.
import -Dmapreduce.map.memory.mb=4096 -Dmapreduce.job.heap.memory-mb.ratio=0.8 -Dmapreduce.map.java.opts.max.heap=3355443200 -Dmapreduce.map.java.opts=-Xmx3g
PD: я использую Sqoop 1, а также рекомендую проверить Sqoop Documentation , чтобы узнать большеподробности об этих параметрах.