Я использую Sqoop для импорта таблиц оракула в HDFS.
У меня около 50 таблиц для импорта, и из 50 таблиц 10-15 таблиц слишком велики (около 50 ГБ).
В первый раз я хочу импортировать их как полную загрузку, а после этого я буду импортировать только инкрементные данные.
В настоящее время я подготовил 2 сценария оболочки следующим образом: - 1. Скрипт для полного дампа (Ежедневно будет выполняться полный дамп) 2. Скрипт для инкрементальных данных (поскольку я уже выполнил полный дамп, теперь он будет получать только инкрементные данные).
И я запланировал эти 2 сценария в определенное время, скажем, в 7:00.
Оба сценария работают нормально, но, как вы можете видеть, он будет параллельно выполнять только два задания sqoop.
Но я хочу запускать 4 задания sqoop одновременно, чтобы получить больше параллелизма.
Итак, как я могу добиться большего параллелизма, выполняя более 2 заданий sqoop параллельно.
Любая помощь в этом отношении будет высоко оценена.
Вот пример моейВсе сценарии: -
sqoop job --exec sqoop_job1
sqoop job --exec sqoop_job2