Как sq oop большой стол от oracle db до hdfs? - PullRequest
0 голосов
/ 16 января 2020

Одна из моих Oracle таблиц содержит 265 миллионов записей, мне нужно извлечь sh эту таблицу из базы данных Oracle в hdfs, но в этой таблице нет первичного ключа / уникального столбца. Следовательно, я не могу использовать несколько картографов. Если я использую несколько картографических карт, я должен указать Split by column. Какой лучший способ для sq oop таблицы. Любые выводы приветствуются.

1 Ответ

0 голосов
/ 16 января 2020

Чтобы использовать несколько картографов, вам потребуется параметр --split-by. Лучше всего выбрать столбец, который не равен нулю во всех 265-метровых строках и равномерно распределен. Первичный ключ соответствует этим критериям, потому что он последовательный и во всех строках.

Любой столбец, который равномерно распределен по набору данных, может быть хорошим выбором для выбора --split-by. Опубликованная ссылка @yammanuruarun содержит аргумент --boundary-query, чтобы помочь ограничить работу, которую СУБД должна выполнить для возврата этих строк. Я предлагаю использовать последовательность Фиббоначи для вашего -m 1,2,3,5,8.

Также проверьте: Как найти оптимальное количество картографов при выполнении импорта Sq oop и экспорт

...