Импорт кустов с использованием sqoop из Mysql занимает слишком много времени - PullRequest
0 голосов
/ 05 января 2019

Я использую hive и sqoop поверх hadoop в Ubuntu 18.04.

Hadoop, sqoop и Hive работают должным образом, но всякий раз, когда я пытаюсь импортировать данные в созданную мной базу данных Hive, задание слишком долго останавливается.

Используемая команда Sqoop:

sqoop import \
--connect jdbc:mysql://localhost/project? \
--zeroDateTimeBehavior=CONVERT_TO_NULL \
--username hiveuser \
-P \
--table rooms \
-- hive-import \
--hive-database sqoop \
--hive-table room_info

1 Ответ

0 голосов
/ 06 января 2019

вы можете ускорить процесс, используя несколько картографов. для этого вам нужно найти столбец, в котором равномерно распределены данные, и использовать этот столбец как --split-by <column_name>, а также увеличить отображение с помощью опции -m <count>.

sqoop import \
--connect jdbc:mysql://localhost/project? \
--zeroDateTimeBehavior=CONVERT_TO_NULL \
--username hiveuser \
-P \
--table rooms \
-- hive-import \
--hive-database sqoop \
--hive-table room_info
--split-by <column_name>
-m 5

Пожалуйста, прочитайте следующую страницу, чтобы понять более подробно.

https://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html

особенно эта тема: 7.2.4. Управляющий параллелизм

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...