Можно ли использовать Sqoop для выполнения объединений в ИМПОРТЕ? - PullRequest
0 голосов
/ 25 февраля 2019

Мне недавно задали этот вопрос, где я описывал сценарий использования, который включал множественные объединения, в дополнение к некоторой обработке, которую я реализовал в Spark, вопрос состоял в том, не могли ли объединения быть выполнены при импорте данных в HDFS с использованиемSqoop?Я хотел понять с архитектурной точки зрения, целесообразно ли реализовывать объединения в Sqoop, даже если это возможно.

Ответы [ 4 ]

0 голосов
/ 06 марта 2019

Инструмент импорта Sqoop поддерживает объединение.Он может быть заархивирован с помощью опции --query (не используйте эту опцию с --table / --column).

0 голосов
/ 25 февраля 2019

Можно делать соединения в импорте sqoop.

С точки зрения архитектуры, в зависимости от вашего варианта использования, sqoop в основном используется для быстрого импорта / экспорта.Все это можно сделать с помощью spark / pig / hive / impala.

Хотя это выполнимо, я бы рекомендовал этого не делать, поскольку это повысит эффективность вашей работы и увеличит нагрузку на ваш источник вычислений.Объединения / агрегации, а также sqoop изначально были предназначены для использования в качестве инструмента для структурированных источников.

0 голосов
/ 25 февраля 2019

Вы можете использовать:

  • представление в СУБД, где чтение из использования sqoop eval для задания параметров в БД, опционально.
  • произвольный SQL для sqoop, если JOIN определен

Однако представления с JOIN не могут использоваться для инкрементального импорта.

Возможность использования запроса в свободной форме в текущей версии Sqoop ограничена простыми запросами, где естьнет никаких двусмысленных проекций и никаких условий ИЛИ в предложении WHERE.Использование сложных запросов, таких как запросы, которые имеют подзапросы или объединения, приводящие к неоднозначным прогнозам, может привести к неожиданным результатам.

0 голосов
/ 25 февраля 2019

Это зависит от инфраструктуры вашего конвейера данных, если вы используете Spark для каких-то других целей, тогда будет лучше использовать тот же Spark для импорта данных.Поддержка Sqoop присоединиться и будет достаточно, если вам нужно только импортировать данные и ничего больше.Надеюсь, что это отвечает на ваш запрос.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...