изменение размера контейнера hive tez из данных IBM с помощью соединителя JDB C занимает слишком много времени - PullRequest
0 голосов
/ 08 мая 2020

В кластере mapr с использованием механизма yarn и tez нам нужно запрашивать данные куста из datastage с помощью коннектора jdb c. В некоторых случаях нам нужно увеличить размер контейнера tez из-за размера данных. Мы делаем это в операторе before sql в параллельном задании, а затем запрашиваем данные в основном операторе задания.

Проблема в том, что предыдущий оператор sql SET hive.tez.container.size=3000 занимает несколько часов, но запрос данных выполняется нормально (несколько секунд).

Может ли это быть связано с тем, насколько загружен кластер в то время? много вакансий в очереди ?? Не думайте, потому что он всегда дает сбой в операторе set, но никогда в операторе select. Заранее спасибо!

1 Ответ

1 голос
/ 11 августа 2020

Я бы предложил использовать предоставленный IBM драйвер Hive JDB C и этап Hive Connector, который позволяет устанавливать параметры Hive с помощью встроенного свойства stage.

Когда задание DataStage выполняется медленно, это может быть для По нескольким причинам, из того, что вы говорите, установка hive.tez.container.size = 3000 в операторе перед sql - это то, что занимает несколько часов, я бы предложил посмотреть на стороне Hive DB при выполнении задания DataStage.

Если вы не используете предоставленный IBM драйвер Hive JDB C, то лучше воспользоваться официальной поддержкой стороннего драйвера Hive JDB C, чтобы включить трассировку драйвера JDB C.

...