Передача параметров между действиями кустов в фабрике данных Azure - PullRequest
0 голосов
/ 11 октября 2019

У меня есть конвейер в фабрике данных Azure, в котором последовательность действий Hive связана одна за другой, и эта операция запускает сценарии HiveQL в кластере OnDemand HDInsights. Каждое действие Hive принимает в качестве входных данных некоторые параметры и выполняет некоторую бизнес-логику на основе значений, переданных в качестве входных данных, и необработанных данных, хранящихся в хранилище озера данных.

Теперь есть несколько сценариев HiveQL, которым необходимо изменить / обновить значения (входные параметры), и эти значения необходимо в дальнейшем передать следующему действию Hive.

Как мне достичь этого сценария? Как должен выглядеть мой сценарий HiveQL и как я могу извлечь выходные параметры из действия 1 Hive и передать его в качестве входных данных для другого действия Hive.

Чтобы решить вышеуказанную проблему, я создал таблицу внешнего куста (T_Variables), которая хранится в виде CSV с 2 столбцами (ключ, значение). Каждое занятие hive (скрипт HiveQL) вставляет / обновляет строку в таблице T_Variables. Но в HiveQL становится чрезвычайно сложно выбирать значения из T_Variables и использовать их там, где необходимо использовать значение конкретной переменной.

Есть ли какой-либо способ в фабрике данных Azure (любое действие), который может прочитать файл CSV и преобразовать его в параметры, которые можно передать в качестве входных данных для следующего действия улья?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...