У меня есть конвейер в фабрике данных Azure, в котором последовательность действий Hive связана одна за другой, и эта операция запускает сценарии HiveQL в кластере OnDemand HDInsights. Каждое действие Hive принимает в качестве входных данных некоторые параметры и выполняет некоторую бизнес-логику на основе значений, переданных в качестве входных данных, и необработанных данных, хранящихся в хранилище озера данных.
Теперь есть несколько сценариев HiveQL, которым необходимо изменить / обновить значения (входные параметры), и эти значения необходимо в дальнейшем передать следующему действию Hive.
Как мне достичь этого сценария? Как должен выглядеть мой сценарий HiveQL и как я могу извлечь выходные параметры из действия 1 Hive и передать его в качестве входных данных для другого действия Hive.
Чтобы решить вышеуказанную проблему, я создал таблицу внешнего куста (T_Variables), которая хранится в виде CSV с 2 столбцами (ключ, значение). Каждое занятие hive (скрипт HiveQL) вставляет / обновляет строку в таблице T_Variables. Но в HiveQL становится чрезвычайно сложно выбирать значения из T_Variables и использовать их там, где необходимо использовать значение конкретной переменной.
Есть ли какой-либо способ в фабрике данных Azure (любое действие), который может прочитать файл CSV и преобразовать его в параметры, которые можно передать в качестве входных данных для следующего действия улья?