Я хочу, чтобы куст Python UDF принимал постоянные аргументы в дополнение к данным из столбцов.
Как это может быть достигнуто?
В приведенном ниже примере я sh запрос куста ниже смогу принять аргумент '10000'
, а my_udf должен иметь возможность анализировать этот аргумент '10000'
# hive>
ADD FILE my_udf.py;
SELECT TRANSFORM(col1, col2, '10000') USING 'python my_udf.py' AS (udf_output) FROM my_table;
и
# my_udf.py
import sys
for line_str in sys.stdin:
line = line_str.strip().split('\t')
print(line[2]) # udf outputs the constant argument we inputted: 10000