В моем наборе данных у меня есть 3 столбца
Столбец 1: Контекст -> dtype = String
Столбец 2: Utterance -> dtype = String
Столбец 3: Метка -> dtype = Int
При создании конвейера данных с использованием Apache Beam мне нужно написать preprocessing_fn, в котором мне нужно создать словарь, используя tft.Vocabulary (x), который принимает в качестве входных данных тензор x , Мой вопрос заключается в том, что я хочу создать комбинированный словарь из столбцов 1 и 2. Как мне объединить эти столбцы и передать их как один тензор в функцию tft.Vocabulary?
def preprocessing_fn(inputs):
"""Preprocess input columns into transformed columns."""
context = inputs[CONTEXT_KEY]
utterance = inputs[UTTERANCE_KEY]
z = context + utterance
tf.print(z,output_stream=sys.stdout)
context_vocab = tft.vocabulary(z, top_k=VOCAB_SIZE, frequency_threshold= 3,vocab_filename='anantvir_vocab')
return {
CONTEXT_KEY: context_vocab,
UTTERANCE_KEY: utterance,
LABEL_KEY: inputs[LABEL_KEY]
}