Как объединить два категориальных столбца внутри preprocessing_fn в преобразовании Тенсорфа? - PullRequest
0 голосов
/ 13 марта 2020

В моем наборе данных у меня есть 3 столбца

Столбец 1: Контекст -> dtype = String

Столбец 2: Utterance -> dtype = String

Столбец 3: Метка -> dtype = Int

При создании конвейера данных с использованием Apache Beam мне нужно написать preprocessing_fn, в котором мне нужно создать словарь, используя tft.Vocabulary (x), который принимает в качестве входных данных тензор x , Мой вопрос заключается в том, что я хочу создать комбинированный словарь из столбцов 1 и 2. Как мне объединить эти столбцы и передать их как один тензор в функцию tft.Vocabulary?

def preprocessing_fn(inputs):
            """Preprocess input columns into transformed columns."""
            context = inputs[CONTEXT_KEY]
            utterance = inputs[UTTERANCE_KEY]
            z = context + utterance
            tf.print(z,output_stream=sys.stdout)
            context_vocab = tft.vocabulary(z, top_k=VOCAB_SIZE, frequency_threshold= 3,vocab_filename='anantvir_vocab')

            return {
                CONTEXT_KEY: context_vocab,
                UTTERANCE_KEY: utterance,
                LABEL_KEY: inputs[LABEL_KEY]
            }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...