Question

В моем наборе данных у меня есть 3 столбца

Столбец 1: Контекст -> dtype = String

Столбец 2: Utterance -> dtype = String

Столбец 3: Метка -> dtype = Int

При создании конвейера данных с использованием Apache Beam мне нужно написать preprocessing_fn, в котором мне нужно создать словарь, используя tft.Vocabulary (x), который принимает в качестве входных данных тензор x , Мой вопрос заключается в том, что я хочу создать комбинированный словарь из столбцов 1 и 2. Как мне объединить эти столбцы и передать их как один тензор в функцию tft.Vocabulary?

def preprocessing_fn(inputs):
            """Preprocess input columns into transformed columns."""
            context = inputs[CONTEXT_KEY]
            utterance = inputs[UTTERANCE_KEY]
            z = context + utterance
            tf.print(z,output_stream=sys.stdout)
            context_vocab = tft.vocabulary(z, top_k=VOCAB_SIZE, frequency_threshold= 3,vocab_filename='anantvir_vocab')

            return {
                CONTEXT_KEY: context_vocab,
                UTTERANCE_KEY: utterance,
                LABEL_KEY: inputs[LABEL_KEY]
            }

Как объединить два категориальных столбца внутри preprocessing_fn в преобразовании Тенсорфа?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как объединить два категориальных столбца внутри preprocessing_fn в преобразовании Тенсорфа?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы