Question

Я пытаюсь токенизировать свой текстовый файл в кодировке UTF-8.Кажется, что все в порядке перед запуском команды для токенизации и размещения по тексту.Как мне эффективно обрабатывать эти символы Юникода?Есть ли ошибка в коде Keras для обработки символов Unicode.

Я использую: Python 2.7, предварительная обработка Keras 1.0.2

# Create vocabulary with training texts.

tokenizer = text.Tokenizer(num_words=TOP_K)

tokenizer.fit_on_texts(train_texts)

# Vectorize training and validation texts.

x_train = tokenizer.texts_to_sequences(train_texts)

x_val = tokenizer.texts_to_sequences(val_texts)

Это результат, который я получаю -

Любая помощь приветствуется Спасибо!

Модуль предварительной обработки текста Keras возвращает недопустимые символы Unicode в слове index

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Модуль предварительной обработки текста Keras возвращает недопустимые символы Unicode в слове index

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов