Модуль предварительной обработки текста Keras возвращает недопустимые символы Unicode в слове index - PullRequest
0 голосов
/ 18 марта 2019

Я пытаюсь токенизировать свой текстовый файл в кодировке UTF-8.Кажется, что все в порядке перед запуском команды для токенизации и размещения по тексту.Как мне эффективно обрабатывать эти символы Юникода?Есть ли ошибка в коде Keras для обработки символов Unicode.

Я использую: Python 2.7, предварительная обработка Keras 1.0.2

# Create vocabulary with training texts.

tokenizer = text.Tokenizer(num_words=TOP_K)

tokenizer.fit_on_texts(train_texts)

# Vectorize training and validation texts.

x_train = tokenizer.texts_to_sequences(train_texts)

x_val = tokenizer.texts_to_sequences(val_texts)

Это результат, который я получаю - After tokenizing the original text

Любая помощь приветствуется Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...