Я пытаюсь токенизировать свой текстовый файл в кодировке UTF-8.Кажется, что все в порядке перед запуском команды для токенизации и размещения по тексту.Как мне эффективно обрабатывать эти символы Юникода?Есть ли ошибка в коде Keras для обработки символов Unicode.
Я использую: Python 2.7, предварительная обработка Keras 1.0.2
# Create vocabulary with training texts.
tokenizer = text.Tokenizer(num_words=TOP_K)
tokenizer.fit_on_texts(train_texts)
# Vectorize training and validation texts.
x_train = tokenizer.texts_to_sequences(train_texts)
x_val = tokenizer.texts_to_sequences(val_texts)
Это результат, который я получаю - 
Любая помощь приветствуется Спасибо!