Как использовать Keras Tokenizer для персонажей? - PullRequest
0 голосов
/ 04 мая 2020

Для задачи маркировки последовательности мои обучающие данные и метки выглядят следующим образом:

train_data=[['p','l','a','y','s']

train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]

Как я могу использовать токенизатор и генерировать представление для каждой последовательности в моих данных. Традиционный токенизатор игнорирует метки, такие как <p>. Он создает только словарь стандартных символов.

1 Ответ

0 голосов
/ 04 мая 2020

Если я правильно понял ваш вопрос, это должно сработать. Если я ошибаюсь, дайте мне знать, чтобы я мог соответственно отредактировать ответ

from keras.preprocessing.text import Tokenizer
tk = Tokenizer(num_words=None, char_level=True)
tk.fit_on_texts(texts)

Где texts - это место, где находятся фактические тексты.

Вы можете проверить словарь, используя

tk.word_index
...