Question

Для задачи маркировки последовательности мои обучающие данные и метки выглядят следующим образом:

train_data=[['p','l','a','y','s']

train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]

Как я могу использовать токенизатор и генерировать представление для каждой последовательности в моих данных. Традиционный токенизатор игнорирует метки, такие как <p>. Он создает только словарь стандартных символов.

DallaRosa · Answer 1 · 04 мая 2020

Если я правильно понял ваш вопрос, это должно сработать. Если я ошибаюсь, дайте мне знать, чтобы я мог соответственно отредактировать ответ

from keras.preprocessing.text import Tokenizer
tk = Tokenizer(num_words=None, char_level=True)
tk.fit_on_texts(texts)

Где texts - это место, где находятся фактические тексты.

Вы можете проверить словарь, используя

tk.word_index

Как использовать Keras Tokenizer для персонажей?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать Keras Tokenizer для персонажей?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы