Для задачи маркировки последовательности мои обучающие данные и метки выглядят следующим образом:
train_data=[['p','l','a','y','s']
train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]
Как я могу использовать токенизатор и генерировать представление для каждой последовательности в моих данных. Традиционный токенизатор игнорирует метки, такие как <p>
. Он создает только словарь стандартных символов.