Я пытаюсь обучить POS-теггер spaCy после настройки токенизатора.
Например, токенизация текста «Il est culotté celui-là.»
теперь ['Il', 'est', 'culotté', 'celui-là', '.']
, а не исходный: ['Il', 'est', 'culotté', 'celui', '-', 'là', '.']
Моя проблема в том, что nlp.update (), похоже, не учитывает мой настроенный токенизатор, поскольку я не могу аннотировать 'celui-là' как один токен, но как 3:
TRAIN_DATA = [
('Il est culotté celui-là.',
{'tags': ['PRON', 'VERB', 'ADJ', 'PRON','PUNCT','PRON', 'PUNCT']})
]
Но это должно быть:
TRAIN_DATA = [
('Il est culotté celui-là.',
{'tags': ['PRON', 'VERB', 'ADJ', 'PRON', 'PUNCT']})
]
Однако мы можем видеть, что на выходе применяется настроенный токенизатор, поэтому мой вывод заключается в том, что Я тренирую теггер перед применением пользовательского токенизатора.
Вот код и результат: https://gist.github.com/mariastefan/57606e6f85e3dfbd779b16285ab21760
Вы знаете, как сначала применить мои модификации tokenizer перед обучением теггера, чтобы я мог обучить его нужным токенам?
Спасибо.