Spacy: обучить POS-тэггер после токенизации - PullRequest
0 голосов
/ 14 июля 2020

Я пытаюсь обучить POS-теггер spaCy после настройки токенизатора.

Например, токенизация текста «Il est culotté celui-là.»

теперь ['Il', 'est', 'culotté', 'celui-là', '.']

, а не исходный: ['Il', 'est', 'culotté', 'celui', '-', 'là', '.']

Моя проблема в том, что nlp.update (), похоже, не учитывает мой настроенный токенизатор, поскольку я не могу аннотировать 'celui-là' как один токен, но как 3:

TRAIN_DATA = [
   ('Il est culotté celui-là.',
     {'tags': ['PRON', 'VERB', 'ADJ', 'PRON','PUNCT','PRON', 'PUNCT']})
]

Но это должно быть:

TRAIN_DATA = [
   ('Il est culotté celui-là.',
     {'tags': ['PRON', 'VERB', 'ADJ', 'PRON', 'PUNCT']})
]

Однако мы можем видеть, что на выходе применяется настроенный токенизатор, поэтому мой вывод заключается в том, что Я тренирую теггер перед применением пользовательского токенизатора.

Вот код и результат: https://gist.github.com/mariastefan/57606e6f85e3dfbd779b16285ab21760

Вы знаете, как сначала применить мои модификации tokenizer перед обучением теггера, чтобы я мог обучить его нужным токенам?

Спасибо.

...