может кто-нибудь помочь, пожалуйста.
Я пытаюсь токенизировать документ, используя Spacy, посредством которого именованные сущности токенизируются.Например:
'Нью-Йорк - это город в Соединенных Штатах Америки'
будет маркирован как:
['New York', 'is', 'a ',' city ',' in ',' the ',' United States of America ']
Любые советы о том, как это сделать, очень приветствуются.Посмотрел использование span.merge (), но безуспешно, но я новичок в кодировании, поэтому, вероятно, что-то пропустил.
Заранее спасибо