Я использую Spacy для токенизации предложений, и я знаю, что текст, который я передаю токенизатору, всегда будет одним предложением.
В моих правилах токенизации я хотел бы, чтобы не были окончательные периоды (". ") должен быть прикреплен к тексту перед ним, поэтому я обновил суффиксные правила, чтобы удалить правила, разбитые на периоды (это правильно отображает сокращения).
Исключением, однако, является то, что самый последний период долженразделить на отдельный токен.
Я вижу, что последняя версия Spacy позволяет вам разделять токены по факту, но я бы предпочел сделать это в самом токенизаторе, чтобы другие компоненты конвейера обрабатывалиправильный токенизация.