Я пытаюсь токенизировать следующий тип предложения:
"The item at issue is no. 3553."
Каждый пробный токенизатор, который я пробовал до сих пор, возвращает следующее (включая токенайзер Punkt, обученный в моем корпусе):
[["the", "item", "at", "issue", "is", "no."], ["3553."]]
Добавление аббревиатуры «нет» в токенизатор может стать проблемой для предложений, заканчивающихся на «нет»