Сегментация и токенизация предложений - это подзадачи NLP, и каждая библиотека NLP может иметь разные реализации, что приводит к разным профилям ошибок.
Даже внутри библиотеки spaCy есть разные подходы: наилучшие результаты достигаются при использовании анализатор зависимостей, но также существует более простой компонент sentencizer
на основе правил, который работает быстрее, но обычно делает больше ошибок (документы здесь ).
Потому что никакая реализация не будет идеальной на 100% , вы получите расхождения между разными методами и разными библиотеками. Что вы можете сделать, так это распечатать случаи, в которых методы не совпадают, проверить их вручную и почувствовать, какой из подходов лучше всего подходит для вашей специфической c области и типа текстов.