Предсказание знаков препинания для текста (в частности, для речевой транскрипции) является хорошо известной проблемой.
Вы можете попробовать использовать Punctuator2 , либо с предоставленными моделями, либо обучая новые модели тексту из вашего домена. Посмотрите на нижнюю часть README, чтобы найти ссылки на некоторые связанные проекты.
Грамматически разработан более простой подход для вставки только периодов между рабочими предложениями, описанный здесь:
https://www.grammarly.com/blog/nlp-run-on-sentences/
Они провели несколько хороших экспериментов с реальными и искусственными данными обучения, что полезно, потому что легко генерировать данные обучения из текстов, которые, как вы знаете, имеют надежную пунктуацию на границах предложений, например, газетный текст.