К сожалению, я не знаю каких-либо расширений, поддерживающих это для Stanford CoreNLP.
Вы можете использовать Stanza (https://stanfordnlp.github.io/stanza/), наш пакет Python, чтобы получить русский язык. токенизация и разделение предложений.
Теоретически вы можете токенизировать и разбивать предложения с помощью Stanza, а затем использовать Stanford CoreNLP Server (который вы также можете использовать через Stanza), если бы у вас были какие-либо компоненты CoreNLP c, которые вы хотели работают с.
Некоторое время назад группа представила несколько моделей для русского языка, но я не вижу ничего для токенизации.
Ссылка на их ресурсы здесь: https://stanfordnlp.github.io/CoreNLP/model-zoo.html