Поддерживает ли Stanford Core NLP токенизацию русских предложений и слов? - PullRequest
0 голосов
/ 17 июня 2020

Я не видел ни одного предварительно обученного русского токенизатора в Sandford-NLP и stanfordCoreNLP. Есть еще какие-нибудь модели для русского?

1 Ответ

0 голосов
/ 18 июня 2020

К сожалению, я не знаю каких-либо расширений, поддерживающих это для Stanford CoreNLP.

Вы можете использовать Stanza (https://stanfordnlp.github.io/stanza/), наш пакет Python, чтобы получить русский язык. токенизация и разделение предложений.

Теоретически вы можете токенизировать и разбивать предложения с помощью Stanza, а затем использовать Stanford CoreNLP Server (который вы также можете использовать через Stanza), если бы у вас были какие-либо компоненты CoreNLP c, которые вы хотели работают с.

Некоторое время назад группа представила несколько моделей для русского языка, но я не вижу ничего для токенизации.

Ссылка на их ресурсы здесь: https://stanfordnlp.github.io/CoreNLP/model-zoo.html

...