Есть некоторые обновления документации, которые еще необходимо сделать для Stanford CoreNLP 4.0.0.
Основное изменение заключается в том, что был добавлен новый аннотатор с несколькими словами-токенами, который обеспечивает соответствие токенизации UD стандарт. Таким образом, новый конвейер Spani sh по умолчанию должен работать tokenize,ssplit,mwt,pos,depparse,ner
. В настоящее время может быть невозможно запустить такой конвейер с демонстрационной версии сервера, поскольку необходимо будет внести некоторые изменения. Я могу попытаться отправить вам, какие такие изменения будут в ближайшее время. Мы попытаемся выпустить новую версию в начале лета, чтобы справиться с такими проблемами, которые мы пропустили.
К сожалению, в вашем примере это не расколется, но я думаю, что во многих случаях это будет правильно , Модель Spani sh mwt
основана только на большом словаре терминов и настроена для оптимизации производительности обучающих данных Spani sh.