Stanford NLP core 4.0.0 больше не расщепляет глаголы и местоимения по-испански - PullRequest
0 голосов
/ 01 мая 2020

Очень полезно Stanford NLP core 3.9.2, используемый для разделения скрещенных вместе Spani sh глаголы и местоимения

enter image description here

Это 4.0.0 вывод:

enter image description here

В предыдущей версии было больше файлов .tagger. Они не были включены в дистрибутив 4.0.0.

enter image description here

Такова причина. Будут ли они добавлены обратно?

1 Ответ

0 голосов
/ 01 мая 2020

Есть некоторые обновления документации, которые еще необходимо сделать для Stanford CoreNLP 4.0.0.

Основное изменение заключается в том, что был добавлен новый аннотатор с несколькими словами-токенами, который обеспечивает соответствие токенизации UD стандарт. Таким образом, новый конвейер Spani sh по умолчанию должен работать tokenize,ssplit,mwt,pos,depparse,ner. В настоящее время может быть невозможно запустить такой конвейер с демонстрационной версии сервера, поскольку необходимо будет внести некоторые изменения. Я могу попытаться отправить вам, какие такие изменения будут в ближайшее время. Мы попытаемся выпустить новую версию в начале лета, чтобы справиться с такими проблемами, которые мы пропустили.

К сожалению, в вашем примере это не расколется, но я думаю, что во многих случаях это будет правильно , Модель Spani sh mwt основана только на большом словаре терминов и настроена для оптимизации производительности обучающих данных Spani sh.

...