Кажется, что в java для stanford nlp версии 3.7.0 и 3.9.2 наблюдается снижение производительности.
Я запускаю следующий конвейер
props.put("annotators", "tokenize, ssplit, pos, ner, parse, sentiment");
и следующие свойства
props.put("ner.model",
"edu/stanford/nlp/models /ner/english.all.3class.distsim.crf.ser.gz");
props.put("ner.useSUTime", "false");
props.put("ner.applyNumericClassifiers", "false");
При обновлении с версии 3.7.0 до 3.9.2 я наблюдаю пики ЦП и падение производительности.Не показывайте цифры в минуту, но, кажется, они примерно в 5 раз медленнее.
Я анализирую небольшое количество текста.Небольшая новостная статья на сайте.
Может быть, мне стоит использовать другую модель?Кто-нибудь еще заметил это?
Редактировать: Я заметил, что версия 3.9.2 загружает данные модели для RegexNERAnnotator, а 3.7.0 - нет, видела это в журналах, не уверена, оказывает ли это влияние.