Падение производительности между Стэнфордским НЛП 3.7.0 и 3.9.2 - PullRequest
0 голосов
/ 01 февраля 2019

Кажется, что в java для stanford nlp версии 3.7.0 и 3.9.2 наблюдается снижение производительности.

Я запускаю следующий конвейер

props.put("annotators", "tokenize, ssplit, pos, ner, parse, sentiment");

и следующие свойства

props.put("ner.model",
            "edu/stanford/nlp/models    /ner/english.all.3class.distsim.crf.ser.gz");
props.put("ner.useSUTime", "false");
props.put("ner.applyNumericClassifiers", "false");

При обновлении с версии 3.7.0 до 3.9.2 я наблюдаю пики ЦП и падение производительности.Не показывайте цифры в минуту, но, кажется, они примерно в 5 раз медленнее.

Я анализирую небольшое количество текста.Небольшая новостная статья на сайте.

Может быть, мне стоит использовать другую модель?Кто-нибудь еще заметил это?

Редактировать: Я заметил, что версия 3.9.2 загружает данные модели для RegexNERAnnotator, а 3.7.0 - нет, видела это в журналах, не уверена, оказывает ли это влияние.

1 Ответ

0 голосов
/ 02 февраля 2019

Да, причина в том, что NER на основе правил теперь запускается по умолчанию.

Если вам не нужны детализированные именованные сущности, вы можете отключить его с помощью

props.put("ner.applyFineGrained", "false");

...