Вы спрашиваете, какая библиотека даст наиболее точные результаты, не требуя при этом слишком больших вычислительных мощностей.Поле обработки естественного языка (NLP) быстро меняется.Чтобы показать это, мы можем взглянуть на текущее состояние (SOTA) для распознавания именованных объектов (NER). На этой странице Github есть хорошая сводка для набора данных CONLL03 NER. Я скопирую ее здесь и буду использовать названия компаний, поскольку их легче запомнить:
- Zalando .Оценка F1: 0,931.Дата: 24 июня 2018 года
- Google .Оценка F1: 0,928.Дата: 31 октября 2018 года
- Стэнфорд / Google Brain .Оценка F1: 0,926.Дата: 22 сентября 2018 года
Основываясь на этом списке, мы видим, что новый SOTA получается каждые несколько месяцев.Таким образом, «самая точная система (библиотека)» также должна обновляться каждые несколько месяцев.Производительность ваших данных зависит не только от системы, но и от следующих факторов:
- Используемый алгоритм. Возможно, Google опубликовал исследование SOTA, но не реализовал его,Единственный способ убедиться в этом - это постоянно тестировать все системы.
- Размер обучающих данных. Хотя чем больше, тем лучше, некоторые алгоритмы могут обрабатывать несколько примеров ( обучение в несколько шагов)) лучше.
- Домен. Алгоритм мог бы лучше подходить для обработки формального правительственного текста вместо менее формального текста Википедии.
- Язык данных. Поскольку большинство исследований сосредоточено на показе SOTA на общедоступных наборах данных, они часто оптимизированы для английского языка.То, как они работают на других языках, может отличаться.
TL; DR : просто выберите систему, которая кажется вам простой в реализации и имеет достаточную точность.Выбор системы на основе точности нетривиален и требует частого переключения системы.