В чем разница между en_core_web_sm, en_core_web_md и en_core_web_lg моделью простора? - PullRequest
0 голосов
/ 23 мая 2018

Я установил spacy в своей системе и хочу проанализировать / извлечь имя человека, организацию для английского языка.Но я видел здесь , есть 4 модели для английского.И есть версия для модели. Я не понял, какая модель большая и какую я должен выбрать для разработки?

Ответы [ 2 ]

0 голосов
/ 03 августа 2019

Разница заключается в точности прогнозов.

Но, как вы можете видеть в сравнении в документации spaCy, разница очень мала.

en_core_web_lg ( 788 МБ ) по сравнению с en_core_web_sm ( 10 МБ ) :

  • LAS: 90,07% против 89,66%
  • POS: 96,98% против 96,78%
  • UAS: 91,83% против 91,53%
  • NER F-оценка: 86,62% против 85,86%
  • NER точность: 87,03% против 86,33%
  • NER отзыв: 86,20% против 85,39%

Все это, хотя en_core_web_lg в 79 раз больше, следовательно, загружается намного медленнее.

Я рекомендую использовать en_core_web_sm, в то время какразработка, а затем переход к большей модели в производстве.Вы можете легко переключаться, просто меняя загружаемую модель.

nlp = spacy.load("en_core_web_lg")
0 голосов
/ 23 мая 2018

sm / md / lg относятся к размерам моделей (соответственно, маленький, средний, большой).

Как сказано на странице моделей, на которую вы ссылаетесь,

Различия моделей в основном статистические.В целом, мы ожидаем, что более крупные модели будут «лучше» и точнее в целом.В конечном счете, это зависит от вашего варианта использования и требований.Мы рекомендуем начать с моделей по умолчанию (помеченных звездочкой ниже).

FWIW, модель sm является моделью по умолчанию (как указано выше)

...