Похоже, что авторы spacyr
стремятся напечатать это предупреждение для каждой не-Engli sh модели, ср этот комментарий
@ param lemma logic; включите в вывод лемматизированные токены (лемматизация может не работать должным образом для моделей не-Engli sh)
и код здесь :
if (lemma) {
model <- spacyr_pyget("model")
dt[, "lemma" := get_attrs(spacy_out, "lemma_", TRUE)]
if (substr(model, 0, 2) != "en"){
warning("lemmatization may not work properly in model '", model, "'")
}
}
Так что на самом деле это не должно попасть в en_core_web_sm
, если я правильно понимаю. Это может быть ошибка в этом фрагменте кода предупреждения.
С точки зрения spaCy - мы понимаем, что лемматизация (очевидно) не всегда идеальна, и, безусловно, есть способы ее улучшения. Но в целом я думаю, что en_core_web_sm
даст разумные результаты.