SPACYR: лемматизация может работать некорректно в модели en_core_web_sm - PullRequest
0 голосов
/ 05 марта 2020

Я не уверен, почему я получаю это предупреждение:

лемматизация может работать неправильно в модели 'en_core_web_sm'

У меня есть пользовательская установка Spacy согласно инструкции на Установите Spacy веб-страницу:

conda install -c conda-forge spacy
conda install -c conda-forge spacy-lookups-data
python -m spacy download en_core_web_sm

и инициализируйте в R следующим образом:

spacy_initialize(condaenv = "C:/Users/.../AppData/Local/Continuum/anaconda3/envs/r-tensorflow/", model = 'en_core_web_sm') #refresh_settings = TRUE to switch python environment

Кажется, что работает лемматизация, и я знаю, что это предупреждение не ошибка, но я не против понять, что получаю.

1 Ответ

0 голосов
/ 05 марта 2020

Похоже, что авторы spacyr стремятся напечатать это предупреждение для каждой не-Engli sh модели, ср этот комментарий

@ param lemma logic; включите в вывод лемматизированные токены (лемматизация может не работать должным образом для моделей не-Engli sh)

и код здесь :

 if (lemma) {
        model <- spacyr_pyget("model")
        dt[, "lemma" := get_attrs(spacy_out, "lemma_", TRUE)]
        if (substr(model, 0, 2) != "en"){
            warning("lemmatization may not work properly in model '", model, "'")
        }
    }

Так что на самом деле это не должно попасть в en_core_web_sm, если я правильно понимаю. Это может быть ошибка в этом фрагменте кода предупреждения.

С точки зрения spaCy - мы понимаем, что лемматизация (очевидно) не всегда идеальна, и, безусловно, есть способы ее улучшения. Но в целом я думаю, что en_core_web_sm даст разумные результаты.

...