Spacy - лемматизация местоимений дает ошибочный вывод - PullRequest
0 голосов
/ 26 мая 2018

лемматизация местоимений через [token.lemma_ for token in doc] дает лемматизированное слово для местоимений как -PRON-, это ошибка?

1 Ответ

0 голосов
/ 26 мая 2018

Нет, это на самом деле предполагаемое поведение.См. Документацию здесь :

В отличие от глаголов и нарицательных существительных, нет четкой базовой формы личного местоимения.Должна ли лемма «я» быть «я», или мы должны также нормализовать человека, дав «это» - или, может быть, «он»?Решение spaCy состоит в том, чтобы ввести новый символ -PRON-, который используется в качестве леммы для всех личных местоимений.

Возможно, стоит отметить, что это соглашение может измениться в будущем по мере движения spaCyна пути к лучшей совместимости с универсальными зависимостями формат.

...