TL; DR :
pip3 install -U pywsd
Тогда:
>>> from pywsd.utils import lemmatize_sentence
>>> text = 'i like cars'
>>> lemmatize_sentence(text)
['i', 'like', 'car']
>>> lemmatize_sentence(text, keepWordPOS=True)
(['i', 'like', 'cars'], ['i', 'like', 'car'], ['n', 'v', 'n'])
>>> text = 'The cat likes cars'
>>> lemmatize_sentence(text, keepWordPOS=True)
(['The', 'cat', 'likes', 'cars'], ['the', 'cat', 'like', 'car'], [None, 'n', 'v', 'n'])
>>> text = 'The lazy brown fox jumps, and the cat likes cars.'
>>> lemmatize_sentence(text)
['the', 'lazy', 'brown', 'fox', 'jump', ',', 'and', 'the', 'cat', 'like', 'car', '.']
В противном случае посмотрите, как работает функция в pywsd
:
- Токенизация строки
- Использование тега POS и сопоставление с набором тегов WordNet POS
- Попытка стебля
- Наконец, вызов лемматизатора с помощью POSи / или стебли
См. https://github.com/alvations/pywsd/blob/master/pywsd/utils.py#L129