Стемминг и лемматизация с помощью Python NLTK как для английского, так и для русского языков - PullRequest
0 голосов
/ 24 мая 2018

«Создание и лемматизация с помощью Python NLTK для языков как английского, так и русского» * ​​1001 * Источник: http://text -processing.com / demo / stem / Я хочу использовать lib для разработки с Python NLTK как для английского, так и для русского языков. Не могли бы вы дать мне совет, какой lib нужно использовать для этой задачи.

1 Ответ

0 голосов
/ 24 мая 2018

Для стемминга:

NLTK имеет Porter Stemmer , который широко используется.

Для русских, кажется, кто-то использовал Snowball Stemmer .

Для лемматизации:

Я предпочитаю SpaCy для лемматизации .

Для русских, кто-то работал над этим здесь .

Еще один лемматизатор для русского текста можно найти здесь.

...