используя nltk для возврата оригинальных слов с полной отправкой на токенизацию - PullRequest
0 голосов
/ 22 октября 2019

Я хочу вернуть исходные слова.

Я знаю, используя модуль nltk, я могу лемматизировать слова

from nltk.stem import WordNetLemmatizer 
lemmatizer = WordNetLemmatizer() 
lemmatizer.lemmatize(str)

Мне могут потребоваться другие аргументы, такие как:

lemmatizer.lemmatize(str. "a")

или

lemmatizer.lemmatize(str, "v")

Но проблема в том, что у меня нет целого предложения для токенизации.

Я хочу ввести слово, оно возвращает исходные слова без предложениятокенизация.

Я хочу:

был -> быть

сильнейшим -> сильным

сломался -> сломался

поцелуев ->поцелуй

1 Ответ

0 голосов
/ 22 октября 2019

Используя NLTK, вы можете сделать это. Попробуйте следующий код:

import nltk
from nltk.stem.wordnet import WordNetLemmatizer
nltk.download('wordnet')

words = ['gave', 'went', 'going', 'dating']
for word in words:
    print(word + "-->" + WordNetLemmatizer().lemmatize(word, 'v'))

Этот ответ также поможет вам в деталях.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...