Я пытаюсь применить Wor dNet Лемматизация к одному из моих столбцов фрейма данных.
Мой фрейм данных выглядит следующим образом:
+--------------------+-----+
| removed|stars|
+--------------------+-----+
|[today, second, t...| 1.0|
|[ill, first, admi...| 4.0|
|[believe, things,...| 1.0|
|[great, lunch, to...| 4.0|
|[weve, huge, slim...| 5.0|
|[plumbsmart, prov...| 5.0|
Таким образом, каждая строка является списком жетоны. Теперь я хочу лемматизировать каждый токен.
Я пытался:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
df_lemma= df_removed.select(lemmatizer.lemmatize('removed'))
df_lemma.show()
Я не получил ни одного сообщения об ошибке, но мой информационный кадр не изменился.
+--------------------+
| removed|
+--------------------+
|[today, second, t...|
|[ill, first, admi...|
|[believe, things,...|
|[great, lunch, to...|
|[weve, huge, slim...|
|[plumbsmart, prov...|
Есть ли ошибка в мой код? Как применять лемматизатор?