Как применить Word Net Lemmatizer к фрейму данных pyspark? - PullRequest
0 голосов
/ 06 апреля 2020

Я пытаюсь применить Wor dNet Лемматизация к одному из моих столбцов фрейма данных.

Мой фрейм данных выглядит следующим образом:

+--------------------+-----+
|             removed|stars|
+--------------------+-----+
|[today, second, t...|  1.0|
|[ill, first, admi...|  4.0|
|[believe, things,...|  1.0|
|[great, lunch, to...|  4.0|
|[weve, huge, slim...|  5.0|
|[plumbsmart, prov...|  5.0|

Таким образом, каждая строка является списком жетоны. Теперь я хочу лемматизировать каждый токен.

Я пытался:

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer() 

df_lemma= df_removed.select(lemmatizer.lemmatize('removed')) 
df_lemma.show()

Я не получил ни одного сообщения об ошибке, но мой информационный кадр не изменился.

+--------------------+
|             removed|
+--------------------+
|[today, second, t...|
|[ill, first, admi...|
|[believe, things,...|
|[great, lunch, to...|
|[weve, huge, slim...|
|[plumbsmart, prov...|

Есть ли ошибка в мой код? Как применять лемматизатор?

...