У меня есть массив для каждой строки в CSV-файле следующим образом:
[['thxx'], ['too', 'late', 'now', 'dumbass'], ['you', '‘', 're', 'so', 'dumb', '?', '?'], ['thxxx'], ['i', '‘', 'd', 'be', 'fucked']]
Когда я пытаюсь передать это лемматизатору, как это:
from nltk.stem import WordNetLemmatizer
lemmatized_words = [WordNetLemmatizer.lemmatize(word) for word in tokened_text]
print(lemmatized_words)
I получите следующую ошибку:
TypeError: lemmatize() missing 1 required positional argument: 'word'
Почему это так?
В качестве дополнительного вопроса: нужно ли это сделать перед передачей для векторизации? Я строю модель машинного обучения и видел функцию CountVectorizer в sci kit learn, но не смог заранее найти информацию о том, что она выполняет лемматизацию и т. Д.