from nltk.stem import WordNetLemmatizer
lemmatizer= WordNetLemmatizer()
data1['lematized']=""
data1['lematized']=data1['punctuation_removal'].apply(lambda x
:lemmatizer.lemmatize(x))
Я использую этот код для лемматизации данных в проекте на естественном языке, но возвращается ошибка.
UnicodeDecodeError: 'ascii' codec can't decode byte 0x92 in position 1039: ordinal not in range(128)
Я попытался изменить кодировку по умолчанию на UTF-8, но она не сработала.
и когда я предоставляю токен с данными тегов в качестве входных данных, это приводит к
from nltk.stem import WordNetLemmatizer
lemmatizer= WordNetLemmatizer()
data1['lematized']=""
data1['lematized']=data1['word_tagging'].apply(lambda x :lemmatizer.lemmatize(x))
Error: TypeError: unhashable type: 'list'
Как я могу решить эту проблему?