UnicodeDecodeError: кодек «ascii» не может декодировать байт 0x92 в позиции 1039: порядковый номер не в диапазоне (128) - PullRequest
0 голосов
/ 26 июня 2018
from nltk.stem import WordNetLemmatizer
lemmatizer= WordNetLemmatizer()
data1['lematized']=""
data1['lematized']=data1['punctuation_removal'].apply(lambda x 
:lemmatizer.lemmatize(x))

Я использую этот код для лемматизации данных в проекте на естественном языке, но возвращается ошибка.

UnicodeDecodeError: 'ascii' codec can't decode byte 0x92 in position 1039: ordinal not in range(128)

Я попытался изменить кодировку по умолчанию на UTF-8, но она не сработала.

и когда я предоставляю токен с данными тегов в качестве входных данных, это приводит к

    from nltk.stem import WordNetLemmatizer
    lemmatizer= WordNetLemmatizer()
    data1['lematized']=""
    data1['lematized']=data1['word_tagging'].apply(lambda x :lemmatizer.lemmatize(x))

Error: TypeError: unhashable type: 'list'

Как я могу решить эту проблему?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...