Я пытаюсь использовать «API блока данных», как показано ниже, для загрузки и предварительной обработки моих файлов текстовых данных (включая некоторые символы, которые не обязательно кодируются в ISO-8859-1
).
После запуска скрипта ниже я получил ошибку
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe9 in position Detail error: 951: invalid continuation byte
Кто-нибудь знает, как это исправить?
“data_lm = (TextList.from_folder(path)
#Inputs: all the text files in path
.filter_by_folder(include=[‘Jobs’])
#We may have other temp folders that contain text files so we only keep
what’s in train and test
.split_by_rand_pct(0.1)
#We randomly split and keep 10% (10,000 reviews) for validation
.label_for_lm()
#We want to do a language model so we label accordingly
.databunch(bs=bs))
data_lm.save(‘data_lm.pkl’)”
“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe9 in position
Detail error: 951: invalid continuation byte”.``