Сообщение об ошибке с помощью API-интерфейса fast ai data - PullRequest
0 голосов
/ 17 июня 2019

Я пытаюсь использовать «API блока данных», как показано ниже, для загрузки и предварительной обработки моих файлов текстовых данных (включая некоторые символы, которые не обязательно кодируются в ISO-8859-1).

После запуска скрипта ниже я получил ошибку

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe9 in position Detail error: 951: invalid continuation byte

Кто-нибудь знает, как это исправить?

“data_lm = (TextList.from_folder(path)
#Inputs: all the text files in path
.filter_by_folder(include=[‘Jobs’])
#We may have other temp folders that contain text files so we only keep 
what’s in train and test
.split_by_rand_pct(0.1)
#We randomly split and keep 10% (10,000 reviews) for validation
.label_for_lm()
#We want to do a language model so we label accordingly
.databunch(bs=bs))

data_lm.save(‘data_lm.pkl’)”

“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe9 in position 
Detail error: 951: invalid continuation byte”.``
...