Кодировка UTF-8 вызывает исключение в macOS - PullRequest
0 голосов
/ 28 сентября 2019

Я пытаюсь прочитать файл GloVe: glove.twitter.27B.200d.txt.У меня есть следующая функция для чтения файла:

def glove_reader(glove_file):
    glove_dict = {}
    with open(glove_file, 'rt', encoding='utf-8') as glove_reader:
        for line in glove_reader:
            tokens = line.rstrip().split()
            vect = [float(token) for token in tokens[1:]]
            glove_dict[tokens[0]] = vect
    return glove_dict

Проблема в том, что я получаю следующую ошибку:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xea in position 0: invalid continuation byte

Я пытался с latin-1но это не сработало.Выдает мне следующую ошибку: ValueError: could not convert string to float: 'Ù\x86'

Я также пытался изменить 'rt' с 'r' и 'rb'.Я думаю, что это проблема MacOS, потому что в Windows не бросил мне эту ошибку.Может кто-нибудь, пожалуйста, помогите мне узнать, почему я не могу прочитать этот файл.

...