Похоже, что первый байт файла (позиция 0) равен 0x80, если только это не означает позицию 0 в какой-то момент во время декодирования отдельного символа. В любом случае это означает, что это недопустимый файл utf-8. Я не узнаю имя lstm_glove_vectors, поэтому кто-то обучил свои собственные векторы или сделал что-то (по крайней мере, переименование, возможно, дополнительную обработку) с исходными распределенными векторами. Скорее всего, этот файл не является простым текстовым файлом. Это может быть файл в формате gzip или zip? Или векторы в двоичной кодировке в виде чисел?
Я бы просто попробовал посмотреть содержимое с помощью команды more
или less
и посмотреть, что там кажется.
Окончательная возможность: самый первый выпуск В общих векторах GloVe, полученных с помощью сканирования, действительно было несколько ошибок Unicode, поэтому это могло произойти, если вы используете очень старый файл данных. Но эта проблема была исправлена в 2015 году.