Как я могу загрузить китайскую модель быстрого текста с Gensim? - PullRequest
0 голосов
/ 20 марта 2020

При попытке загрузить модель быстрого текста Китая (cc .zh.300.bin) с помощью gensim, я застрял со следующей ошибкой

UnicodeDecodeError: код 'utf-8' c can не декодировать байт 0xba в позиции 0: неверный начальный байт

Кто-нибудь может мне помочь, пожалуйста? Подробная ошибка ниже:

enter image description here

1 Ответ

0 голосов
/ 21 марта 2020

Метод KeyedVectors.load_word2vec_format() загружает файлы только в формате простых слов и векторов, которые использовались в исходном коде Google word2vec.c. Не следует ожидать, что он будет работать с файлом формата FastText.

Вместо этого следует попробовать метод load_facebook_vectors(), предназначенный специально для файлов формата FastText:

https://radimrehurek.com/gensim/models/fasttext.html#gensim .models .fasttext.load_facebook_vectors

Для некоторых целей может также подойти альтернатива load_facebook_model():

https://radimrehurek.com/gensim/models/fasttext.html#gensim .models.fasttext.load_facebook_model

...