Word2Vec: ошибка при загрузке предварительно обученного файла word2vec с помощью Gensim - PullRequest
1 голос
/ 25 июня 2019

Я получаю сообщение об ошибке при попытке загрузить предварительно обученный файл word2vec (скомпилированный с помощью fasttext) с помощью Gensim.Файл имеет расширение .vec и может быть найден здесь: http://89.38.230.23/word_embeddings/we/corola.300.20.vec.zip

То, что я пробовал до сих пор: Вариант 1: KeyedVectors от gensim.models Вариант 2: Оболочка FastText

#Option 1
    from gensim.models import KeyedVectors
    model = KeyedVectors.load_word2vec_format('Word_embeddings/corola.300.20.vec', binary=True)
######

#Option 2
    from gensim.models.wrappers import FastText
    model = FastText.load_word2vec_format('Word_embeddings/corola.300.20.vec')

Вариант ошибки 1: UnicodeDecodeError: кодек «utf-8» не может декодировать байт 0x9b в позиции 0: недопустимый начальный байт

Вариант ошибки устаревания 2: DeprecationWarning: не рекомендуется.Вместо этого используйте gensim.models.KeyedVectors.load_word2vec_format.

Мне нужен правильный метод для успешной загрузки файла word2vec с использованием gensim.

Спасибо.

1 Ответ

1 голос
/ 26 июня 2019

Иногда просто можно использовать параметр unicode_errors='ignore', поскольку в файле внедрения слов могут быть ошибки.Просто попробуйте:

model = KeyedVectors.load_word2vec_format('Word_embeddings/corola.300.20.vec', binary=True, unicode_errors='ignore')
...