Как мне распаковать предварительно обученный word2vec в google colab? - PullRequest
0 голосов
/ 31 марта 2019

Я пытаюсь использовать предварительно обученные векторы слов google, GoogleNews-vectors-positive300.bin.gz, в colab, но я не знаю, как распаковать файл.

import gzip
f=gzip.open('gdrive/My Drive/Colab Notebooks/LAST/we/GoogleNews-vectors-negative300.bin.gz', 'rt')
file_content=f.read()

Я пыталсячитать файл напрямую, используя gzip, но получил ошибку:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x94 in position 19: invalid start byte.

1 Ответ

0 голосов
/ 03 апреля 2019

Есть два возможных решения (оба из которых я пробовал. Даже я работаю над той же проблемой):

  1. Использование encoding='iso8859'

  2. Использование KeyedVectors.load_word2vec_format(path of your file).

...