Как использовать torchtext для создания словаря с бинарным файлом, таким как 'GoogleNews-vectors-positive300.bin'? - PullRequest
0 голосов
/ 25 марта 2019

Я могу использовать векторную модель слова в формате txt следующим образом:

if not os.path.exists(.vector_cache):
    os.mkdir(.vector_cache)
vectors = Vectors(name='myvector/glove/glove.6B.200d.txt')
TEXT.build_vocab(train, vectors=vectors)

Однако, когда я перехожу к двоичному формату, такому как googlenews-vectors-positive300.bin, я получаю сообщение об ошибке: моглоне конвертировать строку в float.Код почти такой же, как и выше:

if not os.path.exists(.vector_cache):
    os.mkdir(.vector_cache)
vectors = Vectors(name='GoogleNews-vectors-negative300.bin')
TEXT.build_vocab(train, vectors=vectors)

Итак, как использовать слово-векторную модель в двоичном формате для создания вокаба?Кроме того, должны ли мы использовать словарь предварительно подготовленной модели напрямую, или строить словарь из учебного набора, или строить словарь из учебного набора + тестового набора?Я очень смущен этим.

...