Как загрузить Bio2Vec в gensim? - PullRequest
0 голосов
/ 23 сентября 2019

Я пытался использовать Bio2Vec для проекта встраивания медицинских слов с использованием gensim.Я загрузил «BioWordVec_PubMed_MIMICIII_d200.bin» из Интернета, однако я не могу его загрузить.Это сообщение об ошибке:

недопустимый литерал для int () с основанием 10: 'º \ x16O /' "

Я понимаю, что в недопустимом символефайл bin, из-за которого я не могу его загрузить. Однако я не уверен, как его исправить.

Я не могу открыть файл bin и что-либо редактировать. Может кто-нибудь помочь?

Это код, который я использую:

model = KeyedVectors.load_word2vec_format(
    datapath('BioWordVec_PubMed_MIMICIII_d200.bin'),
    encoding='windows-1252', binary=True)

1 Ответ

0 голосов
/ 23 сентября 2019

Где вы взяли файл BioWordVec_PubMed_MIMICIII_d200.bin, и были ли предоставлены какие-либо инструкции вместе с ним?

Я полагаю, что проект может использовать FastText, и, следовательно, его выходные файлы не являются простыми наборами векторов слов, которые могут быть загружены с load_word2vec_format().

Возможно, вам больше повезет, если вы попробуете методы load_facebook_model() или load_facebook_vectors(), как описано в https://radimrehurek.com/gensim/models/fasttext.html. Но, конечно, фактический источник файла будет лучшим источником информации о том, какзагрузить его.

...