Самый простой способ, который я нашел, - это импортировать модуль gensim и загружать vectors.txt из артефактов модели, сгенерированных blazingtext
Таким образом, вам даже не нужно создавать конечную точку вывода - вы можете просто использоватьэкземпляр вашего ноутбука для работы с вашей обученной моделью
# download your model artifacts from s3 to notebook instance
!mkdir /tmp/model
!cd /tmp/model && aws s3 cp s3://bucketname/prefix/blazingtext-xxx-xxx-xx-xxx/output/model.tar.gz .
!cd /tmp/model && tar -xvzf /tmp/model/model.tar.gz
#install gensim on notebook instance
!pip install gensim
#use gensim in python code
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
from gensim.models import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('/tmp/model/vectors.txt', binary=False)
word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])
word_vectors.doesnt_match("breakfast cereal dinner lunch".split())
Единственное ограничение, с которым я столкнулся до сих пор, заключается в том, что если вы обучили свою модель с использованием "subwords = True", ожидая получить векторы слов для подслов или с орфографическими ошибкамислова, модель gensim, по-видимому, не способна возвращать векторы слов для слов из словарного запаса (OOV)