Если у вас есть Doc2Vec
модель d2v_model
, вы можете получить список (строк) тегов, которые он изучил во время обучения:
d2v_model.docvecs.index2entity
Для любого данного тега вы можете получить еготочный вектор через:
vec = d2v_model.docvecs[tag]
Если вы хотите найти теги, векторы которых близки к определенному целевому вектору, вы можете использовать метод most_similar()
со списком с одним необработанным target_vec
в качестве егоpositive
параметр:
nearest = d2v_model.docvecs.most_similar(positive=[target_vec])
Если вам нужно что-то еще, пожалуйста, будьте более ясны в отношении формы ваших тренировочных данных.(Например, каждый из ваших документов содержит только один идентификатор, или повторные метки классов, или оба?)