У меня есть белковые последовательности и я хочу сделать doc2vec.Моя цель - иметь один вектор для каждого предложения / последовательности.
У меня есть 1612 предложений / последовательностей и 30 классов, поэтому метка не уникальна, и многие документы имеют одинаковые метки.
Так что, когдаЯ впервые попробовал doc2vec, он дал мне всего 30 векторов, что является количеством уникальных меток.Затем я решил использовать несколько тегов, чтобы получить вектор для каждого предложения.
Когда я это сделал, у меня оказалось больше векторов, чем в моих предложениях.Любые объяснения, что могло пойти не так?
Скриншот моих данных
Скриншот корпуса
tagged = data.apply(lambda r: TaggedDocument(words=(r["A"]), tags=[r.label,r.id]), axis=1)
print(len(tagged))
1612
sents = tagged.values
model = Doc2Vec(sents, size=5, window=5, iter=20, min_count = 0)
sents.shape
(1612,)
model.docvecs.vectors_docs.shape
(1643,5)
Скриншот моих данных