Что хранится в сходствах. - PullRequest
0 голосов
/ 17 января 2019

Я использую косинусную функцию подобия в модуле gensim, которая является подобием. И я хочу получить сходство между всеми индексными документами. У метода есть атрибут: индекс, но я не знаю, что в нем хранится.

    sim = similarities.SparseMatrixSimilarity(
        self.tfidf_vectors, num_features=self.featurenum)
    sim.save(path + '/model/train_index.index')
    print(sim.index.shape)
    print(sim.index.toarray().shape)

len (self.tfidf.vectors) - 9117, но sim.index.shape - (9117, 143807) и sim.index.toarray (). Shape также (9117, 143807). Я думаю, это должно быть (9117,9117). Что находится в sim.index?

1 Ответ

0 голосов
/ 10 июля 2019

9117 - количество документов, а 143897 - количество слов во всех документах. Итак, index - это матрица, и каждая строка представляет документ, а каждый столбец представляет слово.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...