Индекс сходства Gensim, обновляющий num_features - PullRequest
0 голосов
/ 29 мая 2020

Я пытаюсь найти повторяющиеся документы. Я планирую делать это постепенно. Поэтому каждый раз, когда я добавляю документ, он проверяет наличие дубликатов в большом количестве других документов. По большей части это работает, но есть одна странность.

Я делаю это:

from gensim.similarities import Similarity

 if os.path.exists(myPath):
            index = Similarity.load(myPath)
            index.add_documents(corpus)
 else:
            index = Similarity(
                output_prefix='shardlocation'
                corpus=corpus,
                num_features=150000
            )
index.save(myPath)
return index

Я устанавливаю num_features на 150 000. Потому что, когда я index.add_documents, num_features не увеличивается, и я получаю эту ошибку IndexError: index 5 is out of bounds for axis 0 with size 5.

Итак, я мог бы установить num_features примерно на 1 м или что-то в этом роде и, вероятно, быть в безопасности, но это кажется глупым? Я искал что-то, что изменило бы num_features, но не смог найти это в документации.

Поиск в Google не помог, что заставляет меня думать, что я делаю весь этот процесс неправильно. Я новичок в Python / машинном обучении, поэтому, возможно, мой мыслительный процесс здесь полностью отключен. Любая помощь приветствуется!

...