Я пытаюсь найти повторяющиеся документы. Я планирую делать это постепенно. Поэтому каждый раз, когда я добавляю документ, он проверяет наличие дубликатов в большом количестве других документов. По большей части это работает, но есть одна странность.
Я делаю это:
from gensim.similarities import Similarity
if os.path.exists(myPath):
index = Similarity.load(myPath)
index.add_documents(corpus)
else:
index = Similarity(
output_prefix='shardlocation'
corpus=corpus,
num_features=150000
)
index.save(myPath)
return index
Я устанавливаю num_features
на 150 000. Потому что, когда я index.add_documents
, num_features
не увеличивается, и я получаю эту ошибку IndexError: index 5 is out of bounds for axis 0 with size 5
.
Итак, я мог бы установить num_features
примерно на 1 м или что-то в этом роде и, вероятно, быть в безопасности, но это кажется глупым? Я искал что-то, что изменило бы num_features
, но не смог найти это в документации.
Поиск в Google не помог, что заставляет меня думать, что я делаю весь этот процесс неправильно. Я новичок в Python / машинном обучении, поэтому, возможно, мой мыслительный процесс здесь полностью отключен. Любая помощь приветствуется!