Мои данные имеют более 1 миллиона строк и, обучая модель подобия Генсима, создают несколько файлов .sav (model.sav, model.sav.0, model.sav.1 и т. Д.). Проблема заключается в том, что при загрузке загружается только одна часть, а не все части, что приводит к ужасным результатам при прогнозировании. Параметры / опции не работают в соответствии с документацией gensim.
В соответствии с документацией gensim - https://radimrehurek.com/gensim/similarities/docsim.html Сохранение как дескриптор файла и предоставление следующих параметров должно сработать -:
- model.save (fname_or_handle, отдельно = None)
- model.load (filepath, mmap = 'r')
Даже пытался -
- выбрать файлы .sav (это выбирает только 1-й фрагмент, то есть model.sav)
- сжимать все части в файл .gz (сжимает только один фрагмент, а не все части), а такжедает какую-то ошибку рассола.
tf_idf = gensim.models.TfidfModel(corpus)
sims = gensim.similarities.Similarity('./models/model.sav',tf_idf[corpus],
num_features=len(dictionary))
sims.save('./models/model.sav')
sims1 = gensim.similarities.Similarity.load(./models/model.sav)
Ожидаемые результаты должны давать все соответствующие документы из корпуса, но это дает только из model.sav (файл, упомянутый при загрузке). Он даже не выполняет другие осколки. Я проверил результат каждого сегмента.
Вопрос: Как использовать все вложенные файлы модели gensim для прогнозирования сходства моего тестового документа, БЕЗ циклического просмотра каждого вложенного файла в отдельности, а затем представления объединения этих результатов.