Читая документацию по gensim Doc2Vec, я немного запутался в некоторых опциях. Например, конструктор Doc2Vec имеет параметр iter :
iter (int) - Количество итераций (эпох) по всему корпусу.
Почему метод поезда также имеет аналогичный параметр, называемый epochs ?
epochs (int) - Количество итераций (эпох) по всему корпусу.
В чем разница между обоими? В документах есть еще один абзац:
Чтобы избежать распространенных ошибок, связанных со способностью модели делать несколько
обучение проходит само, ДОЛЖЕН быть предоставлен явный аргумент эпох.
В общем и рекомендуемом случае, когда train () вызывается только один раз,
кэшированное значение iter модели должно быть указано как значение эпох.
Но я не совсем понимаю, зачем конструктору нужен параметр iter и что именно для него нужно предоставить.
EDIT :
Я только что увидел, что есть возможность указать корпус непосредственно в конструкторе, а не вызывать train () отдельно. Поэтому я думаю, что в этом случае iter будет использоваться, а в противном случае эпох . Это правильно?
Если так, в чем разница между указанием корпуса в конструкторе и вызовом train () вручную? Почему один выбирает тот или другой?
РЕДАКТИРОВАТЬ 2 :
Хотя это и не упоминается в документации, iter теперь считается устаревшим параметром Doc2Vec. Он был переименован в эпох , чтобы соответствовать параметру train () . Обучение, кажется, работает с этим, хотя я борюсь с MemoryErrors .