Отчет о потере тренировок в gensim Word2Vec
(и связанных с ним моделях) - это новая функция, которая пока не работает так, как ожидает большинство людей.
Например, по крайней мере, с помощью gensim 3.7.1 (январь 2019 г.) вы можете просто получить общую потерю с момента последнего вызова train()
(в течение нескольких эпох).Некоторые ожидающие изменения могут в конечном итоге изменить это.
Подсчет потерь выполняется только при запросе при создании модели с помощью параметра compute_loss
.Поэтому, если модель изначально не была настроена с этим параметром, в ней не будет данных о потерях, связанных с предыдущим обучением.
Вы можете предположительно вмешаться в загруженную модель w2v_model.compute_loss = False
, чтобы при последующих вызовах train()
(с такими же или новыми данными) собирались данные о потерях.Тем не менее, обратите внимание, что такое обучение также будет обновлять модель с учетом текущих данных.
Вы также можете посмотреть на метод score()
, доступный для некоторых режимов модели, который сообщает число потерь для пакетов новых текстов, без изменения модели.По сути, это может служить способом оценки того, «кажутся ли новые тексты» оригинальными данными обучения.Для получения дополнительной информации см. Документацию по методике, включая ссылки на мотивационную академическую статью и пример тетради:
https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.score