Word2Vec считается «неконтролируемым» алгоритмом, поэтому, по крайней мере, во время его обучения не принято удерживать какие-либо «тестовые» данные для последующей оценки.
Затем модель Word2Vec обычно оценивается на предмет того, насколько хорошо она помогает какому-то другому процессу, такому как решение аналогий, выделенное в оригинальной статье.В gensim метод [evaluate_word_analogies()][1]
может повторить этот процесс.Но обратите внимание: слова-векторы, которые лучше всего работают по аналогиям слов, мои , а не будут лучше для других целей, таких как классификация или поиск информации.Всегда лучше оценивать и настраивать ваши словосочетания повторяющимся образом, который связан с вашим фактическим использованием.
(Если вы используете выходные данные модели Word2Vec - векторы слов, специфичные для вашего домена, - как часть более крупной системы, где некоторые этапы должны оцениваться с использованием скрытых данных, решение о том, следует ли проводить обучениекомпонент Word2Vec для всех данных может работать в любом случае, в зависимости от других соображений.)