Одним из способов оценки модели word2vec является разработка набора слов «наземная истина».Основная правда будет представлять слова, которые в идеале должны быть ближе друг к другу в векторном пространстве.Например, если ваш корпус связан с обслуживанием клиентов, возможно, векторы «неудовлетворенный» и «разочарованный» в идеале будут иметь наименьшее евклидово расстояние или наибольшее сходство косинусов.
Вы создаете эту таблицу для основной правды, возможно, в ней 200 парных слов.Эти 200 слов являются наиболее важными парными словами для вашей отрасли / темы.Чтобы оценить, какая модель word2vec является лучшей, просто рассчитайте расстояние для каждой пары, сделайте это 200 раз, суммируйте общее расстояние, и наименьшее общее расстояние будет вашей лучшей моделью.
Мне нравится этот способ лучше, чем метод "глазного яблока", что бы это ни значило.