Как оценить модель Word2Vec - PullRequest
       93

Как оценить модель Word2Vec

0 голосов
/ 04 октября 2018

Привет, у меня есть свой корпус, и я тренирую несколько моделей Word2Vec.Каков наилучший способ сравнить их друг с другом и выбрать лучший?(Очевидно, не вручную - я ищу различные меры).

Стоит отметить, что вложение предназначено для элементов, а не слов, поэтому я не могу использовать какие-либо существующие тесты.

Спасибо!

Ответы [ 2 ]

0 голосов
/ 30 апреля 2019

Одним из способов оценки модели word2vec является разработка набора слов «наземная истина».Основная правда будет представлять слова, которые в идеале должны быть ближе друг к другу в векторном пространстве.Например, если ваш корпус связан с обслуживанием клиентов, возможно, векторы «неудовлетворенный» и «разочарованный» в идеале будут иметь наименьшее евклидово расстояние или наибольшее сходство косинусов.

Вы создаете эту таблицу для основной правды, возможно, в ней 200 парных слов.Эти 200 слов являются наиболее важными парными словами для вашей отрасли / темы.Чтобы оценить, какая модель word2vec является лучшей, просто рассчитайте расстояние для каждой пары, сделайте это 200 раз, суммируйте общее расстояние, и наименьшее общее расстояние будет вашей лучшей моделью.

Мне нравится этот способ лучше, чем метод "глазного яблока", что бы это ни значило.

0 голосов
/ 06 октября 2018

Не существует общего способа оценки качества токен-вектора, если вы даже не используете реальные слова, с которыми можно попробовать другие задачи (например, популярное решение по аналогии).

Если у вас есть конечное задание, вы должны разработать свой собственный повторяющийся метод подсчета очков.Скорее всего, это будет какое-то подмножество вашей фактической конечной задачи или оно будет хорошо коррелировать с этой конечной задачей.По сути, какой бы специальный метод вы ни использовали, используя «глазное яблоко», результаты для здравомыслия должны быть систематизированы, сохраняя ваши суждения от каждой оценки, чтобы их можно было неоднократно запускать против итеративных улучшений модели.

(мне нужно больше информации о ваших данных / предметах и ​​конечных целях, чтобы сделать дополнительные предложения.)

...