Как проверить производительность встраивания слов - PullRequest
0 голосов
/ 11 июля 2019

Я использовал модель Word2Vec gensim и применил ее в своем списке документов. Ну, вложение слова создается. Я хочу знать, хорошо ли работает Word2Vec в моем списке документов. Есть ли метрики для измерения этого? Как я пойму, действительно ли Word2Vec хорошо сработал в моем корпусе документов или мне стоит попробовать другое встраивание? Ниже приведен код, который я использовал от Gensim.

import gensim
model = gensim.models.Word2Vec(documents , size=150, window=10, min_count=2, sg=1, workers=10)

1 Ответ

0 голосов
/ 12 июля 2019

Не существует универсального определения «хорошо выступать».Это зависит от ваших конечных целей.

Почему вы хотите создавать слова-векторы?Какую ценность вы ожидаете от них?

Получив ответы на эти вопросы, вы можете сначала просмотреть результаты неформальным, специальным образом: посмотрите на некоторые слова ближайших соседей (результаты wordvecs.most_similar(query_word)), чтобы увидеть,смысл для вас, для ваших нужд и проблемных областей.

Но для того, чтобы действительно проверить, улучшаются ли ваши модели с течением времени, когда вы улучшаете свои данные или параметры модели, вы должны создать несколько повторяющихся количественных тестов, которые соответствуют вашей конечной цели.(Например: нужны ли вам определенные пары слов, чтобы они были ближе друг к другу, чем к какому-либо третьему слову? Используете ли вы слова-слова в качестве входных данных для некоторого другого процесса классификации или поиска информации, который имеет некоторые известные, желательные результаты?)

Запустите эти тесты, чтобы оценить модель, затем сравните оценку одной модели с другой.

...