Как измерить точность модели Word2vec, обученной на другом языке? - PullRequest
0 голосов
/ 20 января 2019

Я обучил модель word2vec не для английского, а для азиатского языка 'сингальский'. на более позднем этапе я собираюсь использовать эту обученную модель, чтобы получить сходство предложений, чтобы обнаружить плагиат в сингальских документах. Пожалуйста, объясните мне, как измерить точность обученной модели. Я студент университета. До этого я ничего не знал.

1 Ответ

0 голосов
/ 22 января 2019

Универсального показателя качества или «точности» модели word2vec не существует.

Обычно сообщаемая "точность", как правило, основана на ряде вопросов об аналогиях на английском языке, которые были использованы Google в их оригинальной статье word2vec (и включены в их выпуск исходного кода). См. Например:

https://github.com/tmikolov/word2vec/blob/master/questions-words.txt

Чтобы сделать аналогичный расчет для другого языка, вам необходимо предоставить аналогичный набор вопросов для оценки для этого языка. Я не знаю ни одной коллекции таких вопросов для сингальского или других языков, поэтому вам, возможно, придется найти или создать ее самостоятельно. (Вы можете создать альтернативный файл в том же формате и использовать существующие методы оценки, указав альтернативный файл.)

...