Создание поезда, тестовых данных для модели Word2Vec - PullRequest
0 голосов
/ 08 июня 2019

Я пытаюсь создать модель W2V, а затем сгенерировать данные о поездах и тестах, которые будут использоваться для моей модели. Мой вопрос заключается в том, как я могу генерировать тестовые данные после того, как я закончу с созданием модели W2V с моими данными о поездах.

1 Ответ

0 голосов
/ 09 июня 2019

Word2Vec считается «неконтролируемым» алгоритмом, поэтому, по крайней мере, во время его обучения не принято удерживать какие-либо «тестовые» данные для последующей оценки.

Затем модель Word2Vec обычно оценивается на предмет того, насколько хорошо она помогает какому-то другому процессу, такому как решение аналогий, выделенное в оригинальной статье.В gensim метод [evaluate_word_analogies()][1] может повторить этот процесс.Но обратите внимание: слова-векторы, которые лучше всего работают по аналогиям слов, мои , а не будут лучше для других целей, таких как классификация или поиск информации.Всегда лучше оценивать и настраивать ваши словосочетания повторяющимся образом, который связан с вашим фактическим использованием.

(Если вы используете выходные данные модели Word2Vec - векторы слов, специфичные для вашего домена, - как часть более крупной системы, где некоторые этапы должны оцениваться с использованием скрытых данных, решение о том, следует ли проводить обучениекомпонент Word2Vec для всех данных может работать в любом случае, в зависимости от других соображений.)

...