Тренировочные слова Векторы на весь корпус? - PullRequest
0 голосов
/ 16 мая 2018

Я тренирую модель word2vec на своем корпусе, и мой друг спросил меня, правильно ли тренировать модель word2vec на всем корпусе?Потому что при создании вложений слов я использую весь корпус, поэтому в основном я передаю тестовую информацию в мою сеть в виде этих векторов, что не идеально при обучении нейронной сети.

Наоборот, предположимчто я использую предварительно обученные встраивания слов из Google или любого другого источника по этому вопросу, если они использовали один и тот же документ при создании этих встраиваний, который я буду использовать для проверки своей сети, я все равно буду передавать информацию.

Итак, мой вопрос в том, как правильно обучить word2vec?

  • Разделение тестовых и обучающих данных перед созданием векторов слов?

  • Создание векторов слов во всем корпусе?

...