Я тренирую модель word2vec на своем корпусе, и мой друг спросил меня, правильно ли тренировать модель word2vec на всем корпусе?Потому что при создании вложений слов я использую весь корпус, поэтому в основном я передаю тестовую информацию в мою сеть в виде этих векторов, что не идеально при обучении нейронной сети.
Наоборот, предположимчто я использую предварительно обученные встраивания слов из Google или любого другого источника по этому вопросу, если они использовали один и тот же документ при создании этих встраиваний, который я буду использовать для проверки своей сети, я все равно буду передавать информацию.
Итак, мой вопрос в том, как правильно обучить word2vec?