При использовании предварительно обученных вложений W2V в слое внедрения в последовательной модели Keras, должна ли моя матрица внедрения состоять из словаря из всего набора или просто данных поезда?
Я использую последовательную модель Keras, чтобы сделать двоичная классификация по текстовым данным. У моих данных поезда есть уникальный словарный запас приблизительно 6000 слов, и у данных теста есть приблизительно 2000 уникальных слов. Когда я использую все 8000 слов в матрице встраивания и обучаю сеть, я получаю хорошие оценки предсказания, тогда как использование только 6000 нечетных слов из данных поезда делает модель очень плохой. Что я здесь не так делаю? Нужно ли мне добавлять больше данных, чтобы почти все уникальные слова в тесте были включены в мой тренировочный набор? В настоящее время я использую последовательную модель с 1 слоем внедрения, 20 GRU и сигмовидной активацией для прогноза. Я устанавливаю обучаемый параметр в ложь в слое внедрения.