Уровень встраивания Keras. Должна ли матрица встраивания состоять из словаря из всего набора или только данных поезда? - PullRequest
0 голосов
/ 24 февраля 2020

При использовании предварительно обученных вложений W2V в слое внедрения в последовательной модели Keras, должна ли моя матрица внедрения состоять из словаря из всего набора или просто данных поезда?

Я использую последовательную модель Keras, чтобы сделать двоичная классификация по текстовым данным. У моих данных поезда есть уникальный словарный запас приблизительно 6000 слов, и у данных теста есть приблизительно 2000 уникальных слов. Когда я использую все 8000 слов в матрице встраивания и обучаю сеть, я получаю хорошие оценки предсказания, тогда как использование только 6000 нечетных слов из данных поезда делает модель очень плохой. Что я здесь не так делаю? Нужно ли мне добавлять больше данных, чтобы почти все уникальные слова в тесте были включены в мой тренировочный набор? В настоящее время я использую последовательную модель с 1 слоем внедрения, 20 GRU и сигмовидной активацией для прогноза. Я устанавливаю обучаемый параметр в ложь в слое внедрения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...