Предположим, у меня есть проблема с классификацией текста с небольшим обучающим набором, состоящим примерно из 2000 предложений в качестве обучающих примеров, и около 130 возможных классов.
Моя модель состоит из:
- 100d GloVe встраивание входов
- Нормализация и выпадение
- 1 слой bi-GRU
- Выпадение
- Плотный слой (для классификации)
Предполагая, что все настройки гиперпараметров выполнены правильно, но у меня все еще сохраняется высокая дисперсия (ошибка разработки около 15%), может ли уменьшение размера вложений до 50d и переход на uni-GRU помочь уменьшить дисперсию?
Я не слишком уверен в этом, потому что технически сокращение количества функций и размера модели может помочь уменьшить дисперсию, но я не уверен, применимо ли это к предварительно обученному размеру встраивания и количеству направлений RNN.