Я работаю по системе OCR seq2seq. Имею модель энкодера-декодера CNN-LSTM-LSTM. CNN состоит из 2 сверточных слоев:
conv32 -> relu -> bnorm -> conv64 -> relu -> bnorm.
Так, например, если входное изображение имеет размер 600x32px, после второго слоя bnorm будет выходным размером 150x8x64. Затем я переделываю его так, чтобы он имел 150x512.
Я хотел бы спросить вас, может ли этот преобразованный вывод быть обработан кодировщиком LSTM или необходимо что-то еще. Я видел, что некоторые люди помещают один плотный с размером 512 после слоя изменения формы, и затем он обрабатывается с LSTM. Когда я пробую это, точность не меняется ... так для чего нужен плотный слой после изменения формы?
Спасибо