Может ли кто-нибудь помочь мне, пожалуйста?
У меня есть вопрос, когда я читаю вашу статью, ее заголовок: «Непрерывное распознавание речи на основе сверточных нейронных сетей с использованием необработанного речевого сигнала»
Вопрос в том, что:
Я не знаю, каков ваш исходный размер входного речевого сигнала.
Я хочу знать, что ваш ввод2-мерное необработанное изображение речевого сигнала?
Я не имею ввиду функцию (1) и букву M, обозначенную в статье. Image1
4. Я также хочу знать функцию (2) среднее. Image2
5.Я не знаю об этом: Image3 он говорит, что CNN-1L состоит из 3 сверток и 1 скрытого слоя, а CNN-3L3 свертки и 3 скрытых слоя, поэтому у них нет слоя с максимальным пулом?
Но он также говорит: Image4 это означает, что архитектура выглядит следующим образом: Слой свертки |Макс-пул слой |Сверточный слой |Макс-пул слой |Сверточный слой |Макс-пул слой |[Стадия классификации] верно?
6. Я хочу знать среднее значение «Количество фильтров на ядро». Image5
7. Я не знаю, что означает "ширина ядра 50 сэмплов", почему здесь используются "сэмплы", разве это не кадры? Image6
выше мой вопрос, пожалуйста, ответьте мне, я буду очень благодарен.