Я пытаюсь создать нейронную сеть, которая выполняет распознавание динамика.Я хотел бы быть в состоянии обслужить его таким образом, чтобы он принимал потоковое аудио - т.е. я хочу выполнить частичное распознавание для кадров 100 мс, а затем вычислить среднее значение в конце.
Я хотел бы знать, какое из следующегоЛучше всего выбрать два варианта.
- Обучение сети на аудиоклипах 100 мс
- Использование аудиоклипов произвольной длины и подача последующих сегментов 100 мс в какую-то рекуррентную сеть.Я думал, что, подобно анализу текста, поддержание некоторой информации о состоянии может быть полезно при идентификации говорящего в режиме реального времени.
Есть ли у кого-нибудь какие-либо рекомендации в этом отношении?Спасибо.