Question

Я пытаюсь создать нейронную сеть, которая выполняет распознавание динамика.Я хотел бы быть в состоянии обслужить его таким образом, чтобы он принимал потоковое аудио - т.е. я хочу выполнить частичное распознавание для кадров 100 мс, а затем вычислить среднее значение в конце.

Я хотел бы знать, какое из следующегоЛучше всего выбрать два варианта.

Обучение сети на аудиоклипах 100 мс
Использование аудиоклипов произвольной длины и подача последующих сегментов 100 мс в какую-то рекуррентную сеть.Я думал, что, подобно анализу текста, поддержание некоторой информации о состоянии может быть полезно при идентификации говорящего в режиме реального времени.

Есть ли у кого-нибудь какие-либо рекомендации в этом отношении?Спасибо.

Потоковое аудио в нейронной сети

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Потоковое аудио в нейронной сети

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы