Потоковое аудио в нейронной сети - PullRequest
0 голосов
/ 27 июня 2019

Я пытаюсь создать нейронную сеть, которая выполняет распознавание динамика.Я хотел бы быть в состоянии обслужить его таким образом, чтобы он принимал потоковое аудио - т.е. я хочу выполнить частичное распознавание для кадров 100 мс, а затем вычислить среднее значение в конце.

Я хотел бы знать, какое из следующегоЛучше всего выбрать два варианта.

  • Обучение сети на аудиоклипах 100 мс
  • Использование аудиоклипов произвольной длины и подача последующих сегментов 100 мс в какую-то рекуррентную сеть.Я думал, что, подобно анализу текста, поддержание некоторой информации о состоянии может быть полезно при идентификации говорящего в режиме реального времени.

Есть ли у кого-нибудь какие-либо рекомендации в этом отношении?Спасибо.

...