Question

Я пытаюсь создать свою собственную модель для распознавания речи с использованием LSTM.Речь - это непрерывные предложения различной длины, и для этой речи есть стенограммы. Я извлек особенности MFCC из аудио и знаю, как передать их в сеть.

Я сомневаюсь, как вы готовите свою стенограмму,Я знаю, что мне нужно сказать много слов о модели, но как мне синхронизировать ввод и вывод, используя фреймы?из таких ресурсов, как

Создание набора речевых данных для двоичной классификации LSTM

говорит об одном отдельном слове, которое может быть легко закодировано в горячем виде.Но для непрерывной речи, как мне поступить.MFCC рассчитаны на определенный период времени, но как мне обеспечить их соответствие?

Как LSTM преобразовывает векторы вложения символов в вектор предложений для классификации предложений?

здесь они просто воспринимают векторы как слова, должен ли я идти вперед с этим или делать что-то, что больше основано на феномах.(Язык гуджарати, а не английский, что-то вроде того, если слово «the», то феномены будут [«ઝ», «ડ», «પી»]).

Я мог бы также сделать что-то вроде поиска средней длины фенома, установить размер кадра mfcc и поработать с этим, это возможно?

Любые ресурсы были бы оценены, так как большинство исследовательских работ, которые я мог найти и получить доступ, говорили о самой модели, а не о том, как подготовить стенограмму.

Подготовка обучающих данных для автоматического распознавания речи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Подготовка обучающих данных для автоматического распознавания речи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы