Я делаю POC с речью в текст. Мне нужно распознать конкретные слова, такие как «D-STUM» (ежедневная встреча). Проблема в том, что каждый раз, когда я говорю своей программе распознавать «D-STUM», я получаю «Destiny», «This theme» и т. Д.
Я уже заходил на speech.microsoft.com / ... / Customspeech, и Я записал около 40 файлов WAV людей, говорящих "D-STUM" . Я также создал файл с именем «trans.txt», который содержит каждый файл WAV со словом «D-STUM» после каждого файла. Например: D_stum_1.wav D-STUM D_stum_2.wav D-STUM D_stum_3.wav D-STUM D_stum_4.wav D-STUM ...
Затем я загрузил zip-файл, содержащий файлы wav и файл trans.txtфайл, обучить модель с этими данными, и создал конечную точку. Я ссылался на эту конечную точку на моем программном обеспечении и запустил его.
Я ожидаю, что моя обычная речь в текст распознает людей, говорящих "D-STUM" и отображающих "D-STUM" как текст. У меня никогда не отображался «D-STUM» после настройки модели.
Я сделал что-то не так? Это правильный способ сделать индивидуальное обучение? 40 образцов недостаточно, чтобы модель была должным образом обучена?
Спасибо за ваши ответы.