Я ищу распознавание голоса с открытым исходным кодом для производственных целей;
Я знаю, что точность голоса в текст или понимание языка недостаточно высоки для бесплатного инструмента, или вам нужно много данных для обучения. Однако, если для моей цели мне не нужно понимать значение или преобразовывать речь в текст, а только для того, чтобы правильно определить говорение на одни и те же фразы?
Например.
если я запишу несколько фраз вроде:
- "Японские сцены"
- "хорошие машины"
- "футбол"
Тогда разные голоса говорят:
"прийти посмотреть японские сцены"
тогда он может обнаружить первую упомянутую фразу.
Таким образом, это приложение не требует понимания значения слов или языка. Даже кто-то говорит что-то вздор, но если повторяются одни и те же шаблоны, он может обнаружить.
Я считаю, что это на несколько уровне проще, чем обычное приложение для распознавания голоса или речи. Есть ли у вас какие-либо идеи относительно того, какой инструмент может служить этому на уровне высокой точности (уровня производства)?
Спасибо!