У меня возникли проблемы с поиском указателей на то, как выполнить то, что кажется обманчиво легким заданием:
Учитывая аудиопоток, как вы подсчитываете количество произнесенных слов,в реальном времени?
Мне не нужно распознавать, что это за слова, а просто иметь точный счетчик произнесенных слов.Счетчик не должен быть слишком точным и может даже учитывать высказывания и другие «хрюканья», такие как кашель.
Похоже, что все системы распознавания речи зависят от заранее определенной грамматики, которая должна быть предоставлена до того, как они смогут анализировать фонемы, на которых говорят, для преобразования в известные слова с некоторой степенью точности.Но мне совершенно не важна точность, а скорее скорость произнесения слов.
Важно то, что это происходит в режиме реального времени и позволяет системе отправлять оповещения после определенного числаслова были сказаны.Система будет стимулировать визуальную реплику к паузе, а затем динамик сможет продолжить.
Я просмотрел часто задаваемые вопросы по CMU Sphinx и обнаружил, что идея «подбора слов» пока не поддерживается.Мне действительно не нужен поиск в реальном времени определенных слов, но он приближается к тому, что я ищу.Поиск очень маленьких пауз в осциллограмме кажется очень грубым способом сделать это и, вероятно, совсем не точным, но это все, что у меня есть сейчас.
Любые указатели на алгоритмы, исследовательские работы или любые другиепонимание будет оценено!