У меня есть аудиофайл, содержащий некоторую речь (syntheti c (созданную Google TTS)), а также другие аудиозаписи. Я ищу способ найти отметку времени каждый раз, когда встречается речевая часть аудио. Речь всегда начинается с одного и того же слова, скажите «это», поэтому я думаю, что индексирование или определение слова с отметкой времени должны работать для меня. Тем не менее, я попытался использовать Pocketsphinx, но транскрипция, которую он дает, абсолютно неверна. Я также попробовал «простой звуковой индексатор», но он выдает мне одну внутреннюю ошибку за другой.