Хорошо, я могу быть полностью выключен, но использование полнофункциональной библиотеки распознавания речи может оказаться излишним для вашего варианта использования.
Если вы можете жить с чем-то более простым, но все же управляемым аудио, подумайте об этом:
Обнаружение хлопка в ладоши очень просто. Хлопание в ладоши будет иметь высокую энергию по всей звуковой группе. Обнаружение этого является простым и намного более дешевым в вычислительном отношении, чем полное распознавание речи.
В двух словах, вы записываете аудио, выполняете (короткое время) БПФ для данных и обнаруживаете случай, когда у вас высокая энергия в 80% доступных частотных интервалов. 80% решает любые проблемы с фазированием из-за простой настройки комнаты записи / микрофона. Затем настройте порог по вкусу, и все готово.
То же самое можно сделать с распознаванием речи, но вы сожжете тонн циклов ЦП.