Допустим, мы взяли микрофонный вход (скажем «привет») и сохранили его в виде файла WAV. Затем мы берем тот же вход "привет" с микрофона. Теперь, если они идентичны, мы запускаем действие. Итак, как мы можем сравнить и проверить необработанные данные двух входов?
Обновление: Предположим, мы хотим, чтобы было произнесено точное слово и не интересовались, кто произнес это слово, поскольку это помешало бы создать программу / программное обеспечение. Пользователь независим. Другими словами: нам нужно извлекать точное изречение на микрофонном входе пользователя, а затем проверять, было ли оно идентичным какой-либо из заданных предопределенных команд, которые, в свою очередь, вызывают действие.
Другими словами, нам нужно следующее:
- извлечение точных слов, произнесенных говорящим / пользователем.
- сравнить / проверить, является ли слово, произнесенное пользователем, таким же или идентичным любому из сохраненных предопределенных слов.
Так как же нам заняться нашим бизнесом?