Я разрабатываю приложение, которое использует распознавание голоса , чтобы помочь слепым людям изучать музыку. Для этого я подумываю использовать что-то как DialogFlow.ai или даже Amazon Alexa , чтобы не вернуть колесо. Таким образом, бывают случаи, когда я хочу использовать необработанные аудиоданные, чтобы проверить, настроены ли инструменты. С помощью этих технологий по умолчанию весь аудиовход интерпретируется и, следовательно, преобразуется в текст. Итак, есть ли способ использовать необработанные аудиоданные вместо интерпретации речи пользователя?