Я работаю над добавлением голосового интерфейса к чат-боту в Python на OSX.
Я использую pyaudio
для записи голоса и воспроизведения ответа. Запись и воспроизведение выполняются одновременно, чтобы пользователь мог прервать чат-бота.
Все работает хорошо, за исключением того, что вход внутреннего микрофона принимает выход внутреннего динамика, а механизм преобразования речи в текст транскрибирует то, что воспроизводит динамик. Я могу использовать наушники, чтобы исправить это, но мне нужно использовать внутренний микрофон и динамик для демонстрационных целей.
Я думаю, мне нужно что-то вроде Acoustic Echo Cancellation
. Я изучал это, но не мог понять метод, который работает.
У вас есть идеи, как решить эту проблему?
Спасибо