Кажется, это легко исправить. Я думаю, что проблема, которая мешает подобным вещам, - это фоновый шум. Хотя не существует специального c способа сделать то, о чем вы просите, вы можете запрограммировать его так, чтобы программа настраивалась на фоновый шум и даже фокусировалась на говорящем. Сделайте это для своей программы ...
r.adjust_for_ambient_noise(source)