Преобразование голоса в текст во время разговора в Python - PullRequest
0 голосов
/ 11 декабря 2018

Я создал программу, которая позволяет мне говорить и преобразовывает ее в текст.Это преобразует мой голос после того, как я перестал говорить.Что я хочу сделать, так это преобразовать свой голос в текст во время разговора.

https://www.youtube.com/watch?v=96AO6L9qp2U&t=2s&ab_channel=StormHack в момент 2:31.

Обратите внимание на правый верхний угол монитора Тони.Он преобразует его голос в текст во время разговора.Я хочу сделать то же самое.Можно ли это сделать?

Это вся моя программа:

import speech_recognition as sr 
import pyaudio


r = sr.Recognizer()
with sr.Microphone() as source:
    print("Listening...")
    audio = r.listen(source)
    try:
        text = r.recognize_google(audio)
        print("You said : {}".format(text))
    except:
        print("Sorry could not recognize what you said")

Решение, советы, подсказки или еще что-нибудь будет оценено, спасибо заранее.

1 Ответ

0 голосов
/ 16 мая 2019

Чтобы сделать это, вам нужно будет сделать то, что называется VAD: распознавание голоса, простой способ сделать это - взять набор сэмплов из звука и захватить их интенсивность, если они превышают определенный порог, тогда выследует начать запись, как только интенсивность падает ниже определенного порога в течение определенного периода времени, тогда вы завершаете запись и отправляете ее в службу.Вы можете найти пример этого здесь .

Более сложные системы используют лучшую эвристику, чтобы решить, говорит ли пользователь, например, частоту, а также применяют такие вещи, как шумоподавление, другие системы также могут выполнять живую речь в текст, как пользовательговоря как DeepSpeech 2.

...