Попробуйте эту программу. У меня был некоторый опыт в этом.
engine = pyttsx3.init('sapi5')<--- Sapi5 is Win 10 only. Find the one for your system.
voices = engine.getProperty('voices')
engine.setProperty('voice', voices[1].id)
def speak(audio):
engine.say(audio)
engine.runAndWait()
Тогда вот что вы делаете, чтобы он говорил:
speak("I am speaking this right now")