Я изучаю движок Mozilla DeepSpeech Speech-To-Text.У меня не было проблем с работой интерфейса командной строки, но интерфейс Python, похоже, ведет себя по-другому.Когда я запускаю:
deepspeech --model models/output_graph.pb --alphabet models/alphabet.txt --audio testFile3.wav
На PCM, 16-битном, моно 48000 Гц .wav-файле, созданном с помощью sox, я получаю следующее:
test test apple benana
минус "benana", когдаЯ имел в виду «банан», он, кажется, работает нормально, наряду с другими файлами, на которых я его тестировал.Проблема возникает, когда я пытаюсь использовать следующий код, полученный из этого руководства :
import deepspeech
import scipy.io.wavfile as wav
import sys
ds=deepspeech.Model(sys.argv[1],26,9,sys.argv[2],500)
fs,audio=wav.read(sys.argv[3])
processed_data=ds.stt(audio,fs)
print(processed_data)
Я запускаю код с помощью следующей команды:
python3 -Bi test.py models/output_graph.pb models/alphabet.txt testFile3.wav
В зависимости от конкретного файла я получаю разные четырехсимвольные ответы.Ответ, который я получил от этого конкретного файла, был 'hahm'
, но 'hmhm'
и ' eo'
также распространены.Изменение параметров модели (25, 9 и 500) не влияет на вывод.