Я создал речевой набор данных для обучения с DeepSpeech, следуя этому (https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf) учебник.
Но я не смог натренировать свой набор данных с глубокой речью.
Itвыдает ошибку в результате команды поезда, например
python DeepSpeech.py --train_files /mnt/c/wsl/teneke_out_bolum1/
Выдает ошибку:
pandas.errors.ParserError: Ошибка токенизации данных. Ошибка C: вызов read (nbytes) в исходном коде не удалось. Попробуйте engine = 'python'.
Я создал набор данных после выравнивания силы Энея и тонкой настройки с помощью finetuneas:
Вот мой код, который я использовал в GoogleColab для обучения с DeepSpeech:
https://gist.github.com/mustafaxfe/d20be114ca7cea5c47ea5cc85653c761
Я нашел некоторые решения в Google, такие как
data = pd.read_csv('file1.csv', error_bad_lines=False)
Также как вывод ошибок, я могу решить с настройкой
engine = 'python'
Но я не мог понять, где мне следует измениться.
Итак, где я должен редактировать, чтобы исправить эту проблему.
Спасибо.