Я пытаюсь выполнить принудительное выравнивание для слов / явлений из аудиофайла с использованием карманного сфинкса в python, но обнаружил, что часто слова, выводимые карманным сфинксом, неверны.У меня есть фактические транскрипции для каждого аудиофайла, и я задаюсь вопросом, могу ли я передать аудио и текст, чтобы получить более точное выравнивание?