Я создаю приложение для изучения японского языка, и у меня есть часть там, где они должны повторить данное им предложение.Есть ли другой удобный способ сравнить аудио-файл и пользовательский ввод?вместо того, чтобы просто передать речь в текст?Мне нужно сравнение высоты тона.