ТАК что мне нужно сделать, это сопоставить текст со звуком, в основном получить временные метки для того, где каждое слово появляется в аудио, и очень важно, чтобы транскрипция соответствовала существующему тексту, который у меня есть, можно ли будет отправить этот текствместе со звуком, чтобы получить более точную транскрипцию?