Учитывая текст и аудиофайл, как я могу выделить каждое слово во время его произнесения? Текст, произносимый в аудиофайле, соответствует данному тексту.