Я ищу алгоритм для ускорения английской речи. Алгоритмы, используемые для ускорения музыки, генерируют много артефактов на удвоенной скорости, и я ищу что-то, что работает даже на скоростях 3x или 4x с приемлемой четкостью.
Голос, интонации, паузы - все должно быть максимально сохранено, поэтому метод преобразования речи в текст + преобразования текста в речь не будет работать.
Традиционные методы вокодера кажутся недостаточными (очевидно, я не знаю всех их). Меня интересует какой-то новый метод процедурного или машинного обучения. У меня есть сотни часов лекций для каждого докладчика с расшифровкой стенограммы, поэтому обучение не будет проблемой.
Вариант использования: лекторы просто говорят в невозможном медленном темпе. Например. Я обычно слушаю записи с 2-кратной скоростью на Линде, и эти парни даже не очень медленные.