Высококачественный, эмоциональный, беглый и изменчивый Text-to-Speech движок? - PullRequest
11 голосов
/ 19 июня 2011

Посмотрев на некоторые сервисы / инструменты, я пришел к выводу.Большинство инструментов преобразования текста в речь имеют слишком изощренные, роботизированные - иными словами, голоса низкого качества.

И да, в довершение всего, похоже, что они поставляются с «жестко закодированными» голосовыми шаблонами, следовательно, сокращение ассортимента / настройки.Некоторые инструменты позволяют вам установить скорость чтения и высоту звука », но этого недостаточно.

Я думаю о проблеме эмоционального аспекта - трудно судить об эмоциях из простого текста, даже больше, если это просто предложениеили дваКроме того, хороший старый ПК - это машина - у машин нет эмоций, но это другая история.

Больше всего меня беспокоит качество.Например, есть эти инструменты, которые используют, чтобы отрезать вершину слов, что приводит к таким ярким голосам.Чувствуется, что есть проблема с конструкцией предложения или чем-то еще.И да, в то время как люди работают над такими инструментами, мне интересно, что мешает им работать немного больше, чтобы улучшить их ... отрезать вершину, это немалое дело!Кроме того, имейте в виду, что хорошее, качественное программное обеспечение Text-to-Speech стоит, ну ... МНОГО!Поэтому получается довольно прибыльный продукт.

О, под беглостью я прячу вопросы, восклицания и так далее.(Возможно, это не относится к беглости речи, но я не являюсь носителем английского языка, извините, если это так.)

Список инструментов, которые я изучил:

ДовольноВпечатляет, но все еще есть место для улучшений (++)

- Loquendo : отсутствует голосовое разнообразие, есть небольшие проблемы с апексом / беглостью речи (зависит от предложения), слишком сильный кашельи оправдания в примерах!
- Nuance Vocalizer : хотя все еще не хватает разнообразия, некоторые из представленных голосов достойны внимания.


Можета также сотрудничать, чтобы получить больше ресурсов, чем работать с разными, но почти равными продуктами (-)

- eSpeak : один из лучших роботов, поэтому программаlogo (?!)
- Natural Reader (тупой автопроигрыватель !!) : хорошо, он немного беглый, но все же чувствуется то яркое чувство.
- iSpeech : хорошо смеяться при настройке голоса на японский с английским текстом.Бьюсь об заклад, японские парни не очень рады этому.
- Cepstral + Расширенные голоса ... плюс улучшенные голоса дают доброе староеНеприятный результат, так что, кроме ~ 5 голосов, ничего не было улучшено.
- AT & T : приличная беглость, но возникли проблемы с окончаниями предложений и слишком много робо!
- LumenVox TTS : выглядит как фон с множеством речевых инструментов, но все равно приводит к роботизированным голосам.
- И еще немного...


В случае, если я пропустил что-то, что стоит посмотреть, пожалуйста, поделитесь. Может быть бесплатным, коммерческим, супер дорогим ... пока это работает, мне интересно!

И вопрос ( -s ) ..

  1. Как вы думаете, какие основные проблемы стоят за качеством, беглостью и разнообразием этих голосов? Поскольку эмоциональный аспект трудно судить, яне против, если вы пропустите это, но если у вас есть идея или две, я не возражаю, если вы поделитесь своими мыслями
  2. Как текст преобразуется в речь? Например, какие алгоритмы используются за этими инструментами?Может быть, свежая теория или две могут пригодиться.
  3. Это на самом деле разные движки / драйверы или просто разные голосовые шаблоны для одного и того же водителя / движка?
  4. Это только у меня, или качество между одним из первых Text2Speech инструментов не сильно изменилось (или вообще) за эти годы? И должны ли Признайте, что инструмент этой старой школы Apple дает лучшие результаты, чем некоторые из инструментов 2000+ года, по крайней мере при сравнении видео с тем, что я изучал.)

Ответы [ 3 ]

3 голосов
/ 24 сентября 2011

Я не знаю, ищите ли вы открытое решение, но если у вас есть Mac, вы должны проверить расширенную речевую разметку OS X и " Повтор после меня"инструмент для построения фраз. Это действительно мощно. Голос Alex, встроенный в Mac OS X 10.5 и более поздние версии, более продвинут, чем другие голоса.

На Mac выделите следующий текст, щелкните его, удерживая нажатой клавишу «Control», и перейдите к «Речь»> «Начать говорить»:

You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup

0 голосов
/ 18 августа 2017

Я знаю, что это старый вопрос, но я только что видел демонстрацию " Watson " от IBM, это довольно впечатляюще !!У них есть поддержка нескольких языков, вы можете управлять тоном, паузами, интонацией и некоторыми другими переменными.

Вы должны пойти и посмотреть, если вы все еще ищете это, или если любой другой человек ищетхороший TTS.

Отказ от ответственности: я не работаю на IBM или что-либо связанное с этим продуктом, я просто нашел его впечатляющим!

0 голосов
/ 14 марта 2014

TTS, используемый Google Translate, вполне подходит для коротких фраз, хотя, скорее всего, он создаст неестественный интонационный контур для чего-то сложного.Тем не менее, на уровне слов, это впечатляет.Здесь есть небольшой пример кода

И есть Ivona - Они могут допускать немного больше ошибок артикуляции, чем, например, в Google Translate, но они лучше работают с ритмоминтонация.Проверьте их голос 'Raveena', это один из их лучших пока.

...