Question

Посмотрев на некоторые сервисы / инструменты, я пришел к выводу.Большинство инструментов преобразования текста в речь имеют слишком изощренные, роботизированные - иными словами, голоса низкого качества.

И да, в довершение всего, похоже, что они поставляются с «жестко закодированными» голосовыми шаблонами, следовательно, сокращение ассортимента / настройки.Некоторые инструменты позволяют вам установить скорость чтения и высоту звука », но этого недостаточно.

Я думаю о проблеме эмоционального аспекта - трудно судить об эмоциях из простого текста, даже больше, если это просто предложениеили дваКроме того, хороший старый ПК - это машина - у машин нет эмоций, но это другая история.

Больше всего меня беспокоит качество.Например, есть эти инструменты, которые используют, чтобы отрезать вершину слов, что приводит к таким ярким голосам.Чувствуется, что есть проблема с конструкцией предложения или чем-то еще.И да, в то время как люди работают над такими инструментами, мне интересно, что мешает им работать немного больше, чтобы улучшить их ... отрезать вершину, это немалое дело!Кроме того, имейте в виду, что хорошее, качественное программное обеспечение Text-to-Speech стоит, ну ... МНОГО!Поэтому получается довольно прибыльный продукт.

О, под беглостью я прячу вопросы, восклицания и так далее.(Возможно, это не относится к беглости речи, но я не являюсь носителем английского языка, извините, если это так.)

Список инструментов, которые я изучил:

ДовольноВпечатляет, но все еще есть место для улучшений (++)

^{- Loquendo : отсутствует голосовое разнообразие, есть небольшие проблемы с апексом / беглостью речи (зависит от предложения), слишком сильный кашельи оправдания в примерах!}
^{- Nuance Vocalizer : хотя все еще не хватает разнообразия, некоторые из представленных голосов достойны внимания.}

Можета также сотрудничать, чтобы получить больше ресурсов, чем работать с разными, но почти равными продуктами (-)

^{- eSpeak : один из лучших роботов, поэтому программаlogo (?!)}
^{- Natural Reader (тупой автопроигрыватель !!) : хорошо, он немного беглый, но все же чувствуется то яркое чувство.}
^{- iSpeech : хорошо смеяться при настройке голоса на японский с английским текстом.Бьюсь об заклад, японские парни не очень рады этому.}
^{- Cepstral + Расширенные голоса ... плюс улучшенные голоса дают доброе староеНеприятный результат, так что, кроме ~ 5 голосов, ничего не было улучшено.}
^{- AT & T : приличная беглость, но возникли проблемы с окончаниями предложений и слишком много робо!}
^{- LumenVox TTS : выглядит как фон с множеством речевых инструментов, но все равно приводит к роботизированным голосам.}
^{- И еще немного...}

В случае, если я пропустил что-то, что стоит посмотреть, пожалуйста, поделитесь. Может быть бесплатным, коммерческим, супер дорогим ... пока это работает, мне интересно!

И вопрос ( -s ) ..

Как вы думаете, какие основные проблемы стоят за качеством, беглостью и разнообразием этих голосов? Поскольку эмоциональный аспект трудно судить, яне против, если вы пропустите это, но если у вас есть идея или две, я не возражаю, если вы поделитесь своими мыслями
Как текст преобразуется в речь? Например, какие алгоритмы используются за этими инструментами?Может быть, свежая теория или две могут пригодиться.
Это на самом деле разные движки / драйверы или просто разные голосовые шаблоны для одного и того же водителя / движка?
Это только у меня, или качество между одним из первых Text2Speech инструментов не сильно изменилось (или вообще) за эти годы? И должны ли Признайте, что инструмент этой старой школы Apple дает лучшие результаты, чем некоторые из инструментов 2000+ года, по крайней мере при сравнении видео с тем, что я изучал.)

Matt Montag · Answer 1 · 24 сентября 2011

Я не знаю, ищите ли вы открытое решение, но если у вас есть Mac, вы должны проверить расширенную речевую разметку OS X и " Повтор после меня"инструмент для построения фраз. Это действительно мощно. Голос Alex, встроенный в Mac OS X 10.5 и более поздние версии, более продвинут, чем другие голоса.

На Mac выделите следующий текст, щелкните его, удерживая нажатой клавишу «Control», и перейдите к «Речь»> «Начать говорить»:

You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup

Esteban Serna · Answer 2 · 18 августа 2017

Я знаю, что это старый вопрос, но я только что видел демонстрацию " Watson " от IBM, это довольно впечатляюще !!У них есть поддержка нескольких языков, вы можете управлять тоном, паузами, интонацией и некоторыми другими переменными.

Вы должны пойти и посмотреть, если вы все еще ищете это, или если любой другой человек ищетхороший TTS.

Отказ от ответственности: я не работаю на IBM или что-либо связанное с этим продуктом, я просто нашел его впечатляющим!

Spike0xff · Answer 3 · 14 марта 2014

TTS, используемый Google Translate, вполне подходит для коротких фраз, хотя, скорее всего, он создаст неестественный интонационный контур для чего-то сложного.Тем не менее, на уровне слов, это впечатляет.Здесь есть небольшой пример кода

И есть Ivona - Они могут допускать немного больше ошибок артикуляции, чем, например, в Google Translate, но они лучше работают с ритмоминтонация.Проверьте их голос 'Raveena', это один из их лучших пока.

Высококачественный, эмоциональный, беглый и изменчивый Text-to-Speech движок?

Список инструментов, которые я изучил:

ДовольноВпечатляет, но все еще есть место для улучшений (++)

Можета также сотрудничать, чтобы получить больше ресурсов, чем работать с разными, но почти равными продуктами (-)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Высококачественный, эмоциональный, беглый и изменчивый Text-to-Speech движок?

Список инструментов, которые я изучил:

ДовольноВпечатляет, но все еще есть место для улучшений (++)

Можета также сотрудничать, чтобы получить больше ресурсов, чем работать с разными, но почти равными продуктами (-)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы