Посмотрев на некоторые сервисы / инструменты, я пришел к выводу.Большинство инструментов преобразования текста в речь имеют слишком изощренные, роботизированные - иными словами, голоса низкого качества.
И да, в довершение всего, похоже, что они поставляются с «жестко закодированными» голосовыми шаблонами, следовательно, сокращение ассортимента / настройки.Некоторые инструменты позволяют вам установить скорость чтения и высоту звука », но этого недостаточно.
Я думаю о проблеме эмоционального аспекта - трудно судить об эмоциях из простого текста, даже больше, если это просто предложениеили дваКроме того, хороший старый ПК - это машина - у машин нет эмоций, но это другая история.
Больше всего меня беспокоит качество.Например, есть эти инструменты, которые используют, чтобы отрезать вершину слов, что приводит к таким ярким голосам.Чувствуется, что есть проблема с конструкцией предложения или чем-то еще.И да, в то время как люди работают над такими инструментами, мне интересно, что мешает им работать немного больше, чтобы улучшить их ... отрезать вершину, это немалое дело!Кроме того, имейте в виду, что хорошее, качественное программное обеспечение Text-to-Speech стоит, ну ... МНОГО!Поэтому получается довольно прибыльный продукт.
О, под беглостью я прячу вопросы, восклицания и так далее.(Возможно, это не относится к беглости речи, но я не являюсь носителем английского языка, извините, если это так.)
Список инструментов, которые я изучил:
ДовольноВпечатляет, но все еще есть место для улучшений (++)
- Loquendo : отсутствует голосовое разнообразие, есть небольшие проблемы с апексом / беглостью речи (зависит от предложения), слишком сильный кашельи оправдания в примерах!
- Nuance Vocalizer : хотя все еще не хватает разнообразия, некоторые из представленных голосов достойны внимания.
Можета также сотрудничать, чтобы получить больше ресурсов, чем работать с разными, но почти равными продуктами (-)
- eSpeak : один из лучших роботов, поэтому программаlogo (?!)
- Natural Reader (тупой автопроигрыватель !!) : хорошо, он немного беглый, но все же чувствуется то яркое чувство.
- iSpeech : хорошо смеяться при настройке голоса на японский с английским текстом.Бьюсь об заклад, японские парни не очень рады этому.
- Cepstral + Расширенные голоса ... плюс улучшенные голоса дают доброе староеНеприятный результат, так что, кроме ~ 5 голосов, ничего не было улучшено.
- AT & T : приличная беглость, но возникли проблемы с окончаниями предложений и слишком много робо!
- LumenVox TTS : выглядит как фон с множеством речевых инструментов, но все равно приводит к роботизированным голосам.
- И еще немного...
В случае, если я пропустил что-то, что стоит посмотреть, пожалуйста, поделитесь. Может быть бесплатным, коммерческим, супер дорогим ... пока это работает, мне интересно!
И вопрос ( -s ) ..
- Как вы думаете, какие основные проблемы стоят за качеством, беглостью и разнообразием этих голосов? Поскольку эмоциональный аспект трудно судить, яне против, если вы пропустите это, но если у вас есть идея или две, я не возражаю, если вы поделитесь своими мыслями
- Как текст преобразуется в речь? Например, какие алгоритмы используются за этими инструментами?Может быть, свежая теория или две могут пригодиться.
- Это на самом деле разные движки / драйверы или просто разные голосовые шаблоны для одного и того же водителя / движка?
- Это только у меня, или качество между одним из первых Text2Speech инструментов не сильно изменилось (или вообще) за эти годы? И должны ли Признайте, что инструмент этой старой школы Apple дает лучшие результаты, чем некоторые из инструментов 2000+ года, по крайней мере при сравнении видео с тем, что я изучал.)