Удобство использования: распознавание речи по сравнению с клавиатурой - PullRequest
0 голосов
/ 22 мая 2009

Мы видим все больше и больше реализованных функций распознавания речи и запрашиваем библиотеки, которые хорошо распознают речь. Каково обоснование (с точки зрения удобства использования) этого по сравнению с клавиатурой или клавиатурой? Какие причины вы должны инвестировать в это развитие?

Например, возьмем колл-центры. Несколько лет назад почти каждый колл-центр использовал IVR, который запрашивал ключ для меню. Теперь мы видим все больше и больше меню с подсказкой для произнесенного ключевого слова и / или нажатой клавиатуры: «пожалуйста, скажите счет или нажмите 1, чтобы увидеть свой счет». Или мы видим то же самое в телефонном справочнике компаний: «Скажите, пожалуйста, имя человека, с которым вы пытаетесь связаться» ... «Франк Лойд» ... «Вы сказали Джек Фрейд? чтобы связаться с этим человеком или сказать «нет», чтобы повторить попытку ».

Полагаю, это плюс, когда ты сидишь в машине, не держа телефон, но стоит ли это дополнительного времени ожидания? Более продолжительное взаимодействие для всех вариантов выбора, более длительное время для запроса при попытке проанализировать, если что-то было сказано и так далее? Кроме того, надежность лучше, чем была, определенно, но иногда это больше похоже на игрушку, которую кто-то решил подключить к системе, чтобы она чувствовала себя футуристично.

Есть ли у вас опыт разработки IVR или программного обеспечения, которое использовало (или предпочло не делать) распознавание речи?

Спасибо!

Ответы [ 4 ]

1 голос
/ 17 августа 2009

Каково обоснование (в терминах удобство использования) за клавиатурой и клавиатурой или клавиатура?

Юзабилити - это очень широкий термин. Если бы я попытался ввести свой адрес с помощью сенсорной панели, это было бы не очень удобно. Некоторые утверждают, что использование речевого движка с общим уровнем успеха 70-80% также не очень удобно. Как указано в других сообщениях, ввод с использованием громкой связи может быть намного проще для тех, кто работает на мобильном телефоне. Однако использование слов и числового ввода на самом деле может быть менее интуитивно понятным, чем использование телефона с тональным набором, если тема является чуждой для абонента. Вызывающие абонента термины и фразы, которые не очень знакомы, не могут запомнить их в течение 10-30 секунд запроса, но они могут наводить пальцем на лучший звучащий выбор или запомнить порядок выбора.

Какие бы у вас были причины инвестировать в это развитие?

Это странный вопрос. Обычно решение использовать речь или нет в среде IVR не зависит от взгляда на мир с точки зрения развития. Если у вас нет конкретного требования, которое действительно требует речи, вы почти всегда снижаете общий уровень успеха. Речь, как правило, является фактором корпоративного имиджа ... или наличия новейшей технологической игрушки.

Полагаю, это плюс, когда ты в машине, не держа телефон но стоит ли дополнительное время ожидания?

В настоящее время задержки распознавания речи не очень высоки при использовании современных ASR. В большинстве случаев ввод обрабатывается параллельно с речью, а время между окончанием распознавания речи составляет от 0,5 до 1 с. Имейте в виду, что многие IVR должны выполнять поиск данных после некоторых входных данных, и это может выглядеть как более медленная система. Нормальные входы, выходящие за пределы 1 с, обычно являются признаком недостаточного питания.

Возможно, при первоначальной реализации он не был недостаточно мощным, но благодаря усилиям по настройке вы принимаете множество решений по производительности и точности. Чтобы получить следующие 1%, ресурсы могут быть выведены за пределы того, что они должны быть на пике.

Кроме того, надежность лучше, чем была, безусловно, но иногда это больше похоже на игрушку, кто-то решил подключить к системе, чтобы она могла быть футуристической.

В общем, да. На заметке о надежности вам нужно реально посмотреть на общие цифры, чтобы получить представление о системе. Это битва статистики, где человек не очень важен (если только он не имеет звания VP или выше). Оптимизация входных данных (смещение запросов), использование ресурсов и другие параметры настройки речевого воспроизведения позволяют максимально повысить точность. Основные ответы на естественном языке вы можете получить в начале 90-х. Тем не менее, ваш общий показатель успеха намного ниже. Представьте себе, что все 5 приглашений имеют 98% (на самом деле, у вас обычно есть группа 99, а затем несколько середин 90-х или чуть ниже): .98 * .98 * .98 * .98 * .98 = 90%. Это означает, что 1 из 10 терпит неудачу. Это до смущения вызывающего абонента и бизнес-правил. Вход DTMF обычно очень близок к 100%, даже после нескольких входов.

Любой опыт разработки IVR или программного обеспечения, которое использовал (или предпочел не делать) распознавание речи? Да. Но я подозреваю, что это действительно не тот вопрос, который вам нужен. Как специалист в области технологий, это, как правило, не ваше решение, и вы оказываете на него ограниченное влияние. Если вы действительно ищете плюсы и минусы речи:

Плюсы:

  • Круто / модно (заметьте, одной речи недостаточно. Вам нужен отличный VUI и голосовой талант)
  • Хорошо для очень мобильной толпы, которая избегает наушников. Предполагается, что будущее будет сочетать речь с тактильным вводом. Может быть. Вероятно, это не будет происходить со стороны IVR рынка.
  • Подходит для задач, которые нельзя выполнить с помощью DTMF. Обратите внимание, что многие из этих проблем, как правило, также имеют низкий уровень успеха в речи. Стоимость (по сравнению с людьми) обычно является движущим фактором, а не юзабилити. Переадресация вызова в ящик голосовой почты для таких вещей, как изменение адреса, может быть очень экономически эффективной.

Минусы:

  • Дорого к разработке, развертыванию и сопровождению. Добавление новых вариантов может оказать значительное влияние на показатели успеха, если вы не будете осторожны. Всегда следите за последствиями изменений.
  • Часто используется не по назначению. Например, просто назовите ваш выбор числового меню. Это почти всегда тот случай, когда нам нужна речевая прохладность, но мы не можем позволить себе то, что требуется для достижения речевой прохлады.
  • Показатели успеха будут ниже, и, следовательно, расходы на колл-центр будут выше.
  • Сбои, как правило, направлены на конкретные запросы и отдельных абонентов. Абонент, который регулярно испытывает проблемы с вашей системой, будет очень недоволен вами.
  • Абоненты злятся, когда их не понимают. Ваша цель - определить подмножество вашей клиентской базы и действительно разозлить их?
1 голос
/ 23 мая 2009

В некоторых случаях компания обязана обращаться с поворотными телефонами. Может оказаться более экономически эффективным просто установить систему распознавания вместо обоих.

Распознавание голоса имеет гораздо больше накладных расходов, чем тональные сигналы. Если вы хотите получить наилучшие результаты, вам нужно постоянно настраивать приложение и обучать систему неопознанному произношению слов. Вы также должны быть очень внимательны к тому, как вы предлагаете пользователю распознавание голоса, иначе вы можете получить неожиданные ответы.

Общий тональный набор намного проще, поскольку в любой момент времени имеется только ограниченный набор возможных вариантов.

Если ваше приложение достаточно прямолинейно, вы озвучиваете, что многие только усложняют его. Нажмите 2 для другого языка ..

1 голос
/ 24 мая 2009

Распознавание речи - определенно волна будущего в сочетании с технологией сенсорного экрана. В качестве примера я использую распознавание речи tazti. Он доступен в версиях XP и Vista. Поскольку платформа Microsoft Surface с сенсорным экраном работает на Vista, я уверен, что Tazti будет работать с технологией сенсорного экрана. Когда я попробовал распознавание речи tazti, встроенные команды работали отлично. Также это позволяет мне создавать свои собственные речевые команды, и они также отлично работают. Голосовой поиск Google и Yahoo, Wikipedia Youtube и многие другие поисковые системы работают отлично. Также имеет много других функций. Но это не имеет диктовки. Я обнаружил, что я исключаю 70% или более моих интернет-кликов .... может быть, больше. ПРИМЕЧАНИЕ: Tazti можно бесплатно загрузить с их сайта.

1 голос
/ 22 мая 2009

Я думаю, что распознавание речи, как и у любого метода ввода, имеет свои плюсы и минусы.

Pro's

  • Нет кривой обучения, мы говорим с самого раннего возраста.
  • Очень интуитивно понятный.
  • На телефоне не нужно постоянно убирать гарнитуру от уха.

Con в

  • Более длительное время ожидания
  • Если качество звука плохое, требуется несколько попыток для правильного выбора.
...