Виртуальный помощник -> Лучшая практика LUIS, QnA, Dispatcher - PullRequest
0 голосов
/ 31 января 2020

У меня есть вопрос о "наилучшей практике" для определенных проблем, с которыми мы сталкиваемся при использовании LUIS, QnA Maker, в частности для Dispatcher:

1) Есть ли лучшая практика на случай, если у нас будет больше что за 15к высказываний в Диспетчере? Это похоже на ограничение приложений LUIS, но масштабируемость модели в долгосрочной перспективе будет сомнительной.

2) Проверка орфографии Bing для LUIS, например, меняет имена и фамилии, как этого избежать? Я полагаю, что проверка орфографии Bing необходима, когда мы говорим о чат-ботах, поскольку опечатка всегда за дверью, но использовать ее для имен опасно.

3) Перекрестная проверка не поддерживается "из коробки", вы бы разбили ваши данные на сгибы с помощью пользовательского кода (не сложно), использовали командную строку для обучения и публикации sh вашей модели на ваших k-1 / k сгибах, а затем отправили k-кратные высказывания в API одно- одним. Пакетная загрузка поддерживается только через пользовательский интерфейс https://cognitive.uservoice.com/forums/551524-language-understanding-luis/suggestions/20082157-add-api-to-batch-test-model и ограничена тестовым набором из 1000 высказываний. Если мы используем подход «один за другим», мы платим 1,50 долл. США за 1 тыс. Транзакций https://azure.microsoft.com/de-de/pricing/details/cognitive-services/language-understanding-intelligent-services/, и это означает, что, например, для получения показателей перекрестной проверки для 5 кратных сумм мы могли бы заплатить около 20 $ за один эксперимент с нашими текущими данными, больше, если мы добавим больше данных.

4) Модель - это черный ящик, который не дает нам возможности использовать пользовательские функции при необходимости.

1 Ответ

2 голосов
/ 04 февраля 2020

Я постараюсь решить ваши проблемы как можно лучше следующим образом:

1) Согласно документации LUIS,

enter image description here

Следовательно, вы не можете превысить лимит. В случае приложений Dispatch, , если общее высказывание превышает 15 КБ, тогда диспетчеризация снизит выборку высказываний, чтобы оставить ее ниже 15 К . Для CLI имеется необязательный параметр ( - doAutoActiveLearning ), позволяющий автоматически активировать обучение, которое будет интеллектуально уменьшать выборку (удаляя несоответствующие высказывания).

- doAutoActiveLearning: (необязательно) ложный. Ограничение LUIS на размер обучающего набора составляет 15000. Когда приложение LUIS имеет гораздо больше высказываний для обучения, автоматический процесс обучения Dispatch может интеллектуально понизить выборки высказываний.

2) Проверка орфографии Bing помогает пользователям исправлять слова с ошибками в высказываниях перед тем, как LUIS предсказывает оценку и сущности высказывания. Однако, если вы хотите избежать использования API-интерфейса Bing Spell Check, тогда вам нужно будет добавить правильное и неправильное написание , что можно сделать двумя способами:

  • Пример метки высказывания, которые имеют все различные варианты написания, так что LUIS может выучить как правильное написание, так и опечатки. Этот параметр требует больше усилий для маркировки, чем при использовании средства проверки орфографии.
  • Создайте список фраз со всеми вариациями слова. С этим решением вам не нужно маркировать варианты слов в приведенных в качестве примера высказываниях.

3) Согласно текущей документации допускается максимум 1000 высказываний на тест , Набор данных представляет собой JSON -форматированный файл, содержащий не более 1000 помеченных не дублированных высказываний. Вы можете протестировать до 10 наборов данных в приложении. Если вам нужно проверить больше, удалите набор данных, а затем добавьте новый. Я бы посоветовал вам сообщить об этом как запрос функции на форуме обратной связи .

Надеюсь, это поможет.

...