Есть ли симуляция NAO с распознаванием речи? - PullRequest
0 голосов
/ 04 мая 2020

Из-за Covid-19 у меня нет доступа к физическому NAO и мне нужно работать с симуляциями. Цель состоит в том, чтобы моделировать диалоги различной сложности, включая жесты. Распознавание речи является наиболее важной особенностью, но симуляция других функций, которые добавляют больше реализма (например, голос), также была бы признательна.

Я работаю с Ма c (с Каталиной).

Что я пробовал:

  • Хореограф : включенный симулятор работает нормально, но очень ограничен в своих возможностях. Если я чего-то не пропускаю, диалоги симулируются только в письменном чате - поэтому я набираю речевой ввод, получая в качестве ответа «речевые пузыри»
  • Веб-сайты для NAO : больше нет поддерживается?
  • Webots (с использованием Python контроллеров): пока наиболее перспективный подход, но в основном нет документации о том, как писать контроллеры NAO. Я не мог понять, как заставить класс Speaker () работать. Симулятор робота и мира от naoqisim (который также больше не поддерживается), кажется, работает нормально.
  • Веб-роботы, использующие контроллер ROS : официальной поддержки Ma c нет, и Рекомендованная установка для ROS Kinetics у меня еще не сработала.

Буду признателен за любую подсказку о том, подходит ли Веботс даже для диалогов (кажется, что он в основном сосредоточен на движении) или советов для других подходящих симуляций.

1 Ответ

0 голосов
/ 05 мая 2020

Choregraphe

API ALTextToSpeech и ALSpeechRecognition не работают к виртуальному роботу, к сожалению, не очень. Из документов здесь

Двигатели ACAPELA, microAITalk и Nuance доступны только для реального робота. При использовании виртуального робота указанный текст можно визуализировать на панели представления и диалога Choregraphe Robot.

и здесь

[Распознавание речи] не может быть протестированным на симуляторе робота - этот модуль доступен только на реальном роботе, вы не можете протестировать его на симуляторе робота.

Текстовое взаимодействие может использоваться для проверки последовательности ваших диалогов, но Я не позволю вам должным образом проверить нюансы распознавания речи.

Другие симуляторы

Веб-роботы больше не поддерживаются, и мне никогда не удавалось настроить его. Лучшая на данный момент среда моделирования для Pepper / NAO - это стек ROS Gazebo . Но он действительно не предназначен для аудио моделирования. Это позволит вам симулировать робота, делающего жесты и движущегося по миру, но вам придется написать собственный код (узлы ROS, в python или C ++) для обработки аудио, распознавания речи и вывода речи ( например, подключенный к mi c и динамикам, которые у вас есть).

Если вы планируете использовать чат-бот NAOqi QiChat, вы можете использовать apis naoqi python для его запуска и просто подключить внешнюю речь к текстовые и речевые услуги к нему. Хотя вам нужны более сложные речевые взаимодействия, я бы предложил полноценный чат-бота (Dialogflow, IBM Watson, et c.)

...