Я спрашиваю об этом академически, я хочу задать вслух очень важный вопрос, и сообщество попытается ответить на него. Можем ли мы создать систему, которая генерирует сцену для воспроизведения в живом анонимном групповом видео-чате, который может читать набранный текст и отвечать с помощью чат-бота?
Живое интернет-видео часто размыто и имеет низкое разрешение. Нельзя разглядеть много деталей на сцене далекой вечеринки. Сцены можно визуализировать с помощью современных программных инструментов, которые выглядят очень реалистично, когда не движутся. Заставить их двигаться реалистично - это большая часть программного обеспечения для моделирования.
Лица могут отображаться со скоростью 24 кадра в секунду с помощью кластера из 24 систем, способных работать с 1 кадром в секунду. Тогда видео будет иметь задержку в 1 секунду с момента принятия решения о том, какое выражение лица генерировать. Эти выражения лица и их генерация является ключевой проблемой. Требование реалистичности скинов является решаемой проблемой графического сообщества.
выражения лица были классифицированы несколькими исследователями. Их также можно отрендерить, это было показано в современной литературе по компьютерной графике. Мы можем сделать это, если сможем узнать, какие из них подходят для данной ситуации.
Чат-боты использовались десятилетиями. В настоящее время существуют довольно «умные» программы чата, которые будут читать то, что им задают, и отвечать разумным образом. Они всегда делали это с помощью текста, но программное обеспечение для чтения текста может говорить человеческим голосом, а программное обеспечение для распознавания речи с каждым годом становится все лучше.
Что я предлагаю, так это тот факт, что соединить все эти разрозненные части разработки программного обеспечения и создать поистине удивительный инструмент для тестирования Тьюринга должно быть довольно элементарно.
Эта программа может войти в виртуальное пространство и отображать реалистичную среду, как будто на веб-камере, как и другие участники. Он может наблюдать за выражением их лица, слушать их речь и читать их текст. Затем он может создать ответ и либо напечатать, либо сказать его группе. Выбор того, с чем отвечать, является трудной проблемой, с которой не справился даже большинство людей. Мы можем подойти к этому с большой работой.
Тест Тьюринга - это доказательство того, что коммуникатор - человек, но «доказательство» только в том смысле, что он достаточно хорош, чтобы обмануть судей. Если человеческие судьи просто все, они вряд ли будут применять строгую формальную процедуру. Догадываться или поддаваться на хитрость достаточно хорошо.
Как вы думаете, мы можем сделать это?
Является ли этот план ошибочным? Есть ли моральные последствия, чтобы обмануть обычного зрителя таким образом? Можем ли мы заработать миллионы долларов, создав личных умных помощников?