Question

Я пытаюсь разобраться с этим, но с трудом.

Насколько я понимаю:

Подпись изображения - это процесс создания текстового описания изображения. Он использует обработку естественного языка и компьютерное зрение для создания подписей.

А из это бумага:

Он непосредственно моделирует распределение вероятности генерации слова с учетом предыдущих слов и изображения.

Так что, если я правильно понимаю, используя некоторую модель, которая принимает изображение и предыдущий текст в качестве входных данных, он генерирует вероятности для следующего слова.

Пример из "Глубоких визуально-семантических выравниваний для генерации описаний изображений" paper

Но как это используется в VQA (Визуальный ответ на вопросы - это область исследований о построении компьютерной системы для ответа на вопросы, представленные на изображении и на естественном языке.)?

Ответ на вопрос взят из подписи к изображению?

dgumo · Answer 1 · 02 июня 2019

Как правило, вы объединяете функции изображения (CNN) и функции вопроса (RNN), передавая их в другую сеть с выводом softmax, который соответствует ответу из одного слова. Смотрите здесь: https://arxiv.org/pdf/1505.00468v6.pdf

Я могу представить себе попытку сети декодеров генерировать предложения для ответов, но их будет сложнее оценить.

Что такое субтитры и как они используются в визуальном ответе на вопрос?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Что такое субтитры и как они используются в визуальном ответе на вопрос?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы