Что такое субтитры и как они используются в визуальном ответе на вопрос? - PullRequest
0 голосов
/ 02 июня 2019

Я пытаюсь разобраться с этим, но с трудом.

Насколько я понимаю:

Подпись изображения - это процесс создания текстового описания изображения. Он использует обработку естественного языка и компьютерное зрение для создания подписей.


А из это бумага:

Он непосредственно моделирует распределение вероятности генерации слова с учетом предыдущих слов и изображения.


Так что, если я правильно понимаю, используя некоторую модель, которая принимает изображение и предыдущий текст в качестве входных данных, он генерирует вероятности для следующего слова.

Пример из "Глубоких визуально-семантических выравниваний для генерации описаний изображений" paper

enter image description here


Но как это используется в VQA (Визуальный ответ на вопросы - это область исследований о построении компьютерной системы для ответа на вопросы, представленные на изображении и на естественном языке.)?

Ответ на вопрос взят из подписи к изображению?

1 Ответ

0 голосов
/ 02 июня 2019

Как правило, вы объединяете функции изображения (CNN) и функции вопроса (RNN), передавая их в другую сеть с выводом softmax, который соответствует ответу из одного слова. Смотрите здесь: https://arxiv.org/pdf/1505.00468v6.pdf

Я могу представить себе попытку сети декодеров генерировать предложения для ответов, но их будет сложнее оценить.

...