Я пытаюсь разобраться с этим, но с трудом.
Насколько я понимаю:
Подпись изображения - это процесс создания текстового описания изображения. Он использует обработку естественного языка и компьютерное зрение для создания подписей.
А из это бумага:
Он непосредственно моделирует распределение вероятности генерации слова с учетом предыдущих слов и изображения.
Так что, если я правильно понимаю, используя некоторую модель, которая принимает изображение и предыдущий текст в качестве входных данных, он генерирует вероятности для следующего слова.
Пример из "Глубоких визуально-семантических выравниваний для генерации описаний изображений" paper
![enter image description here](https://i.stack.imgur.com/RlRLo.png)
Но как это используется в VQA (Визуальный ответ на вопросы - это область исследований о построении компьютерной системы для ответа на вопросы, представленные на изображении и на естественном языке.)?
Ответ на вопрос взят из подписи к изображению?