Не могу понять архитектуру модели визуального ответа на вопрос - PullRequest
0 голосов
/ 07 января 2020

Я пытаюсь визуально ответить на нейронную сеть в наборе данных CLEVR. Я хотел попробовать эмулировать архитектуру в этой статье https://arxiv.org/pdf/1706.01427.pdf (Санторо, Адам и др. «Простой нейронный сетевой модуль для реляционного мышления. Достижения в системах обработки нейронной информации. 2017.).

Проблема, с которой я сталкиваюсь, заключается в том, что я не понимаю, как перейти от представления объекта к тому, в котором два объекта + вывод LSTM объединены. Точнее, если, например, у меня есть объект A; B; C; D, как мне их объединить? Должен ли я просто сделать все возможные комбинации? но тогда разве цепочка от А до Б не даст результатов, отличных от цепочки от А до А? и, наконец, как мне не потерять пространственную информацию при этом?

...