Я пытаюсь реализовать сетевую настройку, аналогичную этой статье Google Deepmind . Их сеть настроена следующим образом:
M θ - это сверточная сеть, поэтому мне было интересно, как они объединяют входные кадры с точками обзора? Насколько я знал, CNN учитывает пространственную информацию, верно? Так имеет ли смысл объединять кадры с точками обзора в качестве входных данных для CNN?
Заранее спасибо!