Я пытаюсь создать сеть, которая делает 2 разные вещи: обнаруживает крупномасштабные структуры, а также предоставляет информацию о том, что составляет этот масштаб.
До сих пор мой текущий подход состоял в обучении 2 разные сети с этими разными битами информации, но я не знаю, как это сделать. В конце концов я хотел бы применить это к различным кадрам видео.
Моя аналогия - змея (представлена точками) на изображении ниже. LHS изображения обнаруживает 2 различных объекта в качестве этих более крупных структур и может вывести длину / количество точек. RHS обнаруживает прямые сегменты змеи, обнаруживая 4 различных компонента, и снова выводит количество точек в каждом блоке. Я хотел бы иметь возможность объединить два набора информации, чтобы сказать, что изображение состоит из 2 больших структур, зеленое имеет 2 точки, а розовое имеет 3 набора по 3 точки.
Будет ли кто-то быть в состоянии указать мне в правильном направлении, как это сделать? Или это будет случай применения сети 2 к областям сети 1?
Большое спасибо!