Обычный CNN обычно неспособен вывести такую пространственную информацию без дополнительной помощи. Было много попыток исправить это, одна из которых - CoordConv . Tl; dr заключается в том, что в случаях, когда вы хотите регрессировать позиции в массиве, как в вашей задаче, полезно предоставить сети тензор / матрицу / вектор / все, что содержит (обычно нормализованные) координаты. Это можно сделать либо на входе, либо на разных уровнях. Например, в вашем случае ваш ввод может быть изменен так:
#Tensor of size 1x1x2x3100
[0, ..., non_zero_val, 0, other_non_zero_val, 0, 0]
[0, 1 , ... 3099]/3099 #element-wise division just to normalise