Правильно, проверка исходного кода (я сделал это для tf.keras
, но я полагаю, что это то же самое для автономного keras
) показывает, что в SeparableConv2D
отделимая свертка работает с использованием только фильтров, без смещений и одиночный вектор смещения добавляется в конце. Вторая версия, с другой стороны, имеет смещения как для DepthwiseConv2D
, так и для Conv2D
.
Учитывая, что свертка является линейной операцией, и вы не используете нелинейность между глубиной и сверткой 1x1, я бы предположил, что в этом случае не нужно иметь два смещения, аналогично тому, как вы не используете смещения в слое, который сопровождается нормализацией партии, например. Таким образом, дополнительные 10 параметров на самом деле не улучшат модель (и при этом они не должны причинить вреда).