Я читаю статью, в которой используются MLP с общими весами. Я нашел авторскую реализацию, и он использует сверточные слои с размером ядра 1. Ниже моей реализации со слоем Convolution1D:
Convolution1D(512, kernel_size=(1), strides=(1), padding='valid')
Во-первых, имеет ли смысл? Будет ли это как-то сопоставимо с плотным слоем с общими весами?