Это немного умозрительно, но может предложить подход для отладки RNN и ответа на ваш вопрос. Вот чрезвычайно простая сеть с SimpleRNN и тестовым входом из 2 выборок, каждая с одним временным шагом и одной функцией: то есть shape = (2,1,1)
from keras.models import Sequential
from keras.layers import SimpleRNN
import numpy as np
x_train=np.array([[[0.1]],
[[0.2]]])
y_train=np.array([[1],[0]])
print(x_train.shape)
print(x_train)
print(y_train.shape)
print(y_train)
#simple network
model = Sequential()
model.add(SimpleRNN(1,activation=None, use_bias=False, input_shape=(1,1)))
model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
model.fit(x_train, y_train, epochs=10, batch_size=2)
wgt=model.get_weights()
print(wgt)
print('model.predict(x_train)')
print(model.predict(x_train))
На основе запускавыше, два веса выходят из сети RNN. Первый, кажется, представляет собой простое масштабирование ввода, а второй, который я подозреваю, - это вес рекуррентного цикла, который фактически не используется ни для одного временного шага, как в этом примере. Активация линейная, поэтому результат соответствует model.predict.
Возможно, вы сможете расширить этот подход, чтобы рассуждать о производительности с помощью Resnet и, возможно, ответить на ваш вопрос. Надеюсь, это поможет.