Я пытаюсь понять обратное распространение и наткнулся на эту формулу
Что я абсолютно не понимаю, так это как мы можем умножить предыдущая матрица с дельтой следующего слоя, когда нет общих значений строки или столбца. Дельта следующего слоя должна иметь те же размеры, что и тета следующего слоя.
Тета 1 и тета 2 не разделяют ничего, что позволяет их умножать.