Я путаю с LSTM несколько единиц. для Vanilla LSTM ясно, что выходные данные вводятся в качестве обратной связи в следующем шаге по времени. Если развернут, структура имеет вид:
Однако для нескольких единиц LSTM размерность вывода определяется состоянием скрытия, а именно количеством единиц. Как это работает для входа? Например, три единицы на прилагаемом рисунке я рисую три случая. первый временной шаг вводится в первом блоке, второй временной шаг будет вводиться во втором или все временные шаги вводятся в первом блоке, как в случае два? В третьем случае все временные шаги вводятся для всех единиц в их временном шаге. какой из них прав?