Это общий вопрос для любой из фреймворков как для RNN, так и для LSTM.
Когда мы используем обычные или простые сети для одного уровня, например
current_layer = torch.nn.Linear(100,125)
означает, что существует 125 neurons
или один weight vector
из 125 единиц (для каждого нейрона), которые изменяют входящие 100 входов на 125 исходящих единиц.
Аналогично, если current_layer = torch.nn.Linear(125,100)
говорит, что входящие 125 входов будут быть преобразовано в 100 исходящих векторов.
Теперь вопрос, если у меня есть
previous_layer = torch.nn.Embedding(10000,100)
current_layer = torch.nn.RNN(100,125)
, что это значит ?? Что такое 100 и 125 шоу в кейсе или РНН? Будет ли 100 временных меток входными для каждой временной метки? Что означает 125 или hidden_size
в этом контексте?
Будет ли это вектор весов из 125 единиц, который будет умножен на один поплавок (каждый из входящих входов в общей сложности 100 раз?), Чтобы получить hidden_state
??