Я привязан к тому, чтобы следовать книге по глубокому обучению, где есть глава о генерации текста в стиле примера. Они использовали RNN уровня char с двумя слоями LSTM для генерации текста в стиле Shakespare. Но код в книге (также онлайн: https://github.com/DOsinga/deep_learning_cookbook/blob/master/05.1%20Generating%20Text%20in%20the%20Style%20of%20an%20Example%20Text.ipynb) написан в кератах, и я использую только pytorch. Поэтому я решил воссоздать его точно в pytorch, с той же структурой сети и гиперпараметрами.
воссоздав его и заставив работать без ошибок, он обучил его, и он научился писать только самый распространенный символ - пробел. Затем я попытался уместить его в одно очень простое предложение, поэтому мне пришлось уменьшить длину последовательности до 8. Этотакже не сработало, но при уменьшении скрытого размера LSTM до 32 он почти полностью усвоил его, поэтому я продолжил работу над исходным текстом и начал играть с скрытым размером, скоростью обучения, оптимизатором (также пробовал Адам) и обучил его еще дольше. Лучшее, чего я мог добиться - это несколько случайных букв, все еще с большим количеством пробелов и иногда что-то вроде «она», но далеко не читаемых, но с довольно большими потерями. Я использовал RMSprop с lr = 0.01и скрытый размер 128 более 20000 эпох. Я также попытался инициализировать приветСостояние dden и состояние ячейки равны нулю.
Проблема в том, что мои результаты намного хуже, чем в книге, но я сделал то же самое только в pytorch. Может кто-нибудь сказать, пожалуйста, что я должен попробовать или что я сделал неправильно. Любая помощь приветствуется! PS: Извините за мой плохой английский.
Вот мой код с оригинальными гиперпараметрами:
#hyperparameters
batch_size = 256
seq_len = 160
hidden_size = 640
layers = 2
#network structure
class RNN(nn.Module):
def __init__(self):
super().__init__()
self.lstm = nn.LSTM(len(chars),hidden_size,layers)
self.linear = nn.Linear(hidden_size,len(chars))
self.softmax = nn.Softmax(dim=2)
def forward(self,x,h,c):
x,(h,c) = self.lstm(x,(h,c))
x = self.softmax(self.linear(x))
return x,h,c
#create network, optimizer and criterion
rnn = RNN().cuda()
optimizer = torch.optim.RMSprop(rnn.parameters(),lr=0.01)
criterion = nn.CrossEntropyLoss()
#training loop
plt.ion()
losses = []
loss_sum = 0
for epoch in range(10000):
#generate input and target filled with zeros
input = numpy.zeros((seq_len,batch_size,len(chars)))
target = numpy.zeros((seq_len,batch_size))
for batch in range(batch_size):
#choose random starting index in text
start = random.randrange(len(text)-seq_len-1)
#generate sequences for that batch filled with zeros
input_seq = numpy.zeros((seq_len+1,len(chars)))
target_seq = numpy.zeros((seq_len+1))
for i,char in enumerate(text[start:start+seq_len+1]):
#convert character to index
idx = char_to_idx[char]
#set value of index to one (one-hot-encoding)
input_seq[i,idx] = 1
#set value to index (only label)
target_seq[i] = idx
#insert sequences into input and target
input[:,batch,:] = input_seq[:-1]
target[:,batch] = target_seq[1:]
#convert input and target from numpy array to pytorch tensor on gpu
input = torch.from_numpy(input).float().cuda()
target = torch.from_numpy(target).long().cuda()
#initialize hidden state and cell state to zero
h0 = torch.zeros(layers,batch_size,hidden_size).cuda()
c0 = torch.zeros(layers,batch_size,hidden_size).cuda()
#run the network on the input
output,h,c = rnn(input,h0,c0)
#calculate loss and perform gradient descent
optimizer.zero_grad()
loss = criterion(output.view(-1,len(chars)),target.view(-1))
loss.backward()
optimizer.step()
График потерь с оригинальными гиперпараметрами:
Пример цели и результата после тренировки:
Target: can bring this instrument of honour
again into his native quarter, be magnanimous in the enterprise,
and go on; I will grace the attempt for a worthy e
Output:
График потери со скрытым размером 128 за 20000 эпох (лучшие результаты):