Воссоздание уровня RNN для генерации текста - PullRequest
3 голосов
/ 27 октября 2019

Я привязан к тому, чтобы следовать книге по глубокому обучению, где есть глава о генерации текста в стиле примера. Они использовали RNN уровня char с двумя слоями LSTM для генерации текста в стиле Shakespare. Но код в книге (также онлайн: https://github.com/DOsinga/deep_learning_cookbook/blob/master/05.1%20Generating%20Text%20in%20the%20Style%20of%20an%20Example%20Text.ipynb) написан в кератах, и я использую только pytorch. Поэтому я решил воссоздать его точно в pytorch, с той же структурой сети и гиперпараметрами.

воссоздав его и заставив работать без ошибок, он обучил его, и он научился писать только самый распространенный символ - пробел. Затем я попытался уместить его в одно очень простое предложение, поэтому мне пришлось уменьшить длину последовательности до 8. Этотакже не сработало, но при уменьшении скрытого размера LSTM до 32 он почти полностью усвоил его, поэтому я продолжил работу над исходным текстом и начал играть с скрытым размером, скоростью обучения, оптимизатором (также пробовал Адам) и обучил его еще дольше. Лучшее, чего я мог добиться - это несколько случайных букв, все еще с большим количеством пробелов и иногда что-то вроде «она», но далеко не читаемых, но с довольно большими потерями. Я использовал RMSprop с lr = 0.01и скрытый размер 128 более 20000 эпох. Я также попытался инициализировать приветСостояние dden и состояние ячейки равны нулю.

Проблема в том, что мои результаты намного хуже, чем в книге, но я сделал то же самое только в pytorch. Может кто-нибудь сказать, пожалуйста, что я должен попробовать или что я сделал неправильно. Любая помощь приветствуется! PS: Извините за мой плохой английский.

Вот мой код с оригинальными гиперпараметрами:

#hyperparameters
batch_size = 256
seq_len = 160
hidden_size = 640
layers = 2

#network structure
class RNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.lstm = nn.LSTM(len(chars),hidden_size,layers)
        self.linear = nn.Linear(hidden_size,len(chars))
        self.softmax = nn.Softmax(dim=2)
    def forward(self,x,h,c):
        x,(h,c) = self.lstm(x,(h,c))
        x = self.softmax(self.linear(x))
        return x,h,c

#create network, optimizer and criterion
rnn = RNN().cuda()
optimizer = torch.optim.RMSprop(rnn.parameters(),lr=0.01)
criterion = nn.CrossEntropyLoss()

#training loop
plt.ion()
losses = []
loss_sum = 0
for epoch in range(10000):
    #generate input and target filled with zeros
    input = numpy.zeros((seq_len,batch_size,len(chars)))
    target = numpy.zeros((seq_len,batch_size))
    for batch in range(batch_size):
        #choose random starting index in text
        start = random.randrange(len(text)-seq_len-1)
        #generate sequences for that batch filled with zeros
        input_seq = numpy.zeros((seq_len+1,len(chars)))
        target_seq = numpy.zeros((seq_len+1))
        for i,char in enumerate(text[start:start+seq_len+1]):
            #convert character to index
            idx = char_to_idx[char]
            #set value of index to one (one-hot-encoding)
            input_seq[i,idx] = 1
            #set value to index (only label)
            target_seq[i] = idx
        #insert sequences into input and target
        input[:,batch,:] = input_seq[:-1]
        target[:,batch] = target_seq[1:]
    #convert input and target from numpy array to pytorch tensor on gpu
    input = torch.from_numpy(input).float().cuda()
    target = torch.from_numpy(target).long().cuda()

    #initialize hidden state and cell state to zero
    h0 = torch.zeros(layers,batch_size,hidden_size).cuda()
    c0 = torch.zeros(layers,batch_size,hidden_size).cuda()
    #run the network on the input
    output,h,c = rnn(input,h0,c0)
    #calculate loss and perform gradient descent
    optimizer.zero_grad()
    loss = criterion(output.view(-1,len(chars)),target.view(-1))
    loss.backward()
    optimizer.step()

График потерь с оригинальными гиперпараметрами: loss

Пример цели и результата после тренировки:

Target:  can bring this instrument of honour
    again into his native quarter, be magnanimous in the enterprise,
    and go on; I will grace the attempt for a worthy e
Output:                                                                                                                                                                 

График потери со скрытым размером 128 за 20000 эпох (лучшие результаты): enter image description here

...