Я работаю над суммированием, и у меня есть небольшой набор данных (около 35 тыс. Поезд, 2 тыс. Проверок и 2 тыс. Тестов). Я использовал TokenTextEncoder со следующими параметрами:
--model=lstm_seq2seq_attention_bidirectional_encoder
--hparams_set=lstm_bahdanau_attention
--hparams='batch_size=1024'
--train_steps=50000
--local_eval_frequency=1000
--eval_steps=100
--eval_throttle_seconds=10
Модель начинает переоснащаться примерно через 10k, но баллы ROUGE продолжают расти на данных проверки. Я получаю лучшие результаты на тестовых данных, а также увеличение итерации. Любая идея или предложение для этого?
Спасибо!