Я работаю с проблемой суммирования текста и пытаюсь использовать следующую архитектуру [Генератор указателей] (https://github.com/abisee/pointer-generator).) Мой набор данных ОЧЕНЬ мал (225 выборок) по сравнению с набором данных CNN / Daily Mailэта статья использует. Я решил не идти по заранее подготовленной модели + маршрут точной настройки, а вместо этого хочу поэкспериментировать с «совместным обучением» модели с нуля на данных CNN / Daily Mail и моем наборе данных, так как эти два структурно одинаковы. включает в себя сжатие большого текста в одно или два предложения, при этом вводя новые слова, отсутствующие во входных данных.
Я думаю об использовании 10% моих данных и 90% данных CNN / DM в первую эпоху ивниз, используйте 100% моих данных. Однако, идя по этому пути - я бы хотел иметь дело только с 225 примерами в эпоху. И увеличивая процент моего набора данных в этом «комбинированном» наборе данных на 10% в каждой эпохе, ябыло бы в общей сложности 11 эпох. Я запутался, если это реальный способ сделать это. И яf 225 примеров в эпоху - это хорошее число, поскольку авторы первоначально достигли результатов со значительно большим набором данных.
Более того, будет ли хорошо, если я не покажу модели те же данные из CNN / DM в течение последовательногоэпохи