BERT не является моделью машинного перевода, BERT предназначен для обеспечения контекстного представления предложений, которое должно быть полезно для различных задач НЛП. Хотя существуют способы включения BERT в машинный перевод (https://openreview.net/forum?id=Hyl7ygStwB), это нелегкая проблема, и есть сомнения в том, действительно ли она окупится.
Из вашего вопроса, кажется, что вы на самом деле не машинный перевод, а автоматическое суммирование c. Подобно машинному переводу, к нему можно приблизиться, используя модели последовательности к последовательности, но мы не называем это переводом в NLP. Для моделирования от последовательности к последовательности существуют различные предварительно обученные модели, такие как BART или MASS . Они должны быть намного полезнее, чем BERT.