генеративные состязательные сети (GAN) - хороший выбор для этого. (Может потребоваться удалить сгенерированные предложения с высокой степенью сходства, чтобы удалить предложения того же значения). Таким образом, вы можете использовать другие похожие методы генерации предложений и удалять предложения с высокой степенью сходства, чтобы удалять предложения с одинаковым значением. Кроме того, я предлагаю использовать среднее из word2vec представления слов каждого предложения, чтобы вычислить сходство предложений как простой метод. Также вы можете использовать парсер для замены объектов, глаголов, предметов или другой части предложения.
Поскольку вы задали ваш вопрос в общем виде, я ответил на него простым и легким для реализации способом. Если вы хотите узнать их, есть и другие лучшие методы, пожалуйста, укажите меня.