Это называется NLG (генерация естественного языка), хотя в основном это задача генерирования текста, который описывает набор данных.Существует также много исследований по генерации совершенно случайных предложений.
Одна из отправных точек - использование цепей Маркова для генерации предложений.Это сделано для того, чтобы у вас была матрица переходов, которая говорит о вероятности перехода между каждой частью речи.У вас также есть наиболее вероятная начальная и конечная часть предложения.Сложите все это вместе, и вы сможете генерировать вероятные последовательности частей речи.
Теперь, вы еще не сделали, это, во-первых, не даст очень хорошего результата, так как вы рассматриваете только вероятность междусмежные слова (также называемые биграммами), поэтому вам нужно расширить это, чтобы посмотреть, например, на матрицу перехода между тремя частями речи (это создает трехмерную матрицу и дает вам триграммы).Вы можете расширить его до 4 граммов, 5 граммов и т. Д. В зависимости от вычислительной мощности и, если ваш корпус может заполнить такую матрицу.
Наконец, вам необходимо исправить такие вещи, как объектное соглашение (согласие глагола, согласие прилагательного-глагола (но не на английском языке) и т. д.) и время, так что все совпадает.