Есть вещи, которые называются языковая модель и n-грамм.Я постараюсь кратко объяснить, что они.Предположим, у вас есть огромное количество правильных английских предложений.Давайте выберем один из них:
The quick brown fox jumps over the lazy dog
.Давайте теперь посмотрим на все пары слов (называемых биграммами): (the, quick)
, (quick, brown)
, (brown, fox)
, (fox, jumps)
и так далее ... Имея огромную коллекцию предложений, у нас будет огромное количествобиграммы.Теперь мы берем уникальные и подсчитываем их частоту (количество раз, когда мы видели это в правильных предложениях).Теперь у нас есть, скажем,
('the', quick) - 500
('quick', brown) - 53
Биграммы с их частотами, называемыми языковой моделью.Он показывает, насколько часто встречается определенная комбинация слов.
Таким образом, вы можете построить все возможные предложения ваших слов, считая вес каждого из них с учетом языковой модели.Предложение с максимальным весом будет тем, что вам нужно.
Где взять биграммы и их частоты?Ну, у в гугле есть .Вы можете использовать не просто пару слов, а тройки и так далее.Это позволит вам создавать более похожие на людей предложения.