Прежде всего, я думаю, что лучшее, на что вы можете надеяться, это около 50% ответов, если вы не готовы написать много кода.
Если вы хотите испачкать руки какой-нибудь статистикой, посмотрите термин «частота - обратная частота документа» . По сути, вы будете использовать частоту необычных слов, чтобы определить, какие ключевые слова имеют решающее значение для документа, и использовать это в качестве входных данных для алгоритма tf-idf, чтобы получить другие ответы с теми же ключевыми словами.
Затем вы можете комбинировать это с методами создания белых и черных списков, чтобы игнорировать общие слова и расставлять приоритеты для определенных ключевых слов. Затем вы можете продолжать настраивать эти списки для улучшения алгоритма, как видите, он работает.
Существуют также более простые строковые метрики, которые можно использовать для проверки базового сходства. Взгляните на этот список строковых метрик .