Если честно, вопрос, который вы задаете, очень высокий уровень, и на таком форуме сложно (возможно, невозможно) ответить.Итак, вот некоторые идеи, которые могут быть полезны:
Вы можете попытаться использовать [термин частота-обратная частота документа (TFIDF)] (https://en.wikipedia.org/wiki/Tf%E2%80%93idf), чтобы сравнить словари на предмет сходства и различий.не большой шаг от вашего текущего анализа частотности слов.
Для более подробного анализа, возможно, было бы неплохо заменить слова ваших документов чем-то вроде synnet wordnet.позволяет сравнивать значения предложений на более высоком уровне абстракции, чем сами слова. Например, если в каждом из ваших документов упоминаются «самолеты», «поезда» и «автомобили», существует сходство (ссылки на транспортные средства)) что простое сравнение слов будет игнорировать и не сможет обнаружить.