Вот проблема - у меня есть несколько тысяч небольших фрагментов текста, от нескольких слов до нескольких предложений - самый большой фрагмент составляет около 2 КБ на диске. Я хочу иметь возможность сравнивать каждый из них и вычислять коэффициент связанности, чтобы я мог показывать информацию, связанную с пользователями.
Какие есть хорошие способы сделать это? Существуют ли известные алгоритмы для этого, которые являются хорошими, есть ли какие-либо решения GPL и т. Д.?
Мне не нужно это запускать в реальном времени, так как я могу все пересчитать. Меня больше интересует получение хороших результатов, чем время выполнения.
Я просто подумал, что спрошу сообщество переполнения стека, прежде чем писать и писать свои собственные вещи. Должны быть люди, которые уже нашли хорошие решения для этого.