Я не знаю, как вы собираетесь go сравнивать сходства между текстами, но давайте представим, что вы собираетесь сравнивать друг друга с использованием сходства Жакара или косинуса.
Затем вы можно использовать поиск сходства всех пар, предложенный в этой статье , в которой есть реализация здесь . Этот алгоритм чрезвычайно быстр, особенно для такого небольшого размера данных.
Поиск по всем парам возвращает два документа и их сходство, поэтому, если вы хотите найти «семейство» похожих документов, вы будете дальше нужно применить обход графа, как DFS. Пост переполнения стека для python
кортежей использует списки смежности и обеспечивает O ^ (n + m) временную сложность.
Вот пример, в котором вы можете использовать алгоритм «все пары», который пытается найти перепосты в подредите «reddit jokes».