Вы также можете взглянуть на модель скрытого распределения дирихле (LDA) в машинном обучении.Идея состоит в том, чтобы найти низкоразмерное представление каждого документа (или абзаца) просто как распределение по некоторым «темам».Модель обучается без присмотра, используя набор документов / параграфов.
Если вы запустите LDA для своей коллекции абзацев, то, посмотрев на сходство вектора скрытых тем, вы сможете определить, связаны ли эти два абзаца или нет.
Конечно,базовый уровень заключается в том, чтобы не использовать LDA, а вместо этого использовать термин частоты (дополненный tf / idf) для измерения сходства (модель векторного пространства).