Вы можете разбить текст на куски - в идеале по естественным группировкам, таким как предложения или абзацы, - затем выполнить попарные сравнения каждого куска друг с другом, используя некоторую меру расстояния текста.
Расстояние Word Mover может дать впечатляющие результаты, но его довольно медленно / дорого вычислять, особенно для больших текстов и большого количества парных сравнений.Другие более простые итоговые векторы для текста, такие как простое среднее значение всех слов-векторов текста или текст-вектор, извлеченный из текста, такого как «Вектор абзаца» (aka Doc2Vec
), будут намного быстрее и могутдостаточно хорош или, по крайней мере, будет хорошим быстрым 1-м проходом, чтобы ограничить количество пар кандидатов, на которых вы делаете что-то более дорогое.