сравнить сходство нескольких текстов, используя python - PullRequest
0 голосов
/ 21 февраля 2020

Итак, у меня есть около 300-500 текстовых статей, с которыми я хотел бы сравнить сходство и рисунок, которые связаны / дублируются. Некоторые статьи могут затрагивать одни и те же темы, но не идентичные. поэтому, чтобы заняться этим, я начал экспериментировать с spaCy и функцией подобия. Теперь проблема заключается в том, что сходство сравнивает только два документа одновременно, и я думаю, что мне нужно будет l oop каждый текст и сравнить его с другим, который это очень медленный и трудоемкий процесс, есть ли способ обойти это?

1 Ответ

0 голосов
/ 21 февраля 2020

Я не знаю, как вы собираетесь go сравнивать сходства между текстами, но давайте представим, что вы собираетесь сравнивать друг друга с использованием сходства Жакара или косинуса.

Затем вы можно использовать поиск сходства всех пар, предложенный в этой статье , в которой есть реализация здесь . Этот алгоритм чрезвычайно быстр, особенно для такого небольшого размера данных.

Поиск по всем парам возвращает два документа и их сходство, поэтому, если вы хотите найти «семейство» похожих документов, вы будете дальше нужно применить обход графа, как DFS. Пост переполнения стека для python кортежей использует списки смежности и обеспечивает O ^ (n + m) временную сложность.

Вот пример, в котором вы можете использовать алгоритм «все пары», который пытается найти перепосты в подредите «reddit jokes».

...