Обнаружение похожих слов среди n текстовых документов - PullRequest
1 голос
/ 18 марта 2010

У меня есть n документов, и я хочу найти общие слова, которые включены в эти документы. Например, я хочу сказать, что (n-3) документы включают слово «сеть».

Конечно, я могу сделать это с помощью базовых структур данных, но может быть эффективный алгоритм или способ обработки одних и тех же слов с другим суффиксом. Есть ли алгоритм для таких целей?

Я незнаком с миром обработки данных. В общем, используется ли термин для поиска сходства между различными документами? Если есть, то я легко сделаю свое исследование.

Спасибо.

Ответы [ 2 ]

1 голос
/ 18 марта 2010

Полагаю, вы говорите о stemming. Если вы хотите использовать язык R , вам придется работать с пакетом tm .

Если нет, я могу только предложить этот список инструментов для анализа текста

0 голосов
/ 18 марта 2010

Вы можете сделать это, создав список слов со счетчиками для каждого документа, отсортировав список слов в алфавитном порядке и сравнив два списка.Это O (n lg n).

Другой подход заключается в использовании полнотекстового поиска , предоставленного выбранной вами базой данных.

...