Question

У меня есть n документов, и я хочу найти общие слова, которые включены в эти документы. Например, я хочу сказать, что (n-3) документы включают слово «сеть».

Конечно, я могу сделать это с помощью базовых структур данных, но может быть эффективный алгоритм или способ обработки одних и тех же слов с другим суффиксом. Есть ли алгоритм для таких целей?

Я незнаком с миром обработки данных. В общем, используется ли термин для поиска сходства между различными документами? Если есть, то я легко сделаю свое исследование.

Спасибо.

George Dontas · Answer 1 · 18 марта 2010

Полагаю, вы говорите о stemming. Если вы хотите использовать язык R , вам придется работать с пакетом tm .

Если нет, я могу только предложить этот список инструментов для анализа текста

Will · Answer 2 · 18 марта 2010

Вы можете сделать это, создав список слов со счетчиками для каждого документа, отсортировав список слов в алфавитном порядке и сравнив два списка.Это O (n lg n).

Другой подход заключается в использовании полнотекстового поиска , предоставленного выбранной вами базой данных.

Обнаружение похожих слов среди n текстовых документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обнаружение похожих слов среди n текстовых документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы