Методы отображения соответствующего контента или статей - PullRequest
3 голосов
/ 17 февраля 2010

Я пытался научиться интеллектуальному анализу текста и другим связанным предметам в области Коллективного разума.Мне интересно создать приложение, которое будет сканировать документ и показывать соответствующие посты / статьи на странице.

Какой алгоритм (-ы) будет полезен для получения необходимой информации?

Спасибо

/ A

Ответы [ 2 ]

2 голосов
/ 17 февраля 2010

Простой способ - подсчитать на странице необычные слова и их экземпляры. Чем больше появляется слово, тем лучше оно описывает содержание поста. Затем вы можете использовать его для поиска других статей / сообщений.

1 голос
/ 19 февраля 2010

Вы можете использовать Структура описания ресурсов (RDF) . Базы RDF содержат структурированные знания и связи между ними. Таким образом, вы можете получить RDF-записи для каждого слова в тексте и связать их в графе. Узлы с максимальным количеством ребер и корневых узлов (если график похож на дерево) будут ссылаться на тему документа.

...