Релевантность между двумя предложениями в python / C ++ / C # / Java? - PullRequest
3 голосов
/ 24 января 2011

Когда вы видите новости из нескольких источников, могут быть случаи, когда несколько источников (веб-сайтов) могут говорить об одних и тех же вещах.

Существует ли какая-либо библиотека Python / C ++ / C # / Java для сравнения нескольких предложенийиз разных источников и определите релевантность между ними, чтобы результат можно было использовать для группировки новостей?

Ответы [ 2 ]

1 голос
/ 24 января 2011

Посмотрите на ntlk . У них есть модуль классификации для различных типов классификаций.

0 голосов
/ 24 января 2011

См. Здесь: Анализ содержимого веб-страницы с помощью «SmartBrowser» Вот интересный образец , но вам нужно будет связаться с автором.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...