Как определить, имеют ли 2 новостные статьи одну и ту же тему? (Сравнение языка Python) - PullRequest
4 голосов
/ 05 апреля 2010

Я ищу идеи о рекомендуемом подходе.

Я пытаюсь вычеркнуть некоторые заголовки и основной текст из статей для нескольких конкретных сайтов, аналогично тому, что Google делает с Новостями Google.

Проблема в разных сайтах, они могут иметь статьи на одну и ту же тему, сформулированные немного по-разному.

Может кто-нибудь указать мне, что мне нужно знать, чтобы написать алгоритм сравнения для автоматического обнаружения похожих статей? Есть ли сейчас какая-нибудь библиотека, которая может быть использована для сравнения текста и получения некоторого типа рейтинга сходства?

Заранее большое спасибо.

Я использую Python.

...