Я ищу идеи о рекомендуемом подходе.
Я пытаюсь вычеркнуть некоторые заголовки и основной текст из статей для нескольких конкретных сайтов, аналогично тому, что Google делает с Новостями Google.
Проблема в разных сайтах, они могут иметь статьи на одну и ту же тему, сформулированные немного по-разному.
Может кто-нибудь указать мне, что мне нужно знать, чтобы написать алгоритм сравнения для автоматического обнаружения похожих статей? Есть ли сейчас какая-нибудь библиотека, которая может быть использована для сравнения текста и получения некоторого типа рейтинга сходства?
Заранее большое спасибо.
Я использую Python.