Как сделать RSS-ридер, который сохраняет статьи, как я могу предотвратить дублирование? - PullRequest
1 голос
/ 29 мая 2010

Допустим, у меня есть лента RSS, в которой перечислены 3 новейших вопроса по SO. В 1 час канал выглядит так:

  • Как я могу предотвратить чтение дубликатов при создании программы чтения RSS, которая сохраняет статьи?
  • Преобразование массива символов в UNICODE в MFC C ++
  • Как развернуть приложение Java Swing со встроенной базой данных JavaDB?

В 2 часа этот канал выглядит так:

  • URL-адрес django из другого шаблона, чем тот, который связан с функцией представления
  • Как я могу предотвратить чтение дубликатов при создании программы чтения RSS, которая сохраняет статьи?
  • Преобразование массива символов в UNICODE в MFC C ++

(дубликаты полужирный )

Я хочу загружать RSS-канал каждые 5 минут, анализировать его и сохранять статьи, которые еще не сохранены, но я не хочу дубликатов (элементов, которые остаются в новом, обновленном фиде, как в примерах выше). Что я могу использовать, чтобы определить, сохранена ли статья? Спасибо

1 Ответ

4 голосов
/ 29 мая 2010

Теоретически вы можете просто использовать guid для RSS 2 и id для Atom. Каждый из них должен быть постоянным и уникальным. Однако на практике некоторые сайты не соответствуют этому, поэтому вы должны использовать эвристику.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...