Как обнаружить измененные и новые элементы в ленте RSS? - PullRequest
4 голосов
/ 31 марта 2009

Использование feedparser или другой библиотеки Python для загрузки и анализа RSS-каналов; Как я могу надежно обнаружить new предметов и modified предметов?

До сих пор я видел новые элементы в каналах с датами публикации раньше, чем последний элемент. Также я видел, что читатели фидов отображали один и тот же элемент, опубликованный с немного другим содержанием, как отдельные элементы. Я не реализую приложение для чтения каналов, я просто хочу разумную стратегию архивирования данных каналов.

1 Ответ

5 голосов
/ 01 апреля 2009

Это зависит от того, насколько вы доверяете источнику канала. feedparser предоставляет атрибут .id для элементов ленты - этот атрибут должен быть уникальным для источников RSS и ATOM. Например, см., Например, feedparser's ATOM docs . Хотя .id будет охватывать большинство случаев, возможно, что источник может публиковать несколько элементов с одинаковым идентификатором. В этом случае у вас нет другого выбора, кроме как хэшировать содержимое элемента.

...