Как работать с RSS-лентами с пустыми датами публикации - PullRequest
0 голосов
/ 19 сентября 2019

Я написал некоторый код на Python с использованием feedparser для приема нескольких различных RSS-каналов, чтобы я мог объединиться и получить список «последних новостей» для последующей обработки.В качестве промежуточного шага я вставляю соответствующие детали в Google Firestore.

Во-первых, я заметил, что каждый канал RSS, похоже, публикует вещи немного по-своему, поэтому мне приходится писать некоторые пользовательские функции для загрузки каждого канала, который меня интересует. Есть один конкретный канал, который яДо сих пор сталкивался с тем, что публикует «пустые» даты публикации.(Я предполагаю, что они не хотят предупреждать своих читателей, что их контент устарел. LOL) Мне любопытно, как другие справились с этой ситуацией, так как я не хочу продолжать принимать старые записи.

Этот канал RSS также не использует уникальные записи ID / GUID, поэтому мне также нужно написать собственный хэш для индексирования записи в моей базе данных.Мое первое желание состоит в том, чтобы заменить «дату первого просмотра» датой публикации, а затем добавить логику для поиска хэша, чтобы проверить, существует ли он (и пропустить его, если он существует).

Кажется, что это будет работать, но как насчет обрезки?Думая далеко в будущее, я предполагаю, что в какой-то момент я собираюсь сократить базу данных старого контента.В этот момент хеш-код не будет существовать, и ДЕЙСТВИТЕЛЬНО старый контент поставщика будет снова заполнен, чтобы преследовать меня снова.

Какие шаблоны я должен рассмотреть?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...