Почему в записях ленты новостей NetWlix.com NewWatchInstantlyRSS нет дат (при разборе с feedparser)? - PullRequest
0 голосов
/ 05 марта 2010

Вывод из следующего:

import feedparser
d = feedparser.parse('http://www.netflix.com/NewWatchInstantlyRSS')
d.entries[177].keys()

есть:

['summary_detail', 'links', 'title', 'summary', 'guidislink', 'title_detail', 'link', 'id']

Согласно http://feedparser.org/docs/common-rss-elements.html, в записях должен быть элемент "date".

Возможно, подсказка в том, что когда я открываю http://www.netflix.com/NewWatchInstantlyRSS в Firefox или Safari (в Mac OS X), я не вижу никаких дат. (На самом деле Safari ставит дату и время, когда я открывал канал, рядом с каждым элементом.) Но каким-то образом Google Reader получает уникальные даты для каждого элемента. (Именно по этой причине я выбрал запись 177 выше - это индекс «Dare», который является первой на сегодняшний день записью в Google Reader, где рядом с ней отображается «8:32 AM».)

Есть что-то, чего я не понимаю в RSS? Я пропускаю какой-то канал перекрестных ссылок с датами? Я просмотрел все записи в ленте и несколько записей и не вижу ничего, что могло бы указывать на другой URL-адрес или даты любого типа.

1 Ответ

1 голос
/ 05 марта 2010

Если вы посмотрите на необработанный источник RSS-канала на http://www.netflix.com/NewWatchInstantlyRSS (откройте в веб-браузере и просмотрите источник), вы увидите, что они не содержат элемент даты.Должен быть, но нет.

РЕДАКТИРОВАТЬ: Извините, я не прочитал ваш вопрос полностью.Я не знаю, где Google получает свое значение для даты.Я разместил канал в Google, и я получаю 10:32 утра за вызов, который не равен вашему, независимо от того, какой часовой пояс.Я бы сказал, что у них есть собственный кеш, когда они получают обновленный фид, и, возможно, у них есть разные серверы, которые объясняют наши различия.

Нет специальных свойств RSS-фидов, чтобы получить это значение, когда его просто нет.,Если вам это нужно.Я предлагаю использовать метод, аналогичный тому, который, по моему мнению, использует Google.

...