Как Google Reader извлекает новости с веб-страницы? - PullRequest
2 голосов
/ 21 декабря 2011

Мне было интересно, как Google Reader извлекает новости с веб-страницы.

Кто-нибудь из вас знает, как это работает?Или как кто-то может создать подобную систему для извлечения той же информации из HTML веб-страницы.

Очевидно, что он не использует стандарт (и при этом не читает только RSS / ATOM), потому что Google Reader доказывает, чтоон может читать содержимое страницы независимо от того, как выглядит разметка.

Ответы [ 2 ]

1 голос
/ 27 декабря 2011

В настоящее время Google Reader не извлекает контент из необработанных веб-страниц. Раньше имелась функция «отслеживать изменения на произвольных страницах» , но она была удалена больше, чем год назад.

Когда Google Reader получает URL-адрес, который не является фидом, получает его содержимое. Если содержимое является HTML, оно ищет элемент autodiscovery формы <link rel="alternate" type="application/atom+xml" href="feed.xml">. Если найден, он подписывается на фид.

0 голосов
/ 21 декабря 2011

Вы уже ответили на свой вопрос, отметив его как «RSS».

В любом случае, Google Reader, как и все другие RSS / Atom-Readers, читает RSS или канал Atom. Возможно, вы захотите взглянуть на соответствующую статью в Википедии: http://en.wikipedia.org/wiki/RSS

...