Как я могу найти канал или XML конкретного источника новостей - PullRequest
0 голосов
/ 02 августа 2011

Я хочу получить xml-файл определенного источника новостей, если есть какой-либо проект, который преобразует html-новости в xml, анализирует страницу и маркирует ее различные черты, такие как дата, имя автора, заголовок, контент и т. Д. В одномXML или аналогичный тип файла.Например, смотрите эту ссылку: http://daily.bhaskar.com/article/NAT-TOP-yeddyurappa-breaks-venkaiah-naidus-laptop-slaps-minister-reports-2318460.html Как извлечь содержимое, автора, дату и т. Д. С этой веб-страницы.Или, если я могу найти канал этой веб-страницы, я могу сделать это легко.Но как я могу найти это.

Ответы [ 2 ]

0 голосов
/ 03 августа 2011

Чтобы выяснить, есть ли у страницы фид, отсканируйте HTML-код для определенного тега с этими rel и типами атрибутов:

<link rel="alternate" type="application/rss+xml" title="Page as RSS"
 href="http://example.com/page/feed">

URL канала сохраняется в атрибуте href .Этот механизм называется RSS Autodiscovery

0 голосов
/ 02 августа 2011

какую технологию вы используете?

Если это чисто клиентское / веб-решение, вы найдете js options в предыдущем вопросе StackOverflow .Если вы находитесь на стороне сервера, вы можете использовать WebClient / LINQ, чтобы перейти к каналу ATOM и проанализировать его

...