Как программно обнаружить канал блога для данного домена? - PullRequest
3 голосов
/ 29 июня 2011

У меня есть список из 10 000 веб-сайтов компаний, и я пытаюсь найти их фиды в блогах, если они есть (любая и все версии rss). Я не хочу сканировать их, если мне это не нужно, так есть ли какие-либо инструменты или специальные приемы, которые бы находили большой процент их каналов, если таковой существует?

Моей первой мыслью было поиск стандартного местоположения канала блога, но большинство из этих сайтов в основном не блоги, а корпоративные сайты. Любые предложения приветствуются.

Инструменты на основе PHP предпочтительнее.

Ответы [ 2 ]

2 голосов
/ 29 июня 2011

Когда вы просто вставляете URL-адрес блога в Google Reader, он может автоматически сохранить путь RSS. Скорее всего, Google Reader проверяет исходный код на предмет типа

<link rel="alternate" type="application/atom+xml" .. или

<link rel="alternate" type="application/rss" ..

Вот как Firefox и некоторые другие браузеры могут отображать значок RSS, когда вы просматриваете обычную страницу. Вы можете увидеть исходный код Firefox для здорового результата.

В дополнение к этим, вы можете рассмотреть /blog, /rss, /blog/feed, blog.*.com/feed, /atom или URL-адреса типа *.xml, *.feed, *.rss. популярные RSS пути imho.

2 голосов
/ 29 июня 2011

Сканирование их - единственный разумный вариант, вам, вероятно, нужно только попасть на их домашние страницы.Я бы использовал Feed :: Find для извлечения страниц и определения URI канала.

...