Создание сводного канала RSS из результатов поиска без RSS - PullRequest
2 голосов
/ 06 июня 2011

Итак, скажем, я журналист, который хочет каким-то образом легко публиковать ссылки на написанные мной истории, которые публикуются на сайте моей газеты. Увы, на сайте моей газеты нет RSS-каналов на уровне пользователя (на самом деле, для журналистов на уровне пользователя).

Запуск поиска (т. Е. http://www.calgaryherald.com/search/search.html?q=Rininsland) выводит все, что я сделал, в обратном хронологическом порядке (хотя и с некоторыми дубликатами; пока игнорировать, я буду иметь дело позже). Есть ли способ, которым я можно разобрать это в RSS канал?

Кажется, что Yahoo! Трубы могли бы быть простым способом сделать это, но я открыт для всего.

Спасибо!

Ответы [ 2 ]

1 голос
/ 10 июня 2011

Обычно это было бы отличным вариантом использования Yahoo Pipes, но похоже, что на указанной вами странице поиска есть файл robots.txt , который Pipes учитывает. Это означает, что Pipes не будут извлекать данные со страницы.

Для получения дополнительной информации: «Как я могу предотвратить доступ Pipes к моим веб-страницам?»
http://pipes.yahoo.com/pipes/docs?doc=troubleshooting#q14

Вы должны написать собственный скребок, который отправляет HTTP-запрос на этот URL, анализирует ответ и записывает RSS в качестве вывода. Это может быть сделано во многих серверных средах, таких как PHP, Python и т. Д.

* * 1010

РЕДАКТИРОВАТЬ: Feedity предоставляет сервис для очистки веб-страниц в каналы. Вот канал Feedity вашего поискового URL: http://feedity.com/rss.aspx/calgaryherald-com/UFJWUVZQ

Однако, если вы не подпишетесь на подписку ($ 3,25 / мес), на этот канал будут распространяться следующие ограничения:

Созданы бесплатные каналы без аккаунта ограничены 5 элементы и 10-часовой интервал обновления. Бесплатные каналы, созданные без аккаунта автоматически удаляются из нашего система после 30 дней бездействия.

0 голосов
/ 25 июня 2011

Если для каждой статьи вам нужны только ссылки и временная метка, то поисковый модуль Yahoo Pipes вернет последние 10 в поисковом индексе сайта Herlad.

...