Доступ к старым, более недоступным, фидам - PullRequest
6 голосов
/ 03 октября 2008

Я работаю над проектом, который требует надежного доступа к историческим записям фидов, которые не обязательно доступны в текущей ленте веб-сайта. Я нашел несколько способов доступа к таким данным, но ни один из них не дал мне все необходимые мне характеристики.

Посмотрите на это как на мозговой штурм. Я скажу вам, сколько я нашел, и вы можете внести свой вклад, если у вас есть другие идеи.

  1. API Google AJAX Feed - ограничит вас 250 элементами

  2. Неофициальный API Google Reader - Идеально, но неофициально и, следовательно, ненадежно (и, возможно, почти незаконно?). Кроме того, аутентификация кажется сложной.

  3. Spinn3r - стоит много денег

  4. Spidering интернет-архив на сайте фида - много сложности, местное покрытие, полезное только в крайнем случае

  5. Yahoo! API фида или Yahoo! Поиск BOSS - первый выглядит больше как агрегатор, то есть мне нужна отдельная регистрация для каждого канала, а второй должен дать больше доступа к данным Yahoo, но я не могу найти упоминания о каналах.

  6. (спасибо Лу Франко) Bloglines Sync API - Помимо проблемы, связанной с необходимостью учетной записи и созданием большего количества агрегаторов, в нем нет способа добавления каналов в учетную запись. Таким образом, нет поиска произвольных каналов. Сначала вам нужно вручную добавить их через ридер.

  7. Другие поисковые системы / поиск по блогам / что угодно?

Это действительно раздражающая проблема, поскольку мы говорим о семантической информации, которая когда-то существовала, все еще (обычно) действительна, но трудна для доступа надежно, свободно и без ограничений. Кто-нибудь знает какие-либо альтернативные источники качества корма?

Ответы [ 2 ]

1 голос
/ 29 апреля 2011

Лучший ответ, который я нашел на данный момент, заключается в следующем: неофициальный API читателя Google, оказывается, имеет общедоступную точку доступа для своих каналов, что означает, что аутентификация не требуется. Используйте это следующим образом:

http://www.google.com/reader/public/atom/feed/{your feed uri здесь}? N = 1000

замените текст в squigglies (включая сами squigglies) на интересующий вас URI канала. Более подробную информацию о точных аргументах можно найти здесь:

http://blog.martindoms.com/2009/10/16/using-the-google-reader-api-part-2/

но не забудьте использовать / public / url, если вы не хотите связываться с аутентификацией

1 голос
/ 03 октября 2008

Bloglines имеет API для синхронизации учетных записей

http://www.bloglines.com/services/api/sync

Вы должны создать учетную запись, подписаться на ленту новостей, которую хотите загрузить, но затем вы можете загружать на основе даты, что может быть далеко в прошлом. Не уверен в условиях.

...