Скребок экрана RSS - PullRequest
       16

Скребок экрана RSS

3 голосов
/ 02 марта 2010

Может ли кто-нибудь указать мне на готовый скребок для экрана RSS, предпочтительно на Python, для получения полнотекстовых RSS-каналов?

Ответы [ 3 ]

3 голосов
/ 02 марта 2010

Вот хороший список из них здесь , в котором упоминается Feed Parser , который вы используете следующим образом:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

Затем вы можете делать такие вещи, как:

for item in feed["items"]:
    print item["title"]
1 голос
/ 02 марта 2010

feedparser.org отлично

0 голосов
/ 02 марта 2010

Извините, но в python его нет, хотя в php они есть. Тогда вы можете использовать и улучшать тот, который я сделал по имени Соскреб. Хотя он не работает на всех сайтах, это система, основанная на рецептах, которая в настоящее время работает только с NYT, WSJ и Economist. Я работаю над алгоритмом "все включено", но это серьезная задача. Он включает в себя тонну анализа различных типов HTML и XML. Даже три сайта, упомянутые выше, имеют совершенно разные алгоритмы очистки своих сайтов. WSJ - самый сложный на сегодняшний день. Они портят свой HTML с таким бесполезным дерьмом, главным образом, чтобы просто остановить вас.

Вот программа, о которой я говорил, она требует lxml, но все объясняет в readme. Он читает файлы конфигурации, анализирует частичные RSS-каналы, получает ссылки, а затем очищает эти ссылки, в конце концов формулируя XML-файл RSS 2.0. Который я в основном превращаю в электронную книгу для моего разжигания. Я использую lxml, BeautifulSoup и feedparser.

http://tinyurl.com/yh3s9pa

Вы также можете посмотреть на проект калибра, который использует метод, аналогичный тому, как я это делаю, на рецептах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...