Question

Может ли кто-нибудь указать мне на готовый скребок для экрана RSS, предпочтительно на Python, для получения полнотекстовых RSS-каналов?

Dominic Rodger · Answer 1 · 02 марта 2010

Вот хороший список из них здесь , в котором упоминается Feed Parser , который вы используете следующим образом:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

Затем вы можете делать такие вещи, как:

for item in feed["items"]:
    print item["title"]

Recursion · Answer 2 · 02 марта 2010

Извините, но в python его нет, хотя в php они есть. Тогда вы можете использовать и улучшать тот, который я сделал по имени Соскреб. Хотя он не работает на всех сайтах, это система, основанная на рецептах, которая в настоящее время работает только с NYT, WSJ и Economist. Я работаю над алгоритмом "все включено", но это серьезная задача. Он включает в себя тонну анализа различных типов HTML и XML. Даже три сайта, упомянутые выше, имеют совершенно разные алгоритмы очистки своих сайтов. WSJ - самый сложный на сегодняшний день. Они портят свой HTML с таким бесполезным дерьмом, главным образом, чтобы просто остановить вас.

Вот программа, о которой я говорил, она требует lxml, но все объясняет в readme. Он читает файлы конфигурации, анализирует частичные RSS-каналы, получает ссылки, а затем очищает эти ссылки, в конце концов формулируя XML-файл RSS 2.0. Который я в основном превращаю в электронную книгу для моего разжигания. Я использую lxml, BeautifulSoup и feedparser.

http://tinyurl.com/yh3s9pa

Вы также можете посмотреть на проект калибра, который использует метод, аналогичный тому, как я это делаю, на рецептах.

Скребок экрана RSS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Скребок экрана RSS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов