Rss Feed соскоб с BeautifulSoup - PullRequest
       6

Rss Feed соскоб с BeautifulSoup

0 голосов
/ 02 апреля 2012

У меня проблемы с моим сценарием.Я могу получить заголовок и ссылки, но я не могу открыть статью и почистить статью.Может кто-нибудь, пожалуйста, помогите!

from urllib import urlopen
from BeautifulSoup import BeautifulSoup
import re

source  = urlopen('http://www.marketingmag.com.au/feed/').read()

title = re.compile('<title>(.*)</title>')
link = re.compile('<a href="(.*)">')

find_title = re.findall(title, source)
find_link = re.findall(link, source)



literate = []
literate[:] = range(1, 10)

for i in literate:
    print find_title[i]
    print find_link[i]

articlePage = urlopen(find_link[i]).read()

divBegin = articlePage.find('<div class="entry-content">')

article = articlePage[divBegin:(divBegin+1000)]

soup = BeautifulSoup(article)

paragList = soup.findAll('p')

for i in paragList:
        print i
        print ("\n")

Ответы [ 3 ]

2 голосов
/ 02 апреля 2012

Не используйте регулярные выражения для анализа HTML. Просто используйте Beautiful Soup и его средства, такие как find_all , чтобы получить ссылки, а затем вы можете использовать urllib2.urlopen, чтобы открыть URL-адрес, а затем прочитать содержимое.

0 голосов
/ 25 апреля 2013

http://www.crummy.com/software/BeautifulSoup/bs4/doc/ должно показать вам, что вы просто должны использовать beatifulsoup для загрузки этого URL и анализа результирующей структуры. Удачи!

0 голосов
/ 02 апреля 2012

Ваш кодекс сильно напоминает мне: http://www.youtube.com/watch?v=Ap_DlSrT-iE

Почему вы фактически используете BeautifulSoup для анализа XML?Он построен для HTML-сайтов и самого Python и имеет очень хорошие XML-парсеры.Пример: http://docs.python.org/library/xml.dom.minidom.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...