pubDate RSS странный анализ с Beautifulsoup / Python - PullRequest
3 голосов
/ 30 января 2010

Я пытаюсь разобрать канал RSS / Podcast, используя Beautifulsoup, и все работает хорошо, за исключением того, что я не могу разобрать поле pubDate.

data = urllib2.urlopen("http://www.democracynow.org/podcast.xml")
dom = BeautifulStoneSoup(data, fromEncoding='utf-8')
items = dom.findAll('item');

for item in items:
    title = item.find('title').string.strip()
    pubDate = item.find('pubDate').string.strip()

Заголовок анализируется нормально, но когда он попадает в pubDate, он говорит:

Traceback (последний вызов был последним): Файл "", строка 2, в AttributeError: у объекта 'NoneType' нет атрибута 'строка'

Однако, когда я загружаю копию файла XML и переименовываю 'pubDate' во что-то другое, а затем снова анализирую его, похоже, это работает. Является ли pubDate зарезервированной переменной или чем-то в Python?

Спасибо

г

1 Ответ

3 голосов
/ 30 января 2010

Работает с item.find('pubdate').string.strip(). Почему бы вам не использовать feedparser ?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...