Получение необработанного XML для элементов с feedparser - PullRequest
2 голосов
/ 30 октября 2011

Я пытаюсь использовать feedparser для извлечения некоторой конкретной информации из каналов, а также для извлечения необработанного XML каждой записи (т. Е. Элементов для RSS и для Atom), и я не вижу, как это сделать. Очевидно, что я мог бы анализировать XML вручную, но это не очень элегантно, потребовало бы раздельной поддержки RSS и Atom, и я думаю, что он может не синхронизироваться с feedparser для плохо сформированных каналов. Есть ли лучший способ?

Спасибо!

1 Ответ

2 голосов
/ 05 ноября 2011

Я текущий разработчик feedparser.В настоящее время одним из способов получения этой информации является monkeypatch feedparser._FeedParserMixin (или редактирование локальной копии feedparser.py).Методы, которые вы хотите изменить:

  • feedparser._FeedParserMixin.unknown_starttag
  • feedparser._FeedParserMixin.unknown_endtag

В верхней части каждого метода вы можете вставитьобратный вызов вашей собственной подпрограммы, которая будет фиксировать элементы и их атрибуты при их обнаружении feedparser.

...