Я использую http://code.google.com/p/feedparser/ для написания простого интегратора новостей.
Но я хочу чистый текст (с тегами <p>
), но без URL-адресов или изображений (т. Е. Нет <a>
)или <img>
теги).
Вот два способа сделать это:
1. Редактировать исходный код.http://code.google.com/p/feedparser/source/browse/branches/f8dy/feedparser/feedparser.py
class _HTMLSanitizer(_BaseHTMLProcessor):
acceptable_elements =[....]
Просто удалите теги a & img.
2.
import feedparser
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('a')
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('img')
При использовании feedparser сначала удалите два тега.
Какой метод лучше?
Есть ли другие хорошие методы?
Большое спасибо!