Как удалить HTML-теги с помощью универсального анализатора каналов? - PullRequest
3 голосов
/ 03 мая 2009

В документации перечислены теги, которые разрешены / удалены по умолчанию:

http://www.feedparser.org/docs/html-sanitization.html

Но это ничего не говорит о том, как вы можете указать, какие дополнительные теги вы хотите удалить.

Есть ли способ сделать это, используя Universal Feed Parser, или вам нужно выполнить дальнейшую обработку, используя ваш собственный regex и / или что-то вроде Beautiful Soup?

1 Ответ

6 голосов
/ 03 мая 2009

Я быстро просмотрел код и не думаю, что есть способ переписать их напрямую. Но вы можете перезаписать feedparser._HTMLSanitizer.acceptable_elements, список тегов, которые не будут удалены перед выполнением feedparser.parse

...