Обработка HTML кода - PullRequest
       8

Обработка HTML кода

3 голосов
/ 22 октября 2010

Я хочу обработать некоторый HTML-код и удалить теги, как в примере:

"

Это - очень интересный абзац.

" приводит к "Этоочень интересный абзац. "

Я использую Python в качестве технологии;Знаете ли вы какие-либо рамки, которые я могу использовать для удаления тегов HTML?

Спасибо!

Ответы [ 5 ]

5 голосов
/ 22 октября 2010

Этот вопрос может вам помочь: Убрать HTML из строк в Python

Независимо от того, какое решение вы выберете, я бы рекомендовал избегать регулярных выражений. Они могут быть медленными при обработке больших строк, они могут не работать из-за неверного HTML, а удаление HTML с помощью регулярных выражений не всегда безопасно или надежно.

4 голосов
/ 22 октября 2010
1 голос
/ 22 октября 2010

вы можете использовать lxml .

1 голос
/ 22 октября 2010

В зависимости от ваших потребностей, вы можете просто использовать регулярное выражение /<(.|\n)*?>/ и заменить все совпадения пустыми строками.Это отлично работает для ручных случаев, но если вы строите это как функцию приложения, вам понадобится более надежный и безопасный вариант.

1 голос
/ 22 октября 2010
import libxml2

text = "<p><b>This</b> is a very interesting paragraph.</p>"
root = libxml2.parseDoc(text)
print root.content

# 'This is a very interesting paragraph.'
...