Удаление неработающих тегов и плохо отформатированного HTML из некоторого текста - PullRequest
4 голосов
/ 19 августа 2010

У меня есть огромная база сообщений на форуме, которые я вставляю на сайт. однако многие люди пытаются использовать html в своих сообщениях на форуме и часто делают это неправильно. из-за этого в сообщениях всегда есть блуждающие <strike> <b> </strike> </div> </b> теги, которые в итоге будут портить формат веб-страницы, когда я добавлю, скажем, 15 сообщений на форуме.

сейчас я только что добавил все возможные конечные теги к сообщению, чтобы он мог перехватить любой открытый тег ... есть ли лучший способ сделать это, не разбирая текст и пытаясь вручную удалить каждое открытое тег. для старых сообщений на форуме это дорогая транзакция для веб-приложения.

Ответы [ 3 ]

1 голос
/ 19 августа 2010

Посмотрите на HTML Tidy

Существует также оболочка Python: µTidylib

В качестве альтернативы есть Очиститель HTML

0 голосов
/ 19 августа 2010

Смотрите также lxml.

0 голосов
/ 19 августа 2010

Beautiful Soup неплохо справляется с очисткой HTML.

...