Как очистить HTML, оставив только теги <a><b> <i><p>? - PullRequest
0 голосов
/ 16 января 2019

Мне нужно обработать очень большой объем текста HTML для преобразования в epub, и каждое «автоматизированное» решение, которое я нашел и попробовал, далеко не удовлетворительное.

Итак, я думал о решении для пакетных команд регулярных выражений, но я слишком неграмотен, чтобы заставить его работать, особенно учитывая возможные случаи вложенности. Кто-нибудь может помочь или указать мне верное решение?

Заранее спасибо!

1 Ответ

0 голосов
/ 16 января 2019

Лучшее решение - использовать анализатор HTML. Для простых случаев вы можете попробовать следующее регулярное выражение: <[abip]>[^<>]*<\/[abip]>|<[abip][^<>]*\/>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...