Удивительно, как никто, когда решает проблему использования RegEx с HTML, часто сталкивается с проблемой HTML НЕ правильной формы, что делает многие HTML-парсеры совершенно бесполезными.
Если вы разрабатываете инструменты для анализа веб-страниц и тот факт, что они не являются правильно сформированным HTML, утверждение «Regex никогда не следует использовать для разбора HTML« og »используйте анализатор HTML», является просто фальшивым. Факты таковы, что в реальном мире люди создают HTML по своему усмотрению - и не обязательно подходят для анализаторов.
RegEx является полностью допустимым способом поиска элементов в тексте, то есть в HTML. Если есть какой-либо другой разумный способ противостоять проблемам, с которыми сталкивается оригинальный постер, разместите их, вместо того чтобы ссылаться на выражение «использовать анализатор» или «RTFM».