Проблема в том, что большинство пользователей, которые задают вопрос, связанный с HTML и регулярным выражением, делают это, потому что они не могут найти собственное регулярное выражение, которое работает. Тогда нужно подумать, будет ли все проще при использовании парсера DOM или SAX или чего-то подобного. Они оптимизированы и сконструированы для работы с XML-подобными структурами документов.
Конечно, есть проблемы, которые можно легко решить с помощью регулярных выражений. Но акцент делается на легко .
Если вы просто хотите найти все URL, которые выглядят как http://.../
, вы можете использовать регулярные выражения. Но если вы хотите найти все URL-адреса в a-элементе, который имеет класс «mylink», вам, вероятно, лучше использовать соответствующий анализатор.