Java регулярное выражение для HTML ""разбор - PullRequest
1 голос
/ 21 января 2011

Я новичок в регулярных выражениях, может кто-нибудь помочь мне получить регулярное выражение для анализа тега

<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> 

со всеми возможностями?

1 Ответ

2 голосов
/ 21 января 2011

Чтобы охватить «все возможности», вы действительно должны использовать HTML 5 Определение правил кодирования символов . Они не могут быть выражены как регулярное выражение.

Существует открытый исходный код Реализация Java в validator.nu


Если вы настаиваете на использовании регулярного выражения, то это, вероятно, охватит большинство случаев, когда кодировка, объявленная метаэлементом (например, не будет охватывать объявления XML) Это, однако, грязно, делает некоторые предположения, которые обычно (но не всегда) правильны, и я не рекомендую это.

/<meta[^>]+charset=['"]?(.*?)['"]?[\/\s>]/i
...