Я работаю над сканированием страниц для получения информации и столкнулся с множеством проблем при разборе страниц в Groovy. Я сделал полу-решение, которое работает большую часть времени, используя юниверсал чарде и просто сканируя страницу на наличие тега в голове, но иногда два из этих тегов находятся на одной странице, например:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
...
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
Существует ли стандарт, по которому можно использовать (первый, последний, оба ...?) Или какой-то более простой способ сделать это? Спасибо.